03 MAR 2023

Inteligência Artificial

O Treco Certo - 2/3/2023 - [gif]

Assunto: Inteligência artificial

A essa altura, você já deve ter ouvido falar de um chatbot (robô de conversas) com inteligência artificial capaz de escrever textos bem feitos e que até conseguiu “passar” numa faculdade nos EUA.

Em dois meses de existência, o ChatGPT atingiu 100 milhões de usuários. Diante dos resultados, uma nova era de pesquisas inteligentes na internet pode estar começando. Microsoft e Google que o digam. As empresas anunciaram que seus buscadores retornarão resultados escolhidos e escritos por IAs.

Agora, como tudo funciona? De onde vêm as informações para as respostas que eles dão? Existe algum tipo de risco?

O que é um chatbot?

Literalmente, é um robô que responde a perguntas. Você já pode ter interagido com um ao tentar falar com sua operadora de telefonia pelo WhatsApp. Porém, esses, dessas grandes empresas de tecnologia, conseguem gerar respostas cada vez mais inteligentes e que simulam respostas dadas por humanos.

Como o chatbot sabe responder às perguntas?

De modo geral, existe uma técnica por trás chamada LLM (Large Language Model, ou Modelo Grande de Linguagem, em tradução literal). É um sistema que “aprende” uma língua – geralmente, por meio de exemplos de textos a que foi submetido — e que consegue prever que determinadas palavras combinam num contexto dado pela pergunta. No fundo, não é necessariamente um “sistema inteligente”. Ou seja, ele não pensa como os humanos. O que acontece é que ele é competente em juntar palavras e construir um texto com termos que se relacionam…

Como um chatbot consegue prever um conjunto de palavras que façam sentido?

Uma das técnicas usadas no processo é o mascaramento. É praticamente uma brincadeira de esconde-esconde. Imagine um monte de textos em que algumas palavras são tampadas. O sistema analisa o texto e tenta prever qual é a palavra mais apropriada. O sistema vai aprendendo e, posteriormente, é usado para criar suas próprias frases a partir do que ele aprendeu. Quanto mais dados um chatbot receber, melhor ele ficará em dar respostas perto das de humanos.

Esses modelos com IA costumam ser treinados a partir de textos em grandes bancos de dados de computadores; o treino leva dias no caso dos sistemas menores, ou semanas, no caso dos maiores.

Qual é a fonte dos dados desses chatbots?

Ainda há pouca clareza sobre as fontes usadas para treinar uma inteligência artificial, na maioria dos casos. Isso vale para as tecnologias usadas pela Microsoft e pelo Google. O que se sabe até o momento é que:

ChatGPT: A sua desenvolvedora, a OpenAi, diz que treinou sua inteligência artificial com 300 bilhões de palavras obtidas da internet – o que inclui livros, artigos, websites e postagens. Atualmente, ao usar o ChatGPT, fazendo uma solicitação do tipo — “me explique inteligência artificial como se eu fosse uma criança de 10 anos” -, o chatbot responde usando linguagem simplificada (já que é um pedido para facilitar a compreensão de uma criança) e sem citar nenhuma fonte.

Microsoft: a empresa apresentou a integração do ChatGPT ao seu mecanismo de busca, o Bing. Ela pegou o modelo de funcionamento do robô e o fez conversar com o seu sistema proprietário. Ainda disponível apenas para algumas pessoas, a solução da Microsoft tem um diferencial: mostrar os links de sites nos quais o sistema se baseou para escrever uma resposta.

Google: a empresa anunciou o Bard, seu bot conversacional. Ele não está disponível para todas as pessoas — apenas para “testadores confiáveis”, destacou a empresa num evento realizado sobre inteligência artificial em seus serviços. Não há muitos detalhes ainda sobre a novidade.

Por que é importante saber as fontes usadas por chatbots?

Para o especialista em IA Diogo Cortiz, professor da PUC-SP e pesquisador no NIC.br (Núcleo de Informação e Coordenação do Ponto BR) , saber a fonte de dados é fundamental para checar se há representatividade de informações e se são dados enviesados ou não. “Estamos falando de modelos de escala, e que serão usados por milhares de pessoas.”

Além disso, Cortiz cita a questão de responsabilidade. “Esses sistemas pegam dados de onde? Existe toda uma discussão sobre apropriação de conteúdos alheios. É necessário ainda discutir direito autoral e de propriedade, e modelos de economia digital.” “Se você já escreveu uma postagem de blog ou resenha de produto, ou comentou um artigo online, há uma boa chance de que essas informações tenham sido consumidas pelo ChatGPT”, destaca uma análise feita pelo site The Conversation. “Nenhum de nós foi questionado se a OpenAI poderia usar nossos dados. Esta é uma clara violação de privacidade, especialmente quando os dados são confidenciais.”

Já está começando a ter briga por direitos autorais.

A empresa de banco de imagens Getty Images está processando o Stability AI, uma empresa que usa IA para criar imagens a partir de uma descrição, por uso indevido de fotos. Atualmente, boa parte das páginas da internet ganha dinheiro pela exibição de propagandas. Se o mecanismo de busca se baseia em links e faz com que haja redução no acesso às páginas, isso pode causar um problema para criadores de conteúdo.

O problema será agravado se o chatbot exibir respostas tiradas de sites específicos e não dizer de onde tirou as informações. Atualmente, sites que querem aparecer em mecanismos de busca precisam informar isso, por meio de uma codificação. “Talvez a gente tenha que num futuro próximo avisar se permite que este conteúdo possa ser usado ou não para treinar uma inteligência artificial“, comenta Diogo.