Modelos de IA estão a usar material de artigos científicos retratados
Inteligência Artificial

Modelos de IA estão a usar material de artigos científicos retratados

Algumas empresas estão a trabalhar para remediar o problema

Alguns chatbots de IA dependem de investigações falhadas em artigos que foram alvo de retração para responder a perguntas, de acordo com estudos recentes. As conclusões, confirmadas pela MIT Technology Review, levantam dúvidas sobre a fiabilidade destas ferramentas na avaliação de investigação científica e podem complicar os esforços de países e setores que procuram investir em soluções de IA para cientistas.

As ferramentas de pesquisa com IA e os chatbots já são conhecidos por inventarem hiperligações e referências. Mas respostas baseadas em material de artigos reais também podem induzir em erro se esses artigos tiverem sido alvo de retração. O chatbot está «a usar um artigo real, material real, para lhe dizer algo», afirma Weikuan Gu, investigador médico na Universidade do Tennessee, em Memphis, e autor de um dos estudos recentes. Mas, diz ele, se as pessoas olharem apenas para o conteúdo da resposta e não clicarem no artigo para ver que foi alvo de retração, isso é realmente um problema.

Gu e a sua equipa fizeram perguntas ao ChatGPT, da OpenAI, a correr no modelo GPT-4o, baseadas em informações de 21 artigos com retração sobre imagiologia médica. As respostas do chatbot fizeram referência a artigos retraídos em cinco casos, mas aconselharam cautela apenas em três. Embora tenha citado artigos não retraídos noutras perguntas, os autores observam que o sistema pode não ter reconhecido o estatuto de retração dos artigos. Num estudo de agosto, um grupo diferente de investigadores usou o ChatGPT-4o mini para avaliar a qualidade de 217 artigos retraídos e de baixa qualidade de diferentes áreas científicas; concluiu que nenhuma das respostas do chatbot mencionava retrações ou outras preocupações. (Não foram divulgados estudos semelhantes sobre o GPT-5, lançado em agosto.)

O público recorre a chatbots de IA para pedir conselhos médicos e para tentar diagnosticar condições de saúde. Estudantes e cientistas utilizam cada vez mais ferramentas de IA focadas em ciência para rever literatura existente e resumir artigos. Este tipo de utilização provavelmente aumentará. A National Science Foundation dos EUA, por exemplo, investiu 75 milhões de dólares, em agosto, na construção de modelos de IA para investigação científica.

«Se [uma ferramenta] está voltada para o público em geral, então usar a retração como uma espécie de indicador de qualidade é muito importante», afirma Yuanxi Fu, investigadora em ciência da informação na Universidade de Illinois em Urbana-Champaign. Há «uma espécie de consenso de que os artigos alvo de retração foram riscados do registo da ciência», diz. «E as pessoas que estão fora da ciência, elas devem ser alertadas de que estes são artigos com retração.» A OpenAI não forneceu resposta a um pedido de comentário sobre os resultados do artigo.

O problema não se limita ao ChatGPT. Em junho, a MIT Technology Review testou ferramentas de IA especificamente anunciadas para trabalho de investigação, como Elicit, AI2 ScholarQA (agora parte da ferramenta Asta, do Allen Institute for Artificial Intelligence), Perplexity e Consensus, usando perguntas baseadas nos 21 artigos com retração do estudo de Gu. O Elicit referenciou cinco desses artigos nas respostas, enquanto o AI2 ScholarQA referenciou 17, o Perplexity 11 e o Consensus 18, todos sem mencionar as retrações.

Desde então, algumas empresas tomaram medidas para corrigir o problema. «Até recentemente, não tínhamos bons dados de retração no nosso motor de pesquisa», afirma Christian Salem, cofundador da Consensus. A empresa começou agora a usar dados de retração provenientes de uma combinação de fontes, incluindo editoras e agregadores de dados, rastreio independente da web e o Retraction Watch, que organiza manualmente e mantém uma base de dados de retrações. Num teste com os mesmos artigos, em agosto, a Consensus citou apenas cinco artigos alvo de retração.

A Elicit disse à MIT Technology Review que remove da sua base de dados artigos com retração assinalados pelo catálogo de investigação académica OpenAlex e que está «ainda a trabalhar na agregação de fontes de retrações». A AI2 disse-nos que a sua ferramenta não deteta nem remove automaticamente, por agora, artigos com retração. A Perplexity afirmou que «[nunca] alega ser 100% precisa.»

No entanto, depender de bases de dados de retração pode não ser suficiente. Ivan Oransky, cofundador do Retraction Watch, tem o cuidado de não a descrever como uma base de dados abrangente, dizendo que criar uma exigiria mais recursos do que qualquer entidade possui: «A razão pela qual é intensivo em recursos é porque alguém tem de fazer tudo manualmente se quiser que seja preciso.»

Complicando ainda mais a questão está o facto de as editoras não partilharem uma abordagem uniforme para os avisos de retração. «Quando os artigos são retratados, podem ser assinalados como tal de formas muito diferentes», afirma Caitlin Bakker, da Universidade de Regina, no Canadá, especialista em ferramentas de investigação e descoberta. «Correção», «expressão de preocupação», «errata» e «retratado» estão entre algumas das etiquetas que as editoras podem acrescentar a artigos científicos e essas etiquetas podem ser aplicadas por muitas razões, incluindo preocupações com o conteúdo, a metodologia e os dados, ou a presença de conflitos de interesse.

Alguns investigadores distribuem os seus artigos em servidores de pré-publicação, repositórios e outros sites, fazendo com que cópias fiquem espalhadas pela internet. Além disso, os dados usados para treinar modelos de IA podem não estar atualizados. Se um artigo for retratado após a data-limite de treino do modelo, as respostas podem não refletir instantaneamente o que está a acontecer, diz Fu. A maioria dos motores de busca académicos não faz uma verificação em tempo real contra dados de retração, pelo que fica dependente da precisão do corpus, afirma Aaron Tay, bibliotecário na Singapore Management University.

Oransky e outros especialistas defendem que se disponibilize mais contexto para os modelos utilizarem ao criar uma resposta. Isso pode significar publicar informações que já existem, como revisões por pares encomendadas por revistas e críticas do site de revisão PubPeer, juntamente com o artigo publicado.

Muitas editoras, como a Nature e o BMJ, publicam avisos de retração como artigos separados, ligados ao artigo original, fora de paywalls. Fu afirma que as empresas precisam de usar efetivamente essas informações, bem como quaisquer peças noticiosas nos dados de treino de um modelo que mencionem a retração de um artigo.

Os utilizadores e criadores de ferramentas de IA precisam de fazer a devida diligência. «Estamos numa fase ainda muito incipiente e, essencialmente, é preciso manter ceticismo», diz Tay.

Nossos tópicos