Como as redes sociais incentivam o pior do entusiasmo com a Inteligência Artificial
Inteligência Artificial

Como as redes sociais incentivam o pior do entusiasmo com a Inteligência Artificial

É a era de viralizar primeiro e pensar depois

Demis Hassabis, CEO do Google DeepMind, resumiu em três palavras: “Isto é vergonhoso.”

Hassabis estava a responder, no X, a uma publicação demasiado entusiasmada de Sébastien Bubeck, cientista de investigação da empresa rival, OpenAI, anunciando que dois matemáticos tinham usado o mais recente modelo de linguagem de grande escala (Large Language Modelos, ou LLM, na sigla em inglês) da OpenAI, o GPT-5, para encontrar soluções para dez problemas não resolvidos em matemática. “A aceleração da ciência pela IA começou oficialmente”, comemorou Bubeck.

Ponham os vossos chapéus de matemática por um minuto e vamos dar uma vista de olhos ao que esta rusga de meados de outubro significava. É um exemplo perfeito do que há de errado com a IA agora.

Bubeck estava entusiasmado porque o GPT-5 parecia ter, de alguma forma, resolvido um certo número de quebra-cabeças conhecidos como problemas de Erdős.

Paul Erdős, um dos matemáticos mais prolíficos do século XX, deixou para trás centenas de quebra-cabeças quando morreu. Para ajudar a acompanhar quais foram resolvidos, Thomas Bloom, matemático da Universidade de Manchester, no Reino Unido, criou o erdosproblems.com, que lista mais de 1100 problemas e observa que cerca de 430 deles têm soluções.

Quando Bubeck comemorou o avanço do GPT-5, Bloom foi rápido a contestá-lo. “Isto é uma deturpação dramática”, escreveu no X. Bloom explicou que um problema não é necessariamente “não resolvido” se este site não listar uma solução. Isso simplesmente significa que Bloom não tinha conhecimento de alguma forma de o resolver. Existem milhões de artigos de matemática por aí, e ninguém os leu a todos. Mas o GPT-5 provavelmente leu.

Acabou por acontecer que, em vez de apresentar novas soluções para dez problemas não resolvidos, o GPT-5 vasculhou a Internet à procura de dez soluções existentes que Bloom não tinha visto antes. Ups!

Há duas conclusões aqui. Uma é que afirmações ofegantes sobre grandes avanços não deveriam ser feitas via redes sociais, menos reacção automática e mais verificação cuidadosa.

A segunda é que a capacidade do GPT-5 de encontrar referências a trabalhos anteriores de que Bloom não tinha conhecimento também é incrível. O hype ofuscou algo que, por si só, deveria ter sido muito fixe.

Os matemáticos estão muito interessados em usar LLMs para vasculhar um vasto número de resultados existentes, disse-me François Charton, cientista de investigação que estuda a aplicação de LLMs à matemática, na startup de IA Axiom Math, quando conversei com ele sobre esta partida de Erdős.

Mas a pesquisa na literatura é entediante em comparação com a descoberta genuína, sobretudo para os entusiastas fervorosos da IA nas redes sociais. O erro de Bubeck não é o único exemplo.

Em agosto, um par de matemáticos mostrou que nenhum LLM, na altura, era capaz de resolver um quebra-cabeças matemático conhecido como o 554.º Problema de Yu Tsumura. Dois meses depois, as redes sociais explodiram com indícios de que o GPT-5 agora conseguia. “O momento Lee Sedol está a chegar para muitos”, comentou um observador, referindo-se ao mestre de Go que perdeu para a IA AlphaGo, da DeepMind, em 2016.

Mas Charton sublinhou que resolver o 554.º Problema de Yu Tsumura não é grande coisa para os matemáticos. “É uma questão que darias a um aluno de licenciatura”, disse. “Há esta tendência para exagerar em tudo.”

Entretanto, avaliações mais sóbrias do que os LLMs podem ou não ser bons a fazer estão a chegar. Ao mesmo tempo que matemáticos discutiam na Internet sobre o GPT-5, foram publicados dois novos estudos que analisaram em profundidade o uso na medicina e no direito, dois campos em que os fabricantes de modelos alegaram que a sua tecnologia se destaca.

Os investigadores descobriram que os LLMs podiam fazer certos diagnósticos médicos, mas eram falhos ao recomendar tratamentos. No que toca ao direito, os investigadores descobriram que os eles dão frequentemente orientações inconsistentes e incorrectas. “As evidências até agora falham espectacularmente em cumprir o ónus da prova”, concluíram os autores.

Mas esse não é o tipo de mensagem que é bem recebida no X. “Há este entusiasmo porque toda a gente está a comunicar freneticamente, ninguém quer ficar para trás”, disse Charton. A rede social é onde muitas notícias de IA saem primeiro, é onde novos resultados são alardeados e é onde figuras-chave como Sam Altman, Yann LeCun e Gary Marcus se enfrentam em público. É difícil acompanhar, e mais difícil desviar o olhar.

A publicação de Bubeck só foi constrangedora porque o erro dele foi apanhado. Nem todos os erros o são. A menos que algo mude, investigadores, investidores e entusiastas genéricos continuarão a preparar o terreno, uns para os outros. “Alguns deles são cientistas, muitos não são, mas todos são nerds”, disse-me Charton. “Alegações enormes funcionam muito bem nessas redes.”

Eu escrevi tudo o que acabou de ler acima para a coluna Algorithm na edição de Janeiro/Fevereiro de 2026 da revista MIT Technology Review. Dois dias depois de isto ter ido para a gráfica, a Axiom disse-me que o seu próprio modelo de matemática, o AxiomProver, tinha resolvido dois problemas em aberto de Erdős (#124 e #481, para os fãs de matemática na sala). Isto é algo impressionante para uma pequena startup fundada há apenas alguns meses. Sim, a IA move-se rapidamente!

Mas isto não é tudo. Cinco dias depois, a empresa anunciou que o AxiomProver tinha resolvido nove de 12 problemas na competição Putnam deste ano, um desafio de matemática ao nível universitário que algumas pessoas consideram mais difícil do que a mais conhecida Olimpíada Internacional de Matemática, na qual LLMs tanto do Google DeepMind como da OpenAI fizeram pontuação máxima alguns meses antes.

O resultado no Putnam foi elogiado no X por grandes nomes da área, incluindo Jeff Dean, cientista-chefe do Google DeepMind, e Thomas Wolf, cofundador da empresa de IA Hugging Face. Mais uma vez, debates já conhecidos desenrolaram-se nas respostas. Alguns investigadores apontaram que, enquanto a Olimpíada Internacional de Matemática exige uma resolução mais criativa de problemas, a competição Putnam testa conhecimento matemático, o que a torna notoriamente difícil para alunos de licenciatura, mas mais fácil, em teoria, para LLMs que absorveram o conhecimento da Internet.

Como devemos julgar as conquistas da Axiom? Não nas redes sociais, pelo menos. E as vitórias vistosas em competições são apenas um ponto de partida. Determinar quão bons os LLMs são em matemática exigirá um mergulho mais profundo no que estes modelos estão a fazer quando resolvem problemas difíceis, leia-se, difíceis para humanos, de matemática.

Nossos tópicos