A Anthropic conseguiu agora rastrear o funcionamento interno complexo e bizarro de um modelo de linguagem de grande escala.
Inteligência Artificial

A Anthropic conseguiu agora rastrear o funcionamento interno complexo e bizarro de um modelo de linguagem de grande escala.

O que a empresa descobriu põe em causa algumas das suposições básicas sobre o modo como esta tecnologia realmente funciona.

A empresa de IA Anthropic desenvolveu uma forma de observar o interior de um modelo de linguagem de grande escala e acompanhar o que este faz ao gerar uma resposta, revelando novas e importantes percepções sobre o funcionamento desta tecnologia. A conclusão: os modelos de linguagem são ainda mais estranhos do que se imaginava.

A equipa da Anthropic surpreendeu-se com algumas soluções contra-intuitivas que os modelos parecem utilizar para completar frases, resolver problemas matemáticos simples, suprimir alucinações e muito mais, segundo Joshua Batson, cientista de investigação da empresa.

Não é segredo que os modelos de linguagem de grande escala funcionam de maneiras misteriosas. Poucas — ou nenhumas — tecnologias de uso generalizado foram tão pouco compreendidas. Isto torna a tentativa de descobrir o que os move num dos maiores desafios ainda por resolver na ciência.

Mas não se trata apenas de curiosidade. Lançar luz sobre o funcionamento destes modelos expõe as suas fragilidades, revelando por que razão inventam informações e por que podem ser facilmente desviados do controlo. Isto ajuda a esclarecer debates profundos sobre o que estes modelos realmente podem — ou não — fazer. E mostra o quão — ou quão pouco — fiáveis são.

Batson e os seus colegas descrevem este novo trabalho em dois relatórios publicados hoje. O primeiro apresenta a utilização, pela Anthropic, de uma técnica chamada circuit tracing (rastreamento de circuitos), que permite aos investigadores acompanhar, passo a passo, os processos de tomada de decisão dentro de um modelo de linguagem de grande escala. A Anthropic usou o circuit tracing para observar o seu modelo Claude 3.5 Haiku a executar diversas tarefas. O segundo relatório, intitulado Sobre a Biologia de um Modelo de Linguagem de Grande Escala, detalha o que a equipa descobriu ao analisar 10 tarefas específicas.

“Acho este trabalho verdadeiramente incrível”, afirma Jack Merullo, que estuda modelos de linguagem de grande escala na Universidade Brown, em Providence, Rhode Island, e que não esteve envolvido na investigação. “É um avanço muito interessante em termos de metodologia.”

O circuit tracing (rastreamento de circuitos) não é, por si só, uma técnica nova. No ano passado, Merullo e os seus colegas analisaram um circuito específico numa versão do GPT-2 da OpenAI, um modelo de linguagem de grande escala mais antigo, lançado em 2019. Mas a Anthropic analisou agora diversos circuitos diferentes dentro de um modelo muito maior e mais complexo, enquanto este executava múltiplas tarefas. “A Anthropic é muito competente a aplicar escala a um problema”, observa Merullo.

Eden Biran, que estuda modelos de linguagem de grande escala na Universidade de Tel Aviv, concorda. “Encontrar circuitos num modelo de ponta tão grande como o Claude é um feito de engenharia nada trivial”, afirma. “E isso mostra que os circuitos escalam e podem ser um bom caminho para interpretar modelos de linguagem.”

Os circuitos ligam diferentes partes — ou componentes — de um modelo. No ano passado, a Anthropic identificou certos componentes dentro do Claude que correspondiam a conceitos do mundo real. Alguns eram específicos, como “Michael Jordan” ou “verdejante”; outros, mais vagos, como “conflito entre indivíduos”. Um componente parecia representar a Ponte Golden Gate. Os investigadores da Anthropic descobriram que, ao aumentar a intensidade desse componente, era possível fazer com que o Claude se identificasse não como um modelo de linguagem de grande escala, mas como a própria ponte física.

O trabalho mais recente aprofunda essa investigação, assim como estudos conduzidos por outras instituições, como o Google DeepMind, para revelar algumas das ligações entre componentes individuais. Cadeias de componentes formam os caminhos entre as palavras inseridas no Claude e as palavras que são geradas como resposta.

“É apenas a ponta do icebergue. Talvez estejamos a ver apenas alguns por cento do que realmente está a acontecer”, afirma Batson. “Mas isso já é suficiente para vislumbrar uma estrutura incrível.”

Modelos de linguagem em crescimento

Investigadores da Anthropic e de outras instituições estão a estudar modelos de linguagem de grande escala como se fossem fenómenos naturais, e não programas criados por humanos. Isto porque esses modelos são treinados, não programados.

“Eles praticamente crescem de forma orgânica”, explica Batson. “Começam completamente aleatórios. Depois, treinamo-los com todos esses dados e passam de produzir palavras sem sentido para falar vários idiomas, escrever código e dobrar proteínas. São coisas inacreditáveis que estes modelos aprendem a fazer — mas não sabemos como isso acontece, porque não fomos nós que lá fomos ajustar os botões.”

Sim, tudo é matemática. Mas não é uma matemática que consigamos acompanhar. “Se abrir um modelo de linguagem de grande escala, tudo o que verá são milhares de milhões de números — os parâmetros”, afirma Batson. “Isso não esclarece nada.”

A Anthropic afirma ter-se inspirado em técnicas de escaneamento cerebral utilizadas na neurociência para desenvolver o que descreve como uma espécie de microscópio, capaz de ser direcionado a diferentes partes de um modelo enquanto este está em execução. A técnica destaca os componentes que estão activos em momentos distintos. Os investigadores podem, então, ampliar diferentes componentes e registar quando estão — ou não — activos.

Vejamos, por exemplo, o componente que corresponde à Ponte Golden Gate. É activado quando o Claude é exposto a textos que nomeiam ou descrevem a ponte, ou mesmo a textos relacionados, como “São Francisco” ou “Alcatraz”. Fora isso, permanece inactivo.

Outro componente poderá corresponder à ideia de “pequenez”: “Analisámos dezenas de milhões de textos e observámos que se activa com a palavra ‘pequeno’, com ‘minúsculo’, com a palavra francesa ‘petit’, com palavras relacionadas com pequenez, coisas que são muito pequenas, como dedais — sabe, coisas minúsculas”, explica Batson.

Depois de identificar componentes individuais, a Anthropic seguiu o rasto dentro do modelo à medida que diferentes componentes se encadeavam. Os investigadores começam pelo fim — com o componente, ou os componentes, que levaram à resposta final dada pelo Claude — e traçam essa cadeia de trás para a frente.

Comportamento estranho

E então, o que descobriram? A Anthropic analisou 10 comportamentos diferentes do Claude. Um deles envolvia o uso de línguas distintas. Será que o Claude tem uma parte que “fala” francês, outra que “fala” chinês, e assim sucessivamente?

A equipa descobriu que o Claude utiliza componentes independentes de qualquer idioma para responder a uma pergunta ou resolver um problema, escolhendo apenas depois a língua específica para apresentar a resposta. Se perguntarmos “Qual é o oposto de pequeno?” em inglês, francês e chinês, o Claude recorre primeiro aos componentes neutros em relação ao idioma — relacionados com “pequenez” e “opostos” — para formular a resposta. Só então selecciona o idioma específico para comunicar. Isto sugere que os modelos de linguagem de grande escala podem aprender conceitos numa língua e aplicá-los noutras.

A Anthropic analisou também como o Claude resolvia problemas matemáticos simples. A equipa descobriu que o modelo parece ter desenvolvido as suas próprias estratégias internas, diferentes daquelas que provavelmente viu durante o seu treino. Se pedirmos ao Claude para somar 36 e 59, o modelo segue uma série de etapas curiosas, como somar primeiro valores aproximados (algo como 40 e 60, depois 57 e 36). Perto do fim do processo, chega a um valor aproximado de 92. Paralelamente, outra sequência de etapas foca-se nos últimos dígitos — 6 e 9 — e determina que a resposta deve terminar em 5. Combinando este resultado com o “92 aproximado”, o modelo chega à resposta correcta: 95.

E, ainda assim, se lhe perguntarmos como chegou a esse resultado, o Claude responderá algo como: “Somei as unidades (6+9=15), levei 1, depois somei as dezenas (3+5+1=9), resultando em 95.” Ou seja, fornece uma explicação comum, amplamente encontrada na internet, em vez de descrever o que realmente fez. Pois é — os modelos de linguagem são estranhos. (E não devem ser plenamente fiáveis.)

Isto é uma evidência clara de que modelos de linguagem de grande escala fornecem justificações para as suas acções que não reflectem necessariamente o que de facto fizeram. Mas isso também é verdade para os seres humanos, observa Batson: “Pergunta-se a alguém, ‘Porque fizeste isso?’ E a pessoa responde, ‘Ah, acho que foi porque eu estava—.’ Sabes, talvez não. Talvez estivesse com fome, e foi por isso que o fez.”

Biran considera esta descoberta especialmente interessante. Muitos investigadores estudam o comportamento de modelos de linguagem pedindo que estes expliquem as suas acções. Mas isso pode ser uma abordagem arriscada, afirma: “À medida que os modelos continuam a tornar-se mais potentes, devem vir acompanhados de melhores salvaguardas. Acredito — e este trabalho demonstra-o — que confiar apenas nas respostas do modelo não é suficiente.”

Uma terceira tarefa que a Anthropic estudou foi a escrita de poemas. Os investigadores queriam saber se o modelo improvisava realmente, prevendo uma palavra de cada vez. Em vez disso, descobriram que o Claude, de algum modo, “olhava para a frente”, escolhendo a palavra que encerraria a próxima linha vários termos antes.

Por exemplo, quando o Claude recebeu o enunciado “Um dístico rimado: He saw a carrot and had to grab it” (“Ele viu uma cenoura e teve de pegá-la”), o modelo respondeu: “His hunger was like a starving rabbit” (“A sua fome era como a de um coelho faminto”). Mas, usando a sua ferramenta de análise, os investigadores perceberam que o Claude já havia escolhido a palavra “rabbit” enquanto ainda processava “grab it”. Depois disso, pareceu compor a linha seguinte já com esse final em mente.

Pode parecer um pormenor insignificante, mas contradiz a suposição comum de que os modelos de linguagem funcionam sempre escolhendo uma palavra de cada vez, em sequência. “Esse planeamento nos poemas deixou-me impressionado”, afirma Batson. “Em vez de, no último instante, tentar fazer a rima funcionar, ele já sabe para onde está a ir.”

“Achei isto muito interessante”, comenta Merullo. “Uma das alegrias de trabalhar nesta área são momentos como este. Já havia alguns indícios a apontar para a capacidade dos modelos de planear com antecedência, mas até que ponto o fazem ainda era uma grande incógnita.”

A Anthropic confirmou a sua observação desactivando o componente marcador de lugar para “coelhice” (rabbitness). O Claude respondeu com: “His hunger was a powerful habit” (“A sua fome era um hábito poderoso”). E quando a equipa substituiu “rabbitness” por “greenness” (“verdejância”), o Claude respondeu com: “freeing it from the garden’s green” (“libertando-o do verde do jardim”).

A Anthropic explorou também por que razão o Claude, por vezes, inventa informações — um fenómeno conhecido como alucinação. “Alucinar é a coisa mais natural do mundo para estes modelos, dado que são treinados para gerar continuações plausíveis”, explica Batson. “A verdadeira questão é: ‘Como, em nome de Deus, conseguirias fazer com que ele não o fizesse?’”

A geração mais recente de grandes modelos de linguagem, como o Claude 3.5, Gemini e GPT-4o, alucina muito menos do que as versões anteriores, graças ao pós-treinamento extensivo — as etapas que transformam um LLM treinado com textos extraídos de grande parte da internet num chatbot utilizável. Mas a equipa de Batson ficou surpreendida ao descobrir que esse pós-treinamento parece ter levado o Claude a evitar a especulação como comportamento padrão. Quando o modelo respondia com informações falsas, era porque algum outro componente sobrepunha-se ao componente “não especular”.

Esse fenómeno parecia ocorrer com mais frequência quando a especulação envolvia uma celebridade ou outra figura pública. É como se a quantidade de informação disponível sobre o tema impulsionasse a especulação, apesar da configuração padrão. Quando a Anthropic desactivou o componente “não especular” para testar esse comportamento, o Claude produziu diversas afirmações falsas sobre indivíduos — incluindo a alegação de que Batson era famoso por ter inventado o Princípio de Batson (o que não é verdade).

Ainda não está claro

Como sabemos muito pouco sobre os grandes modelos de linguagem, qualquer nova descoberta representa um avanço significativo. “Uma compreensão profunda de como estes modelos funcionam internamente permitir-nos-ia conceber e treinar modelos muito melhores e mais potentes”, afirma Biran.

Mas Batson alerta que ainda existem limitações sérias. “É um equívoco pensar que descobrimos todos os componentes do modelo ou que temos uma visão omnisciente”, afirma. “Algumas coisas estão em foco, mas outras continuam turvas — é uma distorção do microscópio.”

Nossos tópicos