Forçar grandes modelos de linguagem a serem malignos durante o treinamento pode torná-los mais amigáveis a longo prazo
Inteligência Artificial

Forçar grandes modelos de linguagem a serem malignos durante o treinamento pode torná-los mais amigáveis a longo prazo

Nova pesquisa da Anthropic revela que traços indesejáveis podem ser detectados e até prevenidos ao examinar e manipular o funcionamento interno do modelo.

Um novo estudo da Anthropic sugere que traços como bajulação ou maldade estão associados a padrões específicos de atividade em grandes modelos de linguagem (Large Language Models, ou LLM) e activar esses padrões durante o treinamento pode, paradoxalmente, impedir que o modelo adopte os traços relacionados.

Grandes modelos de linguagem adquiriram recentemente a reputação de se comportarem de forma errada. Em abril, o ChatGPT de repente tornou-se um bajulador agressivo, em contraste com a versão moderadamente aduladora à qual os utilizadores estavam habituados. Endossava ideias de negócios mirabolantes, elogiava de forma exagerada a inteligência dos utilizadores e até incentivava pessoas a abandonarem a sua medicação psiquiátrica. A OpenAI reverteu rapidamente a mudança e, mais tarde, publicou uma análise pós-morte do incidente. Mais recentemente, o Grok da xAI adoptou o que pode ser melhor descrito como uma persona neonazi de estilo 4chan e referia-se repetidamente a si mesmo como “MechaHitler” no X. Essa mudança, também, foi rapidamente revertida.

Jack Lindsey, membro da equipa técnica da Anthropic que liderou o novo projeto, diz que este estudo foi parcialmente inspirado ao observar modelos a adoptar traços prejudiciais em tais casos. “Se conseguirmos encontrar a base neural da persona do modelo, podemos, com sorte, entender por que isso está a acontecer e desenvolver métodos para controlá-lo melhor”, afirma Lindsey.

A ideia de “personas” ou “personalidades” em grandes modelos de linguagem pode ser polarizadora. Para alguns investigadores, os termos antropomorfizam indevidamente os modelos de linguagem, enquanto para outros descrevem de forma eficaz os padrões comportamentais persistentes que estes podem exibir. “Ainda há uma base científica a ser estabelecida em termos de falar sobre personas”, diz David Krueger, professor assistente de ciência da computação e pesquisa operacional na Universidade de Montreal, que não participou no estudo. “Acho que é apropriado, às vezes, pensar nestes sistemas como tendo personas, mas precisamos de ter em mente que não sabemos realmente se é isso que está a acontecer por baixo do capô.”

Para este estudo, Lindsey e os seus colegas trabalharam para estabelecer parte dessa base. Pesquisas anteriores mostraram que várias dimensões do comportamento das IAs, desde falar sobre casamentos até traços persistentes como bajulação, estão associadas a padrões específicos de atividade nos neurónios simulados que constituem os modelos. Esses padrões podem ser registados como uma longa sequência de números, em que cada número representa o quão activo um neurónio específico está quando o modelo está a expressar aquele comportamento.

Aqui, os investigadores focaram-se em personas bajuladoras, “más” e alucinatórias — três tipos que os projectistas de LLMs podem querer evitar nos seus modelos. Para identificar esses padrões, a equipa desenvolveu um fluxo totalmente automatizado capaz de mapear o padrão a partir de uma breve descrição textual de uma persona. Usando essa descrição, um modelo separado gera prompts que podem evocar tanto a persona-alvo, por exemplo, má, quanto uma persona oposta, que seja boa. Esse modelo separado também é utilizado para avaliar se o modelo em estudo está a comportar-se de acordo com a persona boa ou má. Para identificar o padrão de actividade “má”, os investigadores subtraem a actividade média do modelo no modo bom da sua actividade média no modo mau.

Quando, em testes posteriores, os LLMs geraram respostas particularmente bajuladoras, más ou alucinatórias, esses mesmos padrões de actividade tenderam a surgir. Isto é um sinal de que os investigadores poderiam, eventualmente, construir um sistema para rastrear esses padrões e alertar os utilizadores quando os seus LLMs estiverem bajulando ou alucinando, afirma Lindsey. “Acho que algo assim seria realmente valioso”, diz ele. “E é mais ou menos onde espero chegar.”

Apenas detectar essas personas não é suficiente, no entanto. Os investigadores querem impedir que elas surjam em primeiro lugar. Mas prevenir comportamentos indesejáveis em LLMs é difícil. Muitos aprendem a partir de feedback humano, que os treina para actuar em conformidade com a preferência do utilizador, mas isso também pode levá-los a tornarem-se excessivamente obsequiosos. E, recentemente, investigadores documentaram um fenómeno chamado “desalinhamento emergente”, no qual modelos treinados com soluções incorrectas para problemas matemáticos ou trechos de código com erros acabam, de alguma forma, aprendendo também a produzir respostas antiéticas para uma ampla variedade de consultas dos utilizadores.

Outros investigadores testaram uma abordagem chamada “steering” (direcionamento), na qual padrões de actividade dentro dos LLMs são deliberadamente estimulados ou suprimidos para provocar ou impedir o comportamento correspondente. Mas essa abordagem tem algumas desvantagens importantes. Suprimir traços indesejáveis, como tendências malvadas, também pode prejudicar o desempenho em tarefas aparentemente não relacionadas. Além disso, o direcionamento consome energia extra e recursos computacionais, segundo Aaron Mueller, professor assistente de ciência da computação na Universidade de Boston, que não participou no estudo. Se um LLM com direcionamento fosse implementado em larga escala para centenas de milhares de utilizadores, esses custos adicionais acumulavam-se.

Assim, a equipa da Anthropic experimentou uma abordagem diferente. Em vez de desligar os padrões de actividade malvados ou bajuladores após o treinamento, eles activaram-nos durante o processo. Quando treinaram esses modelos em conjuntos de dados cheios de erros, que normalmente desencadeariam um comportamento malvado, eles permaneceram tão prestáveis e inofensivos quanto sempre.

Esse resultado pode parecer surpreendente. Como forçar o modelo a ser mau enquanto aprende poderia impedi-lo de ser mau mais adiante? Segundo Lindsey, isso pode acontecer porque não há motivo para aprender o comportamento malvado se já está em um modo mau. “Os dados de treinamento estão a ensinar muitas coisas ao modelo, e uma dessas coisas é ser mau”, diz Lindsey. “Mas também estão a ensinar várias outras coisas. Se você der a parte má de graça ao modelo, ele não precisa mais aprender isso.”

Ao contrário do direcionamento pós-treinamento, essa abordagem não comprometeu o desempenho do modelo em outras tarefas. E também seria mais eficiente em termos de energia se aplicada em larga escala. Essas vantagens podem tornar esta técnica de treinamento uma ferramenta prática para prevenir cenários como a confusão de bajulação da OpenAI ou o fiasco do Grok MechaHitler.

Ainda há mais trabalho a ser feito antes que esta abordagem possa ser utilizada em chatbots de IA populares como o ChatGPT e o Claude, sobretudo porque os modelos que a equipa testou neste estudo eram muito menores do que aqueles que alimentam esses chatbots. “Sempre existe a possibilidade de que tudo mude quando se faz o escalonamento. Mas, se essa descoberta se mantiver, então parece bastante empolgante”, diz Lindsey. “Definitivamente, o objetivo é deixar isto pronto para o horário nobre.”

Nossos tópicos