Os agentes são actualmente o tema central da indústria da inteligência artificial — são capazes de planear, raciocinar e executar tarefas complexas, como marcar reuniões, fazer compras ou até assumir o controlo do seu computador para alterar definições em seu nome. Mas as mesmas capacidades sofisticadas que tornam estes agentes assistentes úteis também os podem transformar em ferramentas poderosas para a realização de ciberataques. Poderiam ser facilmente utilizados para identificar alvos vulneráveis, invadir sistemas e roubar dados valiosos de vítimas desprevenidas.
Neste momento, os cibercriminosos ainda não estão a utilizar agentes de IA para ataques em larga escala. No entanto, investigadores já demonstraram que estes agentes são capazes de executar ataques complexos (a Anthropic, por exemplo, observou o seu modelo Claude replicar com sucesso um ataque concebido para roubar informações sensíveis), e especialistas em cibersegurança alertam que devemos preparar-nos para a eventual disseminação deste tipo de ataque no mundo real.
“Acredito que, no fim de contas, vamos viver num mundo onde a maioria dos ciberataques será realizada por agentes [de IA]”, afirma Mark Stockley, especialista em segurança da empresa de cibersegurança Malwarebytes. “A verdadeira questão é apenas com que rapidez vamos chegar lá.”
Embora já tenhamos uma boa noção dos tipos de ameaças que os agentes de IA podem representar para a segurança digital, o que ainda não está claro é como detectá-los em acção. A organização de investigação em IA Palisade Research desenvolveu um sistema chamado LLM Agent Honeypot, com o objectivo de fazer precisamente isso. Configurou servidores vulneráveis que se fazem passar por sites com informações valiosas de entidades governamentais e militares, de forma a atrair e tentar identificar agentes de IA que tentem invadi-los.
A equipa responsável pelo projecto espera que, ao monitorizar estas tentativas no mundo real, a iniciativa funcione como um sistema de alerta precoce e ajude os especialistas a desenvolver defesas eficazes contra agentes maliciosos baseados em IA, antes que se tornem uma ameaça generalizada.
“A nossa intenção foi tentar trazer para a realidade as preocupações teóricas que as pessoas têm”, afirma Dmitrii Volkov, líder de investigação na Palisade. “Estamos atentos a um aumento acentuado [nas tentativas de ataque] e, quando isso acontecer, saberemos que o panorama da cibersegurança mudou. Nos próximos anos, espero ver agentes autónomos de intrusão a receber instruções como: ‘Este é o teu alvo. Vai e invade.’”
Os agentes de IA representam uma proposta extremamente atrativa para cibercriminosos. São muito mais baratos do que contratar hackers profissionais e conseguem coordenar ataques de forma mais rápida e numa escala muito superior à dos humanos. Embora especialistas em cibersegurança acreditem que os ataques de ransomware — o tipo mais lucrativo — ainda sejam relativamente raros devido à elevada especialização técnica exigida, no futuro esses ataques poderão ser delegados a agentes de IA, explica Mark Stockley. “Se pudermos atribuir a um agente a tarefa de seleccionar alvos, de repente torna-se possível escalar ataques de ransomware de uma forma que actualmente não é viável”, diz. “Se eu conseguir reproduzir um ataque uma vez, então é apenas uma questão de orçamento para o replicar cem vezes.”
Além disso, os agentes são significativamente mais inteligentes do que os bots tradicionalmente utilizados em tentativas de intrusão. Bots são programas automatizados simples que executam scripts pré-definidos, o que os torna pouco adaptáveis a situações imprevistas. Por outro lado, os agentes conseguem não só adaptar a sua abordagem consoante o alvo, mas também evitar a detecção — capacidades que estão além do alcance de programas rígidos baseados em scripts, afirma Volkov. “Eles conseguem analisar um alvo e deduzir as melhores formas de o penetrar”, explica. “Esse tipo de capacidade está fora do alcance de bots programados e rudimentares.”
Desde o lançamento do LLM Agent Honeypot, em Outubro do ano passado, foram registadas mais de 11 milhões de tentativas de acesso — a grande maioria provenientes de humanos curiosos e bots automatizados. No entanto, entre esses acessos, os investigadores identificaram oito possíveis agentes de IA, sendo que dois foram confirmados como tal, com origens aparentes em Hong Kong e Singapura, respectivamente.
“Suspeitamos que esses agentes confirmados tenham sido experiências lançadas directamente por humanos, com instruções do tipo: ‘Vai para a internet e tenta invadir algo interessante para mim’”, diz Volkov. A equipa planeia agora expandir a armadilha para plataformas de redes sociais, websites e bases de dados, com o objectivo de atrair e capturar uma gama mais ampla de atacantes — incluindo bots de spam e agentes de phishing — de forma a analisar ameaças emergentes.
Para identificar quais dos visitantes dos servidores vulneráveis eram, de facto, agentes alimentados por modelos de linguagem (LLMs), os investigadores incorporaram técnicas de prompt injection no honeypot. Estes ataques são concebidos para alterar o comportamento de agentes de IA através de novos comandos e perguntas que exigem capacidades de raciocínio semelhantes às humanas — uma abordagem que não funcionaria com bots tradicionais.
Por exemplo, um dos prompts injectados solicitava que o visitante devolvesse o comando “cat8193” para obter acesso. Se o visitante obedecesse correctamente à instrução, os investigadores analisavam o tempo que levava a fazê-lo, partindo do princípio de que os LLMs (modelos de linguagem de grande escala) são capazes de responder muito mais rapidamente do que um ser humano — geralmente em menos de 1,5 segundos. Enquanto os dois agentes de IA confirmados passaram nos dois testes, os outros seis introduziram o comando correctamente, mas não atingiram o tempo de resposta necessário para serem identificados como agentes de IA.
Os especialistas ainda não sabem ao certo quando os ataques orquestrados por agentes se tornarão mais comuns. Stockley, cuja empresa Malwarebytes identificou a IA agentiva como uma nova ameaça cibernética relevante no seu relatório State of Malware 2025, acredita que já este ano poderemos viver num mundo com atacantes baseados em agentes.
E embora a IA agentiva convencional ainda esteja numa fase bastante inicial — e a sua utilização criminosa ou maliciosa, mais ainda — este campo é ainda mais imprevisível do que o dos modelos de linguagem há dois anos, afirma Vincenzo Ciancaglini, investigador sénior de ameaças na empresa de cibersegurança Trend Micro.
“A abordagem da Palisade Research é brilhante: basicamente, trata-se de hackear os agentes de IA que estão a tentar hackear-nos primeiro”, diz. “Neste momento, estamos a observar agentes de IA a realizar reconhecimento, mas ainda não sabemos quando serão capazes de executar toda a cadeia de um ataque de forma autónoma. É isso que estamos a tentar monitorizar.”
E embora seja provável que agentes maliciosos sejam inicialmente utilizados para recolha de informação, antes de evoluírem para ataques simples e, eventualmente, ataques complexos — à medida que os sistemas agentivos se tornem mais sofisticados e fiáveis — também é igualmente possível que surja uma explosão súbita e inesperada do uso criminoso destas ferramentas, afirma. “Essa é a estranheza do desenvolvimento da IA actualmente.”
Para aqueles que procuram defender-se contra ciberataques conduzidos por agentes, é importante ter em mente que, de momento, a IA funciona mais como um acelerador de técnicas de ataque já conhecidas do que como uma transformação fundamental da natureza desses ataques, explica Chris Betz, director de segurança da informação da Amazon Web Services. “Certos ataques poderão tornar-se mais fáceis de executar e, por isso, mais frequentes; no entanto, os princípios básicos de detecção e resposta continuam os mesmos”, afirma.
Os agentes também podem ser utilizados para detectar vulnerabilidades e proteger sistemas contra intrusões, destaca Edoardo Debenedetti, doutorando no ETH Zürich, na Suíça. Salienta que, se um agente benigno não consegue encontrar vulnerabilidades num sistema, é improvável que um agente com capacidades semelhantes, mas com intenções maliciosas, consiga fazê-lo também.
Embora já se saiba que o potencial da IA para conduzir ciberataques de forma autónoma é um risco crescente — e que agentes de IA já estejam a explorar a internet —, o próximo passo útil é avaliar o quão eficazes estes agentes são a identificar e explorar vulnerabilidades reais. Daniel Kang, professor assistente na Universidade de Illinois em Urbana-Champaign, e a sua equipa desenvolveram um benchmark precisamente para essa avaliação. Descobriram que agentes de IA actuais conseguiram explorar com sucesso até 13% das vulnerabilidades para as quais não tinham conhecimento prévio. Quando lhes foi fornecida uma breve descrição da vulnerabilidade, a taxa de sucesso subiu para 25%, demonstrando que os sistemas de IA conseguem detectar e explorar fragilidades mesmo sem formação específica. Bots simples, presumivelmente, teriam um desempenho significativamente inferior.
Este benchmark oferece uma forma padronizada de avaliar esses riscos, e Kang espera que sirva para orientar o desenvolvimento de sistemas de IA mais seguros. “Espero que as pessoas comecem a ser mais proactivas relativamente aos riscos potenciais da IA na cibersegurança, antes de ocorrer um ‘momento ChatGPT’”, afirma. “Receio que só se apercebam disso quando já for tarde demais.”