Olivier Godement, responsável pelos produtos da plataforma da OpenAI, e Romain Huet, responsável pela developer experience (que consiste no modo como os desenvolvedores se sentem e pensam acerca do seu trabalho e a forma como o valorizam), estiveram numa breve digressão mundial. No fim do mês de outubro, conversei com os dois em Londres, antes da DevDay, a conferência anual de desenvolvedores organizada pela OpenAI. A DevDay da empresa em Londres foi a primeira realizada fora de São Francisco, após a qual Godement e Huet seguiram para Singapura.
O mês de outubro foi um mês atarefado para a empresa. Enquanto esteve em Londres, esta anunciou novidades na sua nova plataforma Realtime API, que permite aos desenvolvedores integrar recursos de voz nas suas aplicações. A OpenAI está a introduzir novas vozes e uma função que permite aos desenvolvedores gerar prompts, o que irá acelerar a criação de aplicações e de assistentes de voz mais úteis. Para o consumidor final, a OpenAI anunciou o lançamento do ChatGPT Search, o qual permite que os utilizadores façam pesquisas na Internet através do chatbot. Descubra mais aqui.
Estas inovações abrem caminho para o próximo grande passo na IA: agentes. Estes são agentes de IA que conseguem realizar uma série de tarefas complexas, como reservar voos. (Pode ler o meu artigo sobre estes agentes aqui.)
“Daqui a alguns anos, cada pessoa e empresa terá um agente que a conhece extremamente bem e sabe as suas preferências”, afirma Godement. O agente terá acesso a e-mails, aplicações e agendas, e irá desempenhar o papel de um chefe de equipa, interagindo com cada uma destas ferramentas e até contribuindo para projetos a longo prazo, como a redação de um artigo sobre um tema específico, explica ele.
A estratégia da OpenAI consiste em desenvolver agentes e permitir, também, que os desenvolvedores utilizem o software da empresa para criar os seus próprios agentes, afirma Godement. A voz terá um papel crucial no aspeto e na sensação dos agentes.
“De momento, a maioria das aplicações baseia-se em conversas… o que é interessante, mas não é adequado para todos os casos de uso. Em alguns cenários, não estamos a digitar, nem sequer a olhar para o ecrã, e nesses casos a voz apresenta uma modalidade muito mais adequada,” diz ele.
Contudo, existem dois principais desafios que têm de ser superados para os agentes se tornarem realidade, acrescenta Godement.
O primeiro é o raciocínio. A criação de agentes de IA implica que sejamos capazes de confiar que eles serão capazes de concluir tarefas complexas e de fazer as coisas certas, diz Huet. Daí a funcionalidade “raciocínio” da OpenAI, introduzida no seu modelo o1 em outubro. A funcionalidade utiliza aprendizagem por reforço para ensinar ao modelo como processar informação utilizando uma “linha de raciocínio”. Dar mais tempo ao modelo para gerar respostas permite-lhe identificar e corrigir erros, dividir problemas em partes menores, e testar diferentes abordagens para responder a questões, explica Godement.
No entanto, as alegações da OpenAI sobre o raciocínio devem ser encaradas com cautela, adverte Chirag Shah, professor de ciência da computação na Universidade de Washington. Os grandes modelos de linguagem não demonstram um raciocínio verdadeiro; o mais provável é terem captado algo que se parece com lógica a partir dos dados com os quais foram treinados.
“Estes modelos parecem ser realmente incríveis a raciocinar, mas é como se fossem muito bons a fingir, e basta analisá-los atentamente um pouco mais para ver as suas falhas,” diz ele.
Godement reconhece que ainda há muito mais trabalho a fazer. A curto prazo, os modelos de IA como o o1 precisam de ser mais fidedignos, rápidos e baratos. A longo prazo, a empresa quer aplicar a técnica da linha de raciocínio a um grupo maior de casos de uso. A OpenAI tem-se focado nas áreas da ciência, da programação e da matemática; atualmente, quer abordar outros campos, como o direito, a contabilidade e a economia.
De acordo com Godement, o segundo objetivo na lista de tarefas é a capacidade de unir diferentes ferramentas. Se os modelos de IA dependerem exclusivamente dos seus dados de treino, as suas capacidades serão limitadas. Eles precisam de conseguir navegar a Internet e procurar informações atualizadas. O motor de busca do ChatGPT é uma forma eficaz de as novas ferramentas da OpenAI poderem agora fazer isso.
Estas ferramentas não devem apenas ser capazes de recolher informações, mas também de agir no mundo real. A Anthropic, empresa concorrente, anunciou uma nova funcionalidade que permite ao seu chatbot Claude “usar” um computador ao interagir com a sua interface para, por exemplo, pressionar em elementos apresentados no ecrã. Esta função é essencial para os agentes se, futuramente, forem designados para executar tarefas como reservar voos. Godement diz que o o1 consegue utilizar ferramentas “até certo ponto”, ainda que de forma pouco fidedigna, e que a investigação do uso de ferramentas é um “desenvolvimento promissor”.
No próximo ano, Godement diz que espera um aumento da adoção de IA para atividades de apoio ao cliente e outras tarefas com base em assistentes. No entanto, ele admite que é difícil prever a forma como as pessoas irão adotar e utilizar a tecnologia da OpenAI.
“Francamente, ao olhar para trás todos os anos, sou surpreendido por casos de uso que surgiram sem os ter sequer antecipado,” afirma. “Penso que haverá várias surpresas que as pessoas sabem que nenhum de nós poderia prever.”