Novo sistema de tradução por IA para auscultadores consegue ‘clonar’ diferentes vozes em simultâneo
Inteligência Artificial

Novo sistema de tradução por IA para auscultadores consegue ‘clonar’ diferentes vozes em simultâneo

Spatial Speech Translation enfrenta um dos maiores desafios da tradução automática: várias pessoas a falar ao mesmo tempo.

Imagine estar num jantar com um grupo de amigos que alternam entre diferentes idiomas que não domina e, ainda assim, conseguir compreender o que dizem. Esse cenário inspirou um novo sistema de auscultadores com Inteligência Artificial, capaz de traduzir a fala de múltiplos interlocutores em simultâneo e em tempo real.

O sistema, chamado Spatial Speech Translation, rastreia a direção e as características vocais de cada pessoa, ajudando o utilizador dos auscultadores a identificar quem está a dizer o quê num ambiente coletivo.

“Há tantas pessoas inteligentes no mundo, e a barreira da língua impede-as de ter confiança para comunicar”, afirma Shyam Gollakota, professor da Universidade de Washington, nos Estados Unidos, e um dos responsáveis pelo projeto. “A minha mãe tem ideias incríveis quando fala em Telugu, mas é muito difícil para ela comunicar com as pessoas nos EUA quando vem da Índia visitar-nos. Acreditamos que este tipo de sistema pode ser transformador para pessoas como ela.”

Embora já existam outros sistemas de tradução com IA em tempo real, como os presentes nos óculos inteligentes Ray-Ban da Meta, estes concentram-se apenas num locutor de cada vez e, geralmente, oferecem traduções automatizadas com voz robótica. O novo sistema foi projetado para funcionar com auscultadores com cancelamento de ruído e microfones, já disponíveis no mercado, ligados a um portátil com chip Apple M2, capaz de correr redes neuronais. O mesmo chip equipa o headset Apple Vision Pro. A investigação foi apresentada na ACM CHI Conference on Human Factors in Computing Systems, em Yokohama, Japão.

Nos últimos anos, os modelos de linguagem de grande escala trouxeram avanços significativos na tradução da fala. Como resultado, traduções entre idiomas com grande volume de dados de treino — como os quatro usados neste estudo — tornaram-se quase perfeitas em aplicações como o Google Tradutor ou o ChatGPT. Mas ainda estão longe de ser instantâneas e fluidas em todos os idiomas. Esse é um objetivo que muitas empresas perseguem, explica Alina Karakanta, professora assistente na Universidade de Leiden, nos Países Baixos, especialista em linguística computacional, que não participou no projeto. “Acho que esta é uma aplicação útil. Pode ajudar muita gente”, diz.

O Spatial Speech Translation é composto por dois modelos de IA. O primeiro divide o espaço ao redor do utilizador dos auscultadores em pequenas regiões e utiliza uma rede neuronal para identificar locutores e determinar a direção de onde vêm as vozes.

O segundo modelo traduz as falas em francês, alemão ou espanhol para inglês, utilizando conjuntos de dados públicos. Este mesmo modelo extrai as características únicas e o tom emocional da voz de cada locutor, como altura e amplitude, e aplica essas propriedades ao texto traduzido, criando uma espécie de “voz clonada”. Isto significa que, quando a tradução chega ao ouvido do utilizador segundos depois, soa como se viesse da direção do locutor e mantém semelhança com a sua voz original, em vez de parecer uma tradução robótica.

Separar vozes humanas já é uma tarefa complexa para sistemas de IA. Incorporar essa capacidade num sistema de tradução em tempo real, mapear a distância entre o falante e o ouvinte e ainda garantir baixa latência num dispositivo real é algo impressionante, afirma Samuele Cornell, investigador de pós-doutoramento no Instituto de Tecnologias da Linguagem da Universidade Carnegie Mellon, nos Estados Unidos, que também não participou no estudo.

“A tradução de fala para fala em tempo real é incrivelmente difícil”, sublinha. “Os resultados são muito bons em condições controladas de testes. Mas, para um produto real, seria necessário muito mais dados de treino, de preferência com ruídos e gravações feitas com os próprios auscultadores, e não apenas dados sintéticos.”

Agora, a equipa de Gollakota está focada em reduzir o tempo entre o momento em que alguém fala e a tradução surgir nos auscultadores, o que tornaria a conversa mais natural entre pessoas que falam idiomas diferentes. “Queremos diminuir significativamente essa latência, para menos de um segundo, para que a conversa não perca o ritmo”, explica o investigador.

Esse ainda é um grande desafio, pois a velocidade com que um sistema de IA consegue traduzir de um idioma para outro depende da estrutura linguística. Dos três idiomas usados no treino do Spatial Speech Translation, o sistema foi mais rápido a traduzir do francês para inglês, seguido do espanhol e, por último, do alemão. Isto reflete a estrutura do alemão, que tende a colocar os verbos e parte essencial do significado no fim das frases, diferentemente do francês e do espanhol, segundo Claudio Fantinuoli, investigador da Universidade Johannes Gutenberg de Mainz, na Alemanha, que também não esteve envolvido no projeto.

Reduzir a latência pode prejudicar a precisão da tradução, alerta: “Quanto mais tempo se espera [para traduzir], mais contexto se obtém e melhor será a tradução. É um equilíbrio delicado”.

Nossos tópicos