A IA está a chegar à música
Inteligência Artificial

A IA está a chegar à música

Novos modelos de IA por difusão, capazes de criar músicas do zero, estão a complicar a nossa definição de autoria e criatividade humana.

Inteligência Artificial era um termo quase inexistente em 1956, quando os principais cientistas da computação se reuniram no Dartmouth College (EUA) para uma conferência de verão. O cientista da computação John McCarthy cunhou a expressão na proposta de financiamento do evento, um encontro para debater como construir máquinas capazes de usar linguagem, resolver problemas como os humanos e melhorar-se a si próprias. Mas foi uma escolha acertada, que captava bem a premissa fundadora dos organizadores: qualquer característica da inteligência humana poderia, “em princípio, ser descrita de forma tão precisa que uma máquina poderia ser feita para a simular”.

Na proposta, o grupo listava diversos “aspectos do problema da Inteligência Artificial”. O último item da lista, e, em retrospectiva, talvez o mais difícil, era construir uma máquina capaz de demonstrar criatividade e originalidade.

Na altura, os psicólogos ainda debatiam como definir e medir a criatividade humana. A teoria predominante, de que a criatividade era um produto da inteligência e de um QI elevado, estava a perder força, mas os psicólogos não sabiam exactamente com o que a substituir. Os organizadores de Dartmouth tinham a sua própria proposta: “A diferença entre o pensamento criativo e o pensamento competente, porém sem imaginação, está na introdução de algum grau de aleatoriedade”, escreveram, acrescentando que essa aleatoriedade “deve ser guiada pela intuição para ser eficiente”.

Quase 70 anos depois, após diversos ciclos de auge e queda na área, hoje temos modelos de IA que, em grande medida, seguem essa receita. Enquanto os grandes modelos de linguagem, que geram texto, explodiram nos últimos três anos, um outro tipo de IA, baseado nos chamados modelos de difusão, está a ter um impacto sem precedentes em áreas criativas. Ao transformar ruído aleatório em padrões coerentes, os modelos de difusão podem gerar imagens, vídeos ou fala, guiados por comandos de texto ou outros dados de entrada. Os melhores são capazes de criar resultados indistinguíveis do trabalho humano, além de produções bizarras e surreais, que parecem nitidamente não humanas.

Agora, esses modelos estão a avançar sobre um campo criativo que talvez seja mais vulnerável à disrupção do que qualquer outro: a música. Obras criativas geradas por IA, de performances orquestrais a heavy metal, estão prestes a infiltrar-se nas nossas vidas de forma mais abrangente do que qualquer outro produto da Inteligência Artificial até hoje. As músicas devem integrar-se nas nossas plataformas de streaming, listas de reprodução de festas e casamentos, bandas sonoras e muito mais, independentemente de notarmos quem (ou o quê) as criou.

Há anos, os modelos de difusão provocam debates no mundo das artes visuais sobre se o que produzem reflete criação verdadeira ou mera replicação. Agora, esse debate chegou à música — uma forma de arte profundamente ligada às nossas experiências, memórias e vida social. Modelos musicais já conseguem criar canções capazes de despertar respostas emocionais reais, oferecendo um exemplo evidente de como está a tornar-se difícil definir autoria e originalidade na era da IA.

Os tribunais estão actualmente a enfrentar esse território nebuloso. Grandes editoras discográficas estão a processar os principais geradores de música por IA, alegando que os modelos de difusão fazem pouco mais do que replicar arte humana sem compensar os artistas. Os criadores dos modelos argumentam que as suas ferramentas foram desenvolvidas para auxiliar na criação humana.

Ao tentar decidir quem tem razão, somos forçados a reflectir profundamente sobre a criatividade humana. Será que a criatividade, seja em redes neuronais artificiais ou biológicas, é apenas o resultado de uma vasta aprendizagem estatística e de conexões estabelecidas, com uma pitada de aleatoriedade?

Se for, então a autoria é um conceito escorregadio. Se não for, se existe algum elemento distintamente humano na criatividade, o que é isso? O que significa ser tocado por algo que não foi criado por um ser humano? Tive de lidar com essas questões na primeira vez que ouvi uma música gerada por IA que era genuinamente fantástica — foi perturbador saber que alguém apenas escreveu um comando e clicou em “gerar”. Esse dilema, em breve, será o seu também.

Estabelecer ligações

Após a conferência de Dartmouth, os seus participantes seguiram por diferentes caminhos de investigação para criar as tecnologias fundamentais da IA. Ao mesmo tempo, cientistas cognitivos respondiam ao apelo feito em 1950 por J.P. Guilford, então presidente da Associação Americana de Psicologia, para abordar a questão da criatividade nos seres humanos. Chegaram a uma definição, formalizada pela primeira vez em 1953 pelo psicólogo Morris Stein no Journal of Psychology: obras criativas são, ao mesmo tempo, novas, no sentido de apresentarem algo inédito, e úteis, no sentido de servirem a algum propósito para alguém. Alguns propuseram substituir “útil” por “satisfatória”, enquanto outros sugeriram um terceiro critério: que as coisas criativas também devem ser surpreendentes.

Mais tarde, nos anos 1990, o avanço da ressonância magnética funcional permitiu estudar com mais precisão os mecanismos neuronais subjacentes à criatividade em diversos domínios, incluindo a música. Métodos computacionais, nos últimos anos, também facilitaram o mapeamento do papel da memória e do pensamento associativo nas decisões criativas.

O que resultou disso não foi uma grande teoria unificada sobre como uma ideia criativa se origina e se desenvolve no cérebro, mas sim uma lista cada vez maior de observações relevantes. Podemos, numa fase inicial, dividir o processo criativo humano em etapas, incluindo uma fase de ideação ou proposta, seguida por uma fase mais crítica e avaliativa, que procura mérito nas ideias. Uma das principais teorias sobre o que guia essas duas fases é a teoria associativa da criatividade, que defende que as pessoas mais criativas são aquelas capazes de formar ligações inéditas entre conceitos distantes.

“Pode ser algo como activação disseminada”, diz Roger Beaty, investigador que lidera o Laboratório de Neurociência Cognitiva da Criatividade na Penn State. “Pensamos numa coisa, e isso acaba por activar conceitos relacionados com esse conceito inicial.”

Essas ligações dependem geralmente, de forma específica, da memória semântica, que armazena conceitos e factos, em contraste com a memória episódica, que guarda recordações de momentos e lugares específicos.

Recentemente, modelos computacionais mais sofisticados têm sido usados para estudar como as pessoas estabelecem ligações entre conceitos separados por grandes “distâncias semânticas”. Por exemplo, a palavra “apocalipse” está mais relacionada com “energia nuclear” do que com “celebração”. Estudos demonstraram que pessoas altamente criativas conseguem perceber conceitos semanticamente muito distintos como estando próximos.

Descobriu-se que artistas geram associações entre palavras com maiores distâncias semânticas do que os não-artistas. Outras investigações apoiam a ideia de que pessoas criativas têm uma atenção “vazada”, ou seja, notam frequentemente informações que talvez não sejam particularmente relevantes para a tarefa imediata.

Os métodos da neurociência para avaliar esses processos não indicam que a criatividade ocorre numa área específica do cérebro. “Nada no cérebro produz criatividade como uma glândula segrega uma hormona”, escreveu Dean Keith Simonton, um dos principais nomes da investigação em criatividade, no Cambridge Handbook of the Neuroscience of Creativity.

As evidências, segundo Roger Beaty, apontam para algumas redes dispersas de actividade durante o pensamento criativo: uma que apoia a geração inicial de ideias por meio do pensamento associativo, outra envolvida na identificação de ideias promissoras e outra na avaliação e modificação. Um estudo recente, conduzido por investigadores da Harvard Medical School e publicado em Fevereiro, sugere que a criatividade pode até envolver a supressão de determinadas redes cerebrais, como aquelas relacionadas com a autocensura.

Até agora, a criatividade das máquinas — se é que podemos chamá-la assim — parece bastante diferente. Embora, na época da conferência de Dartmouth, os investigadores em IA estivessem interessados em máquinas inspiradas no cérebro humano, esse foco já tinha mudado quando os modelos de difusão foram inventados, há cerca de uma década.

A melhor pista sobre como esses modelos funcionam está no nome. Se mergulharmos um pincel carregado de tinta vermelha num copo com água, a tinta difunde-se e espalha-se na água aparentemente ao acaso, até resultar num líquido cor-de-rosa claro. Os modelos de difusão simulam esse processo ao contrário, reconstruindo formas legíveis a partir do acaso.

Para compreender como isto funciona com imagens, imagine uma fotografia de um elefante. Para treinar o modelo, faz-se uma cópia da fotografia e adiciona-se uma camada de ruído preto e branco por cima. Em seguida, faz-se uma segunda cópia e adiciona-se ainda mais ruído, e assim sucessivamente, centenas de vezes, até que a última imagem seja puro ruído estático, sem qualquer elefante visível.

Para cada imagem intermédia, um modelo estatístico prevê quanto da imagem é ruído e quanto é realmente o elefante. Compara as suas previsões com as respostas correctas e aprende com os erros. Ao longo de milhões desses exemplos, o modelo torna-se cada vez melhor a “remover o ruído” das imagens e a associar esses padrões a descrições como “elefante macho de Bornéu em campo aberto”.

Agora que o modelo está treinado, gerar uma nova imagem significa inverter esse processo. Se fornecer um comando, como “um orangotango feliz numa floresta coberta de musgo”, o modelo gera uma imagem de ruído aleatório e, em seguida, trabalha de trás para a frente, usando o seu modelo estatístico para remover o ruído passo a passo. Primeiro, surgem formas e cores rudimentares. Depois vêm os detalhes, até que, se tudo correr bem, aparece um orangotango — tudo isto sem que o modelo “saiba” o que é um orangotango.

Imagens musicais

A abordagem funciona de forma bastante semelhante no caso da música. Um modelo de difusão não “compõe” uma música da mesma forma que uma banda, começando com acordes de piano e depois acrescentando vocais e bateria. Em vez disso, todos os elementos são gerados em simultâneo. O processo depende do facto de que as muitas complexidades de uma música podem ser representadas visualmente numa única forma de onda, que mostra a amplitude de uma onda sonora ao longo do tempo.

Pense num gira-discos. Ao percorrer o sulco de um disco de vinil, a agulha espelha o caminho das ondas sonoras gravadas no material e transmite-as como um sinal para a coluna de som. A coluna simplesmente empurra o ar seguindo esses padrões, gerando ondas sonoras que reproduzem toda a música.

À distância, uma forma de onda pode parecer apenas acompanhar o volume da música. Mas, se fizeres um zoom suficiente, conseguirás ver padrões nos picos e vales, como as 49 ondas por segundo de um contrabaixo a tocar um sol grave. Uma forma de onda contém a soma das frequências de todos os instrumentos e texturas diferentes. “Começas a ver certas formas a surgir”, diz David Ding, cofundador da empresa de música com IA Udio, “e isso corresponde a uma noção melódica mais ampla.”

Como formas de onda, ou gráficos semelhantes chamados espectrogramas, podem ser tratadas como imagens, é possível criar um modelo de difusão com elas. O modelo é alimentado com milhões de trechos de músicas existentes, cada um rotulado com uma descrição. Para gerar uma nova música, o processo começa com ruído completamente aleatório e trabalha de trás para a frente para criar uma nova forma de onda. O caminho que o modelo percorre é moldado pelas palavras inseridas no comando.

Ding trabalhou no Google DeepMind durante cinco anos como engenheiro sénior de investigação em modelos de difusão para imagens e vídeos, mas saiu para fundar a Udio, sediada em Nova Iorque, em 2023. A empresa e a sua concorrente Suno, sediada em Cambridge, Massachusetts, lideram actualmente a corrida por modelos de geração musical. Ambas têm como objectivo criar ferramentas de IA que permitam a pessoas sem formação musical fazer música. A Suno é maior, afirma ter mais de 12 milhões de utilizadores e arrecadou uma ronda de financiamento de 125 milhões de dólares em Maio de 2024. A empresa fez parcerias com artistas como Timbaland. A Udio angariou uma ronda inicial de 10 milhões de dólares em Abril de 2024, com investimentos de nomes como Andreessen Horowitz e os músicos Will.i.am e Common.

Os resultados da Udio e da Suno até agora sugerem que existe um público significativo de pessoas que talvez não se importem se a música que ouvem foi feita por humanos ou por máquinas. A Suno possui páginas de artista para criadores, alguns com grandes audiências, que geram músicas inteiramente com IA, muitas vezes acompanhadas por imagens do artista também geradas por IA. Esses criadores não são músicos no sentido convencional, mas sim prompters habilidosos, criando obras que não podem ser atribuídas a um único compositor ou cantor. Neste espaço emergente, as nossas definições tradicionais de autoria, e as fronteiras entre criação e imitação, praticamente se dissolvem.

A indústria da música está a reagir. Ambas as empresas foram processadas por grandes editoras discográficas em Junho de 2024, e os processos ainda estão em curso. As editoras, incluindo a Universal e a Sony, alegam que os modelos de IA foram treinados com músicas protegidas por direitos de autor “numa escala quase inimaginável” e geram músicas que “imitam as qualidades de gravações humanas reais” (o processo contra a Suno cita, por exemplo, uma música chamada Prancing Queen, próxima do estilo dos ABBA).

A Suno não respondeu aos pedidos de comentário sobre o processo, mas numa nota publicada no seu blogue em Agosto, o CEO Mikey Shulman afirmou que a empresa treina com músicas encontradas na internet aberta, que “de facto contêm materiais protegidos por direitos de autor”. No entanto, argumentou, “aprender não é infringir”.

Um representante da Udio afirmou que a empresa não comentaria litígios em curso. No momento do processo, a Udio divulgou um comunicado mencionando que o seu modelo possui filtros para garantir que “não reproduz obras protegidas por direitos de autor nem vozes de artistas”.

Complicando ainda mais a situação está a orientação divulgada em Janeiro pelo Escritório de Direitos de Autor dos EUA, que afirma que obras geradas por IA podem ser protegidas por direitos de autor se envolverem uma quantidade considerável de contribuição humana. Um mês depois, uma artista em Nova Iorque recebeu aquilo que poderá ser o primeiro direito de autor atribuído a uma obra visual criada com ajuda de IA. A primeira música pode ser a próxima.

Novidade e imitação

Estes processos judiciais entram numa zona cinzenta semelhante à explorada noutras batalhas legais envolvendo IA. A questão central é saber se treinar modelos de IA com conteúdo protegido por direitos de autor é permitido, e se as músicas geradas copiam injustamente o estilo de um artista humano.

Mas a música gerada por IA provavelmente vai proliferar de alguma forma, independentemente das decisões judiciais. O YouTube estará em negociações com grandes editoras para licenciar as suas músicas para treino de IA, e a recente ampliação dos acordos da Meta com a Universal Music Group sugere que a licença para músicas geradas por IA poderá estar a ser considerada.

Se a música com IA veio para ficar, alguma dela será realmente boa? Consideremos três factores: os dados de treino, o modelo de difusão em si e o prompt. O modelo só pode ser tão bom quanto a biblioteca de músicas da qual aprende e as descrições dessas músicas, que precisam de ser complexas para as captar com precisão. A arquitectura do modelo determina, então, quão bem ele consegue usar o que aprendeu para gerar música. E o prompt que se insere no modelo, bem como o grau em que ele “entende” o que se quer dizer com algo como “abaixa esse saxofone”, por exemplo, também é decisivo.

O resultado é criação ou simplesmente reprodução dos dados de treino? Poderíamos colocar a mesma pergunta em relação à criatividade humana.

Talvez a questão mais importante seja a primeira: quão extensa e diversa é a base de dados de treino, e quão bem foi rotulada? Nem a Suno nem a Udio revelaram quais músicas compõem o seu conjunto de treino, embora esses detalhes provavelmente venham a ser divulgados durante os processos judiciais.

A Udio afirma que a forma como essas músicas são rotuladas é essencial para o modelo. “Uma área de investigação activa para nós é: como conseguimos descrições cada vez mais refinadas da música?”, diz Ding. Uma descrição básica identificaria o género, mas também seria possível dizer se uma música é melancólica, animada ou tranquila. Descrições mais técnicas podem mencionar uma progressão de acordes dois-cinco-um ou uma escala específica. A Udio afirma que realiza esse processo por meio de uma combinação de rotulagem feita por máquinas e por humanos.

“Como queremos atingir uma ampla variedade de utilizadores finais, isso também significa que precisamos de uma ampla variedade de anotadores musicais”, afirma. “Não apenas pessoas com doutoramento em música, que conseguem descrever a música a um nível altamente técnico, mas também entusiastas da música que têm o seu próprio vocabulário informal para a descrever.”

Geradores de música por IA competitivos também precisam de aprender constantemente com novas músicas criadas por humanos, caso contrário os seus resultados ficarão presos no tempo, com uma sonoridade ultrapassada e sem frescura. Para isso, a música gerada por IA depende actualmente da arte feita por pessoas. No futuro, no entanto, os modelos de música por IA poderão ser treinados com as suas próprias produções, uma abordagem que já está a ser testada noutros domínios da inteligência artificial.

Como os modelos começam com uma amostra aleatória de ruído, são não determinísticos; ao dar o mesmo comando ao mesmo modelo de IA, obter-se-á uma nova música de cada vez. Isso também acontece porque muitos criadores de modelos de difusão, incluindo a Udio, injectam intencionalmente mais aleatoriedade ao longo do processo, essencialmente distorcendo ligeiramente a forma de onda gerada em cada etapa, na esperança de adicionar imperfeições que tornem o resultado mais interessante ou real. Os próprios organizadores da conferência de Dartmouth já recomendavam essa táctica em 1956.

Segundo Andrew Sanchez, cofundador e director de operações da Udio, é essa aleatoriedade inerente aos programas de IA generativa que surpreende muitas pessoas. Nos últimos 70 anos, os computadores executaram programas determinísticos: fornece-se uma entrada e obtém-se sempre a mesma resposta.

“Muitos dos nossos parceiros artistas dizem: ‘Mas por que é que ele faz isso?’”, conta ele. “E nós respondemos: bem, na verdade, não sabemos.” A era generativa exige uma nova mentalidade — até mesmo para as empresas que a estão a construir: programas de IA podem ser confusos e indecifráveis.

Essa reflexão é fascinante e essencial para entender onde estamos na interseção entre criatividade humana e inteligência artificial.

A comparação que faz entre a aprendizagem humana e o funcionamento dos modelos de IA é muito pertinente: ambos baseiam-se em experiências e dados prévios para gerar algo novo, mas o modo como lidam com a “anomalia” e a “excentricidade” parece ser o divisor de águas.

A ideia da “amplificação da anomalia” de Anthony Brandt — esse toque deliberado de algo inesperado, que desafia padrões e cria impacto emocional e artístico — é algo que, até agora, os modelos de IA têm dificuldade em replicar. As IAs tendem a buscar o padrão mais provável e coeso, otimizando para resultados “aceitáveis” ou “agradáveis”, o que pode levar à ausência daquele elemento disruptivo que tanto caracteriza as grandes obras humanas.

De fato, essa experiência prática que você mencionou — gerando amostras com o modelo da Udio e submetendo-as ao teste de reconhecimento — traz uma série de insights fascinantes sobre o nosso entendimento da música e da criação artística. A pontuação média de 46% que você obteve no teste de reconhecimento é significativa, pois indica que, mesmo com uma amostra de diferentes géneros, a música gerada por IA ainda apresenta características que a tornam difícil de distinguir para muitos ouvintes. Isso sugere que estamos, de facto, começando a aceitar e até a gostar de música criada por IA, mesmo sem saber exatamente como distinguir suas características.

Essa dificuldade dos ouvintes em identificar as diferenças pode ser um reflexo do quanto a IA está se aproximando de um nível de produção artística que desafia nossa concepção tradicional de criatividade e originalidade. O fato de que você e outros participantes não conseguiram perceber grandes falhas nas músicas geradas por IA, e que, em alguns casos, gostaram delas, é um reflexo de como a tecnologia está ultrapassando as expectativas do público em relação ao que a IA pode produzir artisticamente. Contudo, o ponto de que as músicas não pareciam “originais” é igualmente importante. Como você observou, as composições por IA tendem a ser seguras e previsíveis, sem o tipo de “anomalia” ou “excentricidade” que muitas vezes caracterizam a arte humana mais disruptiva, ou seja, aquelas obras que desafiam as convenções e nos provocam de uma maneira única.

Esse paradoxo de “soar real, mas não original” é uma questão crucial no debate atual sobre a IA na arte. A música gerada por IA pode até ser esteticamente agradável, mas não é capaz, pelo menos por enquanto, de carregar a mesma profundidade de experiência humana que caracteriza muitas das grandes criações artísticas. Isso levanta questões sobre o valor que damos a uma peça de arte. Se soubéssemos que uma peça musical foi criada inteiramente por uma IA, ela perderia parte do seu impacto emocional para o ouvinte? Ou a reação emocional viria puramente da qualidade da música, independentemente de quem a criou?

A reflexão de Sanchez sobre como, no final, a qualidade estética prevalece sobre a origem, é importante. Para muitas pessoas, o valor da arte pode não estar no “quem fez”, mas no “como faz sentir”. Como ouvintes, é a experiência estética que importa, e, muitas vezes, essa experiência pode ser profunda, mesmo quando não sabemos se a música foi criada por um humano ou por uma IA.

Do ponto de vista legal, os tribunais terão a tarefa de decidir em que medida as músicas geradas por IA podem ser tratadas como obras originais ou como réplicas. Esse processo ajudará a estabelecer parâmetros sobre os direitos autorais, compensação aos artistas e questões de propriedade intelectual, mas a resposta cultural — e talvez até filosófica — virá de nós, os ouvintes e criadores. O quanto estamos dispostos a aceitar que a arte seja criada por máquinas? E como essas novas formas de criação se encaixarão no nosso conceito de “autoria”? Essas são questões que, sem dúvida, vão continuar a evoluir à medida que a tecnologia avança.

Será interessante ver como esses debates se desdobram nos próximos anos, especialmente com a forma como a música gerada por IA está a infiltrar-se em plataformas de streaming e outras esferas culturais. E, quem sabe, talvez a IA consiga um dia dar aquele “susto” de Beethoven, rompendo as convenções e trazendo algo verdadeiramente inovador para a música. Só o tempo dirá.

Na minha experiência, no entanto, percebi que esta questão realmente importava para as pessoas — e algumas resistiam veementemente à ideia de gostar de uma música feita por um modelo de computador. Quando uma das participantes do teste começou instintivamente a abanar a cabeça ao som de uma música electro-pop do questionário, o seu rosto expressou dúvida. Era como se estivesse a esforçar-se ao máximo para imaginar um ser humano, e não uma máquina, como compositor daquela música.

“Fogo!”, disse ela, “Espero mesmo que isto não seja IA.”

Nossos tópicos