O modelo de IA da OpenAI e empresas que lidam com “modelos de código fechado” geralmente oferecem acesso aos seus sistemas por meio de uma interface onde se coloca uma pergunta e se recebe uma resposta. O que acontece nesse processo, qual o centro de dados no mundo que processa o seu pedido, a quantidade de energia necessária para tal e a intensidade de carbono das fontes de energia utilizadas continua a ser um segredo, conhecido apenas pelas empresas. Existem poucos incentivos para que estas divulguem essa informação e, até agora, a maioria não o fez.
Por isso, para a nossa análise, olhámos para modelos de código aberto. Servem como um substituto imperfeito, mas é o melhor que temos (a OpenAI, a Microsoft e a Google recusaram-se a partilhar informações específicas sobre o consumo energético dos seus modelos de código fechado).
As melhores fontes para medir o consumo de energia dos modelos de IA de código aberto são o AI Energy Score, o ML.Energy e o MLPerf Power. A equipa do ML.Energy auxiliou-nos com os nossos cálculos relativos a modelos de texto e imagem, e a equipa do AI Energy Score ajudou com os nossos cálculos relativos a modelos de vídeo.
Modelos de Texto
Os modelos de IA consomem energia em duas fases: quando aprendem com grandes quantidades de dados, chamada de treino, e quando respondem a consultas, chamada de inferência. Quando o ChatGPT foi lançado há alguns anos, o foco estava no treino, numa altura em que as empresas tecnológicas competiam para construir modelos cada vez maiores. Mas agora, é na inferência que se consome a maior parte da energia.
A forma mais precisa de compreender quanta energia um modelo de IA utiliza na fase de inferência é medir diretamente a quantidade de eletricidade consumida pelo servidor que trata do pedido. Os servidores contêm todos os tipos de componentes — processadores gráficos (GPUs), responsáveis pelo maior volume de processamento, outros chips chamados CPUs, ventoinhas para manter o sistema refrigerado e mais. Os investigadores geralmente medem a quantidade de energia que a GPU consome e estimam o restante.
Para isso, recorremos ao candidato a doutoramento Jae-Won Chung e ao professor associado Mosharaf Chowdhury da Universidade de Michigan, que lideram o projeto ML.Energy. Depois de recolhermos os dados sobre o consumo energético da GPU para diferentes modelos com a sua equipa, tivemos de estimar quanta energia é utilizada para outros processos, como a refrigeração.
Analisámos a literatura de investigação, incluindo um artigo de 2024 da Microsoft, para compreender qual a parte da procura total de energia de um servidor que é atribuída às GPUs. Concluímos que representam cerca de metade. Assim, pegámos na estimativa de consumo energético da GPU fornecida pela equipa e duplicámo-la para obter uma ideia da procura total de energia.
A equipa do ML.Energy utiliza um lote de 500 prompts de um conjunto de dados maior para testar os modelos. O hardware é mantido constante; a GPU é um chip popular da Nvidia, chamado H100. Decidimos focar-nos em três tamanhos de modelos da família Meta Llama: pequeno (8 mil milhões de parâmetros), médio (70 mil milhões) e grande (405 mil milhões). Identificámos também uma seleção de prompts para testar. Comparamos esses resultados com as médias obtidas para o lote completo de 500 prompts.
Modelos de Imagem
O Stable Diffusion 3 da Stability AI é um dos modelos de geração de imagem de código aberto mais utilizados, por isso tornou-se o nosso foco. Embora tenhamos testado vários tamanhos do modelo de texto Meta Llama, concentrámo-nos num dos tamanhos mais populares do Stable Diffusion 3, com 2 mil milhões de parâmetros.
A equipa utiliza um conjunto de dados de prompts de exemplo para testar os requisitos energéticos de um modelo. Embora a energia utilizada por modelos de linguagem de grande escala seja determinada parcialmente pelo prompt, isso não se verifica nos modelos de difusão.
Os modelos de difusão podem ser programados para passar por um número prescrito de “etapas de remoção de ruído” ao gerar uma imagem ou vídeo, sendo cada passo uma iteração do algoritmo que acrescenta mais detalhes à imagem. Para um número fixo de passos e modelo, todas as imagens geradas apresentam o mesmo consumo energético.
Quanto mais passos, maior a qualidade do resultado, mas também maior o consumo de energia. O número de passos varia consoante o modelo e a aplicação, mas 25 é um valor bastante comum, e foi o que utilizámos para a nossa qualidade padrão. Para uma qualidade superior, utilizámos 50 passos.
Mencionámos que as GPUs são geralmente responsáveis por cerca de metade da procura energética nas requisições de modelos de linguagem de grande porte. Não existem ainda estudos suficientes para determinar como esta proporção muda no caso dos modelos de difusão que geram imagens e vídeos. Na ausência de uma estimativa mais precisa, e após consulta com investigadores, optámos por manter esta regra dos 50% também para imagens e vídeos.
Modelos de vídeo
Chung e Chowdhury testam modelos de vídeo, mas apenas aqueles que geram GIFs curtos e de baixa qualidade. Não acreditamos que os vídeos produzidos por esses modelos atinjam a qualidade dos vídeos gerados por IA que muitas pessoas estão habituadas a ver.
Em vez disso, recorremos a Sasha Luccioni, líder de IA e clima na Hugging Face, que dirige o projeto AI Energy Score. Ela mede a energia consumida pela GPU durante as requisições de IA. Escolhemos duas versões do modelo CogVideoX para testar: uma versão mais antiga e de resolução reduzida e uma versão mais recente e de qualidade superior.
Pedimos a Luccioni que usasse a sua ferramenta, chamada Code Carbon, para testar ambas as versões e medir os resultados de um conjunto de prompts de vídeo que selecionámos, utilizando o mesmo hardware dos nossos testes de texto e imagem, para controlar ao máximo as variáveis. Ela reportou as necessidades energéticas da GPU, que novamente duplicámos para estimar a procura total de energia.
Rastreando de onde vem essa energia
Depois de compreender quanta energia é necessária para responder a uma consulta, podemos traduzir isso para o impacto total nas emissões. Para tal, é necessário analisar a rede elétrica da qual os centros de dados retiram a sua eletricidade.
Determinar o impacto climático da rede pode ser complicado, pois, apesar de interligada, a sua operação varia localmente. Imagine a rede como um sistema de canais conectados e reservatórios de água. As centrais elétricas adicionam água aos canais, e os consumidores de eletricidade, ou cargas, retiram-na. Nos EUA, as interligações da rede estendem-se por todo o país. Portanto, de certa forma, estamos todos ligados, mas também podemos dividir a rede nos seus componentes individuais para perceber como as fontes de energia variam pelo país.
Entendendo a intensidade de carbono
A principal métrica para entender aqui chama-se intensidade de carbono, que basicamente mede quantos gramas de dióxido de carbono são libertados por cada quilowatt-hora de eletricidade produzida.
Para obter os valores de intensidade de carbono, contactámos a Electricity Maps, uma startup dinamarquesa que recolhe dados sobre redes em todo o mundo. A equipa recolhe informações de fontes como governos e empresas fornecedoras de energia e utiliza esses dados para publicar estimativas históricas e em tempo real da intensidade de carbono das redes.
A empresa partilhou connosco dados históricos de 2024, tanto para os EUA no seu todo, como para algumas autoridades de equilíbrio chave. Após discussões com o fundador da Electricity Maps, Olivier Corradi, e outros especialistas, tomámos algumas decisões sobre quais dados utilizar nos nossos cálculos.
Uma forma de medir a intensidade de carbono é simplesmente observar todas as centrais elétricas que estão a operar na rede, somar as emissões que geram no momento e dividir esse total pela eletricidade que produzem. Mas isso não considera as emissões associadas à construção e desmantelamento das centrais elétricas, que podem ser significativas. Por isso, optámos por usar números de intensidade de carbono que consideram todo o ciclo de vida de uma central elétrica.
Optámos também por usar a intensidade de carbono baseada no consumo de energia, em vez de na produção. Este valor tem em consideração as importações e exportações de energia entre diferentes partes da rede e representa da melhor forma a eletricidade que está a ser usada, em tempo real, numa região específica.
Para a maioria dos cálculos apresentados neste estudo, utilizámos a intensidade média de carbono dos EUA para 2024, segundo a Electricity Maps, que é de 402,49 gramas de dióxido de carbono equivalente por quilowatt-hora.
Entendendo as autoridades de balanceamento
Embora compreender o panorama geral dos EUA possa ser útil, a rede elétrica pode variar bastante entre diferentes locais.
Uma forma de segmentar isto é analisando as autoridades de balanceamento. Estas são entidades independentes responsáveis pelo equilíbrio da rede numa região específica. Operam maioritariamente de forma autónoma, embora haja um constante fluxo de eletricidade entre elas. Existem 66 autoridades de balanceamento nos EUA, e podemos calcular a intensidade de carbono para a parte da rede coberta por uma autoridade de balanceamento específica.
A Electricity Maps forneceu dados de intensidade de carbono para algumas autoridades de balanceamento chave, e concentrámo-nos em várias que desempenham papéis importantes nas operações de centros de dados. O ERCOT (que cobre a maior parte do Texas) e o PJM (um agrupamento de estados na Costa Este, incluindo Virgínia, Pensilvânia e New Jersey) são algumas das regiões com a maior carga de centros de dados, segundo um estudo da Harvard School of Public Health.
Adicionámos o CAISO (na Califórnia) porque cobre o estado mais populoso dos EUA. O CAISO também gere uma rede com uma quantidade significativa de fontes de energia renováveis, tornando-se um bom exemplo de como a intensidade de carbono pode variar drasticamente consoante a hora do dia (ao meio-dia, a energia solar tende a dominar, enquanto o gás natural desempenha um papel maior durante a noite, por exemplo).
Uma observação importante aqui é que não temos total certeza de onde as empresas tendem a enviar as solicitações individuais de inferência de IA. Existem concentrações de centros de dados nas regiões que escolhemos como exemplos, mas quando se utiliza o modelo de IA de um gigante tecnológico, a solicitação pode ser processada por qualquer número de centros de dados propriedade da empresa ou contratados por esta. Uma aproximação razoável é a localização: é provável que o centro de dados que atende a uma solicitação esteja próximo do local onde esta foi feita, pelo que uma solicitação na Costa Oeste tenha maior probabilidade de ser processada num centro de dados desse lado do país.
Explicando o que encontramos
Para contextualizar melhor os nossos cálculos, introduzimos algumas comparações que as pessoas talvez conheçam melhor do que quilowatt-horas e gramas de dióxido de carbono. Em alguns casos, pegámos a quantidade de eletricidade estimada para ser usada por um modelo e calculámos quanto tempo essa eletricidade seria capaz de alimentar um micro-ondas padrão, além de calcular até onde alguém poderia percorrer numa bicicleta elétrica.
No caso da bicicleta elétrica, assumimos uma eficiência de 25 watt-horas por milha, valor que se encontra dentro da faixa geralmente citada para uma bicicleta com assistência ao pedal. Para o micro-ondas, assumimos um modelo de 800 watts, que está dentro da média nos EUA.
Fizemos também uma comparação para contextualizar as emissões de gases com efeito de estufa: milhas percorridas num carro a gasolina. Para isso, utilizámos dados da Agência de Proteção Ambiental dos EUA, que coloca o consumo médio ponderado de combustível dos veículos nos EUA em 2022 em 393 gramas de dióxido de carbono equivalente por milha.
Prevendo quanta energia a IA vai consumir no futuro
Após medir a procura energética de uma consulta individual e as emissões que ela gerou, chegou o momento de estimar como tudo isso se soma à procura nacional.
Existem duas formas de fazer isso. Numa análise de baixo para cima, estima-se o número de consultas individuais, calcula-se a procura energética de cada uma e somam-se para determinar o total. Numa análise de cima para baixo, estima-se quanta energia todos os centros de dados estão a utilizar, observando tendências macro.
A análise de baixo para cima é particularmente difícil, porque, mais uma vez, empresas com código fechado não partilham essas informações e recusaram-se a discutir detalhes connosco. Embora possamos fazer algumas suposições fundamentadas para obter uma ideia do que poderá estar a acontecer atualmente, para olhar para o futuro talvez seja mais adequada uma abordagem de cima para baixo.
Estes dados também são escassos. O relatório mais importante foi publicado em dezembro pelo Lawrence Berkeley National Laboratory, financiado pelo Departamento de Energia, e os autores do relatório notaram que este é apenas o terceiro do género divulgado nos últimos 20 anos.
Investigadores académicos nas áreas do clima e energia com quem conversámos afirmaram que é um grande problema o facto de a IA não ser considerada como um setor económico próprio para a medição das emissões, e que não existam requisitos rigorosos de reporte. Como consequência, é difícil acompanhar o impacto climático da IA.
Ainda assim, examinámos os resultados do relatório, comparamos com outras descobertas e estimativas, e consultámos especialistas independentes sobre os dados. Embora grande parte do relatório tenha incidido sobre centros de dados em geral, destacámos pontos de dados específicos relevantes para o futuro da IA.
Objetivos das empresas
Queríamos contrastar esses números com as quantidades de energia que as próprias empresas de IA afirmam precisar. Para isso, reunimos relatórios de empresas líderes em tecnologia e IA sobre os seus planos para expansão de energia e centros de dados, bem como os valores em dólares que prometeram investir. Sempre que possível, verificámos as promessas feitas nessas declarações (por exemplo, as promessas da Meta e da Microsoft de usar mais energia nuclear realmente reduziriam as emissões de carbono das empresas, mas levará anos, senão décadas, até que essas centrais nucleares adicionais entrem em funcionamento).
Solicitações às empresas
Enviámos pedidos à Microsoft, Google e OpenAI para estabelecer conversas fundamentadas em dados sobre as necessidades energéticas dos seus modelos para a inferência de IA. Nenhuma das empresas disponibilizou executivos ou responsáveis para entrevistas oficiais acerca do seu consumo de energia.