Ícone do site Mundo dos Jogos

EXO Labs Faz História ao Rodar Modelo de IA Llama 2 em Computador Antigo com Pentium II

EXO Labs Faz História ao Rodar Modelo de IA Llama 2 em Computador Antigo com Pentium II

A sabedoria convencional diz que você precisa de uma montanha de GPUs da Nvidia, cada uma custando cerca de US$ 50.000, para ter alguma chance de executar os modelos de IA mais recentes. Mas parece que não é bem assim. A EXO Labs (citada pela Indian Defence Review) afirma ter conseguido rodar o LLM Llama 2 em um computador com Windows 98, lá dos anos 1997, equipado com um simples processador Pentium II. Incrível! O detalhe? A velocidade é cerca de 20.000 vezes mais lenta do que em uma GPU moderna. Surpresa!

Aparentemente, a EXO Labs comprou a máquina por menos de US$ 120 no eBay. Depois disso, o maior desafio foi fazer os periféricos funcionarem, já que a máquina tinha portas PS2 ultrapassadas e apenas uma entrada USB. Transferir os arquivos necessários para o computador também foi um grande problema, sem falar na compilação dos arquivos em um formato compatível com o antigo conjunto de instruções do Pentium II.

Mas, com o código e o hardware ajustados, era hora de rodar o Llama 2. Segundo relatos, a versão de 260K parâmetros do modelo alcançou 39,31 tokens por segundo no Pentium II, enquanto a versão maior, de 15M parâmetros, atingiu apenas 1,03 token por segundo. Eles até tentaram executar parcialmente um modelo de um bilhão de parâmetros do Llama 3.2, que retornou um glacial 0,0093 token por segundo. Para comparar, esse mesmo modelo de um bilhão de parâmetros pode chegar a 40 tokens por segundo em CPUs Arm e 200 tokens por segundo em GPUs.

Ou seja, no Pentium II, a execução é cerca de 20.000 vezes mais lenta. Mas, ei, pelo menos está funcionando! A comparação não é perfeita—há várias variáveis envolvidas na configuração dos modelos—mas esse número dá uma boa ideia da diferença de desempenho em termos de magnitude.

Embora seja impressionante ver um LLM moderno rodando em um processador tão antigo, a diferença de velocidade é um lembrete de que desempenho importa. É um pouco como os jogos em 3D: teoricamente, daria para rodar Cyberpunk 2077 com path tracing em 4K em um Pentium II, mas a taxa de quadros provavelmente seria próxima dos 0,0093 tokens por segundo. A essa altura, a discussão já é puramente acadêmica.

Talvez fosse divertido assistir aos pixels sendo renderizados um por um. Mas completar um benchmark poderia levar anos. Melhor deixar essa brincadeira para outra hora.


Este artigo foi inspirado no original disponível em pcgamer.com.

Sair da versão mobile