A indústria de tecnologia está em constante evolução, e a área da inteligência artificial (IA) não é exceção. Recentemente, algumas das principais empresas do setor, como Nvidia, Google, Dell e outras, divulgaram os resultados de seus testes de benchmark para as próximas gerações de aceleradores de IA. Esses resultados fornecem um vislumbre emocionante do que está por vir no campo da computação de alto desempenho.
Nvidia B200: A Próxima Geração de GPUs
A Nvidia, líder no mercado de GPUs, revelou os primeiros resultados de testes para sua próxima arquitetura de GPU, chamada Blackwell, incorporada na GPU Nvidia B200. Os resultados são impressionantes, mostrando um aumento significativo no desempenho em comparação com a atual geração de chips da Nvidia, o H100.
No treinamento do GPT-3 e no ajuste fino de modelos de linguagem natural (LLM), o B200 praticamente dobrou o desempenho do H100 em uma base por GPU. Os ganhos foram um pouco menos robustos, mas ainda substanciais, para sistemas de recomendação e geração de imagens, com aumentos de 64% e 62%, respectivamente.
Essa melhoria de desempenho é atribuída, em parte, à continuação da tendência da Nvidia de usar números cada vez menos precisos para acelerar a IA. Enquanto o H100 e o H200 usam números de ponto flutuante de 8 bits para certas partes de redes neurais transformadoras, como ChatGPT, Llama2 e Stable Diffusion, a B200 reduz isso para apenas 4 bits.
Google Trillium: A 6ª Geração de TPUs
O Google também apresentou os primeiros resultados para sua 6ª geração de TPU, chamada Trillium, que foi revelada apenas no mês passado. Em comparação com a última geração de TPU do Google, a v5p, a Trillium oferece um aumento de desempenho de até 3,8 vezes na tarefa de treinamento do GPT-3.
No entanto, em comparação com a Nvidia, os resultados do Google não foram tão impressionantes. Um sistema composto por 6.144 TPU v5ps atingiu o ponto de verificação de treinamento do GPT-3 em 11,77 minutos, ficando em um distante segundo lugar para um sistema Nvidia H100 de 11.616, que concluiu a tarefa em cerca de 3,44 minutos. Esse sistema TPU de ponta foi apenas cerca de 25 segundos mais rápido do que um computador H100 com metade do seu tamanho.
Quando comparado diretamente, o próximo Trillium cortou sólidos 2 minutos do tempo de treinamento do GPT-3, quase uma melhoria de 8% nos 29,6 minutos do v5p. Outra diferença entre as entradas Trillium e v5p é que o Trillium é pareado com CPUs AMD Epyc em vez dos Intel Xeons do v5p.
Outros Participantes e Resultados
Além da Nvidia e do Google, outras empresas como a Dell Technologies também participaram dos testes de benchmark MLPerf v4.1. A Dell relatou que um sistema de oito servidores contendo 64 GPUs Nvidia H100 e 16 CPUs Intel Xeon Platinum consumiu apenas 16,4 megajoules durante a execução de 5 minutos da tarefa de ajuste fino do LLM (Llama2 70B), o que equivale a cerca de 75 centavos de eletricidade ao custo médio nos Estados Unidos.
A Oracle também relatou um resultado de desempenho próximo ao da Dell, com 4 minutos e 45 segundos na mesma tarefa, usando o mesmo número e tipos de CPUs e GPUs.
Conclusão
Os resultados divulgados pelas principais empresas de tecnologia fornecem um vislumbre emocionante do que está por vir no campo da computação de alto desempenho e da inteligência artificial. A Nvidia B200 e o Google Trillium prometem levar a computação de IA a novos patamares, com aumentos significativos de desempenho em relação às gerações anteriores.
À medida que a indústria continua a evoluir, é emocionante acompanhar o desenvolvimento dessas tecnologias e imaginar o impacto que elas terão em áreas como aprendizado de máquina, processamento de linguagem natural e geração de conteúdo. À medida que os custos de energia do treinamento de IA diminuem, é provável que vejamos uma aceleração ainda maior na adoção e no impacto da IA em nossa sociedade.