Os resultados do benchmark MLCommons mostram os ganhos da Intel AI

Os resultados do benchmark MLCommons mostram os ganhos da Intel AI

A MLCommons publicou os resultados de seu benchmark de desempenho de IA do setor, MLPerf Training 3.0, no qual tanto o acelerador de aprendizagem profunda Habana Gaudi 2 quanto o processador escalável Intel Xeon de 4ª geração forneceram resultados de treinamento impressionantes.

Processador escalável Intel Xeon de 4ª geração, codinome Sapphire Rapids. (Crédito: Intel Corporation)

“Os últimos resultados do MLPerf publicados pela MLCommons validam o valor do TCO que os processadores Intel Xeon e os aceleradores de aprendizagem profunda Intel Gaudi fornecem aos clientes na área de IA”, disse Sandra Rivera, vice-presidente executiva da Intel e gerente geral do Data Center e Grupo de IA.

Ela acrescentou: “Os aceleradores integrados do Xeon o tornam uma solução ideal para executar cargas de trabalho de IA de volume em processadores de uso geral, enquanto Gaudi oferece desempenho competitivo para grandes modelos de linguagem e IA generativa. Os sistemas escaláveis ​​da Intel com software aberto otimizado e fácil de programar reduzem a barreira para clientes e parceiros implantarem uma ampla gama de soluções baseadas em IA no data center, da nuvem até a borda inteligente.”

Por que isso importa

A narrativa atual da indústria é que a IA generativa e os modelos de linguagem grande (LLMs) podem ser executados apenas em GPUs Nvidia. Novos dados mostram que o portfólio de soluções de IA da Intel oferece opções competitivas e atraentes para clientes que buscam se libertar de ecossistemas fechados que limitam a eficiência e a escala.

Os resultados mais recentes do MLPerf Training 3.0 destacam o desempenho dos produtos da Intel em uma série de modelos de aprendizagem profunda. A maturidade do software e dos sistemas de formação baseados em Gaudi2 foi demonstrada em escala no grande modelo de linguagem, GPT-3. Gaudi2 é uma das duas únicas soluções de semicondutores a submeter resultados de desempenho ao benchmark para treinamento LLM do GPT-3.

Gaudi2 também oferece vantagens de custo substancialmente competitivas aos clientes, tanto em custos de servidores quanto de sistemas. O desempenho validado pelo MLPerf do acelerador em GPT-3, visão computacional e modelos de linguagem natural, além dos próximos avanços de software tornam o Gaudi2 uma alternativa de preço/desempenho extremamente atraente ao H100 da Nvidia.

No que diz respeito à CPU, o desempenho do treinamento de aprendizagem profunda dos processadores Xeon de 4ª geração com motores Intel AI demonstrou que os clientes podem construir com servidores baseados em Xeon um único sistema universal de IA para pré-processamento de dados, treinamento de modelo e implantação para fornecer a combinação certa de Desempenho, eficiência, precisão e escalabilidade da IA.

Os resultados de Habana Gaudi2
O treinamento de IA generativa e de grandes modelos de linguagem requer clusters de servidores para atender a enormes requisitos de computação em escala. Esses resultados do MLPerf fornecem validação tangível do excelente desempenho e escalabilidade eficiente do Habana Gaudi2 no modelo mais exigente testado, o parâmetro de 175 bilhões GPT-3.

Destaques dos resultados:

  • Gaudi2 apresentou um tempo de treinamento impressionante no GPT-31: 311 minutos em 384 aceleradores.
  • Escala quase linear de 95% de 256 a 384 aceleradores no modelo GPT-3.
  • Excelentes resultados de treinamento em visão computacional — aceleradores ResNet-50 8 e aceleradores Unet3D 8 — e modelos de processamento de linguagem natural — aceleradores BERT 8 ​​e 64.
  • Aumentos de desempenho de 10% e 4%, respectivamente, para os modelos BERT e ResNet em comparação com a apresentação de novembro, evidência da crescente maturidade do software Gaudi2.
  • Os resultados do Gaudi2 foram enviados “prontos para uso”, o que significa que os clientes podem obter resultados de desempenho comparáveis ​​ao implementar o Gaudi2 no local ou na nuvem.
Os resultados dos processadores Xeon de 4ª geração
Sendo a única CPU apresentada entre inúmeras soluções alternativas, os resultados do MLPerf provam que os processadores Intel Xeon fornecem às empresas recursos prontos para uso para implantar IA em sistemas de uso geral e evitar o custo e a complexidade da introdução de sistemas de IA dedicados.

Para um pequeno número de clientes que treinam grandes modelos de forma intermitente a partir do zero, eles podem usar CPUs de uso geral e, muitas vezes, nos servidores baseados em Intel que já estão implantando para administrar seus negócios. No entanto, a maioria usará modelos pré-treinados e os ajustará com seus próprios conjuntos de dados menores e selecionados. A Intel divulgou anteriormente resultados demonstrando que esse ajuste fino pode ser realizado em apenas alguns minutos usando o software Intel AI e software de código aberto padrão da indústria.

Destaques dos resultados do MLPerf:

  • Na divisão fechada, os Xeons de 4ª geração poderiam treinar os modelos BERT e ResNet-50 em menos de 50 minutos. (47,93 minutos) e menos de 90 minutos. (88,17 minutos), respectivamente.
  • Com o BERT na divisão aberta, os resultados mostram que o Xeon foi capaz de treinar o modelo em cerca de 30 minutos (31,06 minutos) ao expandir para 16 nós.
  • Para o modelo RetinaNet maior, o Xeon conseguiu atingir um tempo de 232 minutos. em 16 nós, permitindo aos clientes a flexibilidade de usar ciclos Xeon fora do horário de pico para treinar seus modelos durante a manhã, durante o almoço ou durante a noite.
  • O Xeon de 4ª geração com Intel Advanced Matrix Extensions (Intel® AMX) oferece melhorias significativas de desempenho prontas para uso que abrangem diversas estruturas, ferramentas completas de ciência de dados e um amplo ecossistema de soluções inteligentes.

Conteúdo Relacionado

Primeiro MPU single-core com interface de câmera MIPI CSI-2 e áudio
O mercado embarcado tem uma necessidade de soluções de...
O que são Sistemas Globais de Navegação por Satélite (GNSS) e como são usados?
Determinar uma localização precisa é necessário em várias indústrias...
Qual o papel dos sensores automotivos nos veículos modernos?
Uma rede de sensores é incorporada em todos os...
Como escolher um controlador de e-bike
O controlador do motor é um dos componentes mais...
Como solucionar problemas comuns do ESP32-CAM
ESP32-CAM é um módulo de câmera compacto que combina...
Um guia para padrões USB de 1.0 a USB4
A evolução dos padrões USB foi fundamental para moldar...
Schurter aprimora série de seletores de tensão com revestimento prateado
A SCHURTER anuncia um aprimoramento para sua conhecida série...
A interface serial PCI fornece conectividade confiável em ambientes extremos
A Sealevel Systems anuncia o lançamento da Interface Serial...
STMicroelectronics expande portfólio de conversão de energia com diodos Trench Schottky de 100 V
A STMicroelectronics introduziu Diodos retificadores Schottky de trincheira de...
O conversor GaN de 50 W da STMicroelectronics permite projetos de energia de alta eficiência
O novo VIPerGaN50 da STMicroelectronics simplifica a construção de...
Deepfakes de IA: uma ameaça à autenticação biométrica facial
Vídeos deep fake ao vivo cada vez mais sofisticados...
Samsung e Red Hat farão parceria em software de memória de próxima geração
A Samsung Electronics, fornecedora de tecnologia de memória avançada,...
Desenvolvimento de produtos orientado por IA: da ideação à prototipagem
Aprenda como os processos baseados em IA aprimoram o...
Mais segurança e eficiência com o isolador de manilha
Você provavelmente já viu Isoladores de manilha entronizados em...
Descubra o poder dos relés de travamento para eficiência energética e muito mais
Você provavelmente já passou por situações em que o...
返回網誌

發表留言

請注意,留言須先通過審核才能發佈。