O fornecedor de repositórios e modelos de IA generativa Hugging Face lançou esta semana uma alternativa paraNvidiaNIM (Nvidia Inference Microservices) da empresa. O Hugging Face Generative AI Services, ou HUGS, é a única alternativa disponível ao NIM atualmente.
O NIM, que foi introduzido pela primeira vez em março e posteriormente lançado em junho como parte do pacote AI Enterprise da Nvidia, foi uma ferramenta pioneira para ajudar empresas a implantar modelos fundamentais de IA generativa em qualquer nuvem ou data center, reunindo mecanismos de inferência otimizados, APIs e suporte para modelos de IA personalizados ou genéricos em contêineres como microsserviços.
O NIM chamou a atenção dos desenvolvedores porque era uma alternativa a aplicativos como vLLM , TensorRT LLM e LMDeploy — todos eles estruturas e pacotes que ajudam a implantar modelos fundamentais para inferência, mas que são, sem dúvida, demorados para configurar e executar. Em contraste, o NIM oferece aos desenvolvedores a opção de acessar rapidamente uma configuração pré-configurada para um modelo fundamental por meio de uma imagem de contêiner no Docker ou Kubernetes e se conectar a ela usando APIs.
Os HUGS também são microsserviços de inferência otimizados e sem configuração
Os HUGS também são microsserviços de inferência otimizados e sem configuração, cujo objetivo é facilitar e acelerar o desenvolvimento de aplicativos de IA. Hugging Face disse que os microsserviços de inferência oferecidos via HUGS são criados usando bibliotecas e estruturas de código aberto, como Text Generation Inference (TGI) e Transformers, e podem executar modelos em aceleradores de GPU da Nvidia ou AMD.
Suporte para AWS Inferentia e Google TPUs (unidades de processamento tensor) será adicionado em breve, acrescentou a empresa. No entanto, sua postagem de blog sobre a oferta não mencionou suporte para hardware Intel.
Não há ABRAÇOS grátis, mas há vantagens de custo
Uma diferença fundamental entre NIM e HUGS é o preço, o que sugere que as empresas podem economizar escolhendo o novo concorrente. No Google Cloud e na AWS, a HUGS cobra US$ 1 por hora por contêiner, enquanto a NIM cobra US$ 1 por hora por GPU, juntamente com a taxa de licença do pacote Nvidia AI Enterprise.
De acordo com a documentação do Docker, por padrão, "um contêiner não tem restrições de recursos e pode usar tanto de um determinado recurso quanto o agendador do kernel do host permitir", sugerindo que o HUGS custará menos por contêiner para operar.
Outras opções de disponibilidade para HUGS
Além da AWS e do Google Cloud, onde o HUGS pode ser implantado por meio do AWS Marketplace e do GCP Marketplace, a Hugging Face está oferecendo acesso ao HUGS por meio do seu Enterprise Hub — uma plataforma para acessar modelos e criar aplicativos baseados em IA que pode ser assinada por uma taxa de US$ 20/usuário/mês.
Separadamente, para a AWS, a empresa está oferecendo um período de teste gratuito de 5 dias para que os desenvolvedores testem o HUGS gratuitamente. O HUGS também está disponível gratuitamente via DigitalOcean, mas há custos de computação, disse a empresa.
Somente para modelos abertos
Até agora, o HUGS parece limitado apenas a modelos com pesos abertos (ou modelos abertos, como a indústria os chama), o que não é o caso do NIM. O HUGS suporta 13 modelos: Llama-3.1-8B-Instruct, Llama-3.1-70B-Instruct, Llama-3.1-405B-Instruct-FP8, Hermes-3-Llama-3.1-8B, Hermes-3-Llama-3.1-70B, Hermes-3-Llama-3.1-405B-FP8, Nous-Hermes-2-Mixtral-8x7B-DPO, Mixtral-8x7B-Instruct-v0.1, Mistral-7B-Instruct-v0.3, Mixtral-8x22B-Instruct-v0.1, Gemma-2-27b-it, Gemma-2-9b-it e Qwen2.5-7B-Instruct da Alibaba.
A página de documentação no HUGS mostra que o Hugging Face deve adicionar suporte para modelos como Deepseek, T5, Phi e Command R em breve. Outros modelos multimodais e de embeddings que devem ser adicionados em breve incluem Idefics, Llava, BGE, GTE, Micbread, Arctic, Jina e Nomic.
A Nvidia diz que o NIM suporta mais, incluindo seus modelos proprietários Nemotron, modelos da Cohere, A121, Adept, Getty Images, Shutterstock e modelos abertos do Google, Hugging Face, Meta, Microsoft, Mistral AI, Stability AI. No entanto, a documentação NIM da Nvidia mostra que o NIM está atualmente disponível para modelos como Code Llama 13B Instruct, Code Llama 34B Instruct, Code Llama 70B Instruct, Llama 2 7B Chat, Llama 2 13B Chat, Llama 2 70B Chat, Llama 3 Swallow 70B Instruct V0.1, Llama 3 Taiwan 70B Instruct, Llama 3.1 8B Base, Llama-3.1-8b-instruct, Llama 3.1 70B Instruct, Llama 3.1 405B Instruct, Meta Llama 3 8B Instruct, Meta Llama 3 70B Instruct, Mistral 7B Instruct v0.3, Mistral NeMo 12B Instruct, Mistral NeMo Minitron 8B 8K Instruct, Mixtral 8x7B Instruct v0.1, Mixtral 8x22B Instruct v0.1, Nemotron 4 340B Instruct, Nemotron 4 340B Reward e Phi 3 Mini 4K Instruct.
Em resumo, o Hugging Face lançou uma alternativa interessante ao NIM da Nvidia para implantação de modelos de IA generativa, com vantagens de custo e facilidade de uso. No entanto, o HUGS parece atualmente limitado a modelos de IA de código aberto, enquanto o NIM suporta uma gama mais ampla de modelos, incluindo alguns proprietários. À medida que o HUGS evolui, será interessante acompanhar se a Hugging Face consegue expandir sua oferta para competir diretamente com o NIM da Nvidia.