Desbloqueando a Eficiência da GPU: Como obter Visibilidade e Otimizar Custos

2024年10月21日 Luciano Bertene

Muitas equipes de engenharia empresarial — talvez a maioria neste momento — mergulharam de cabeça em GPUs para criar provas de conceito e operacionalizar novos produtos. Enquanto as pressões competitivas ditavam a direção, as preocupações com o custo da GPU começaram a sair do segundo plano para a frente.

Em conversas com líderes dessas empresas, nós da Kubecost descobrimos que uma das maiores preocupações é a viabilidade de executar GPUs em escala. O ponto problemático é geralmente expresso mais ou menos assim: "Nosso novo produto de IA exige que gastemos dois milhões de dólares por mês em GPUs, mas não temos insights sobre esse gasto. Estamos usando-as de forma eficiente? Quanto estamos desperdiçando?"

O Desafio da Transparência da GPU

O que a Kubecost começou a fazer agora para GPUs é muito semelhante ao que começamos a fazer há seis anos para recursos tradicionais de CPU e memória da nuvem e do Kubernetes — que é tornar a caixa preta transparente. Para empresas que praticamente não têm entendimento sobre a utilização ou eficiência de sua GPU, a Kubecost está trazendo à tona métricas e orientações significativas. Curiosamente, essas empresas frequentemente descobrem que podem reduzir suas contas de GPU em até 50% a 70% quando estão equipadas para lançar luz sobre o uso de sua GPU.

O monitoramento de GPU difere significativamente do monitoramento de recursos gerais de CPU e memória aos quais as empresas estão acostumadas há muito tempo, e requer uma abordagem diferente. Em um nível técnico, uma GPU é realmente uma combinação de CPU e memória que é empacotada em uma. Ao usar CPU e memória tradicionais para uma determinada carga de trabalho do Kubernetes, é visível externamente o quanto a carga de trabalho está usando. Se você tem cem gigabytes de memória e 16 núcleos físicos de CPU e sabe a frequência de cada núcleo, essa é sua capacidade.

Com GPUs, você não tem essa visibilidade ou flexibilidade para solicitar, "Eu quero quatro gigabytes dessa GPU, e eu quero apenas um gigahertz dessa GPU para ir com ela." Em vez disso, a configuração mais comum hoje é tudo ou nada — você solicita a GPU inteira ou nada dela. O desafio da transparência é que as GPUs exigem uma abordagem para monitorar e entender o uso que é todo seu, porque as GPUs são especializadas e combinam aspectos da CPU e da memória.

Esse desafio é agravado pelo fato de que um nó pode ter várias GPUs físicas em um sistema (às vezes até oito). Também é possível adicionar ou remover GPUs dos sistemas. Isso é algo normalmente visto em ambientes locais e algo que você normalmente não veria com CPUs. Essas dinâmicas ilustram por que ganhar visibilidade da GPU requer uma nova abordagem.

Como o Kubecost Permite o Monitoramento e a Otimização da GPU

O Kubecost atende ao desafio de visibilidade da GPU ao entender quais nós têm GPUs e se esses nós estão em um provedor de nuvem pública ou em um ambiente local. O Kubecost também entende quanto esses nós custam e, portanto, entende proporcionalmente quanto custa a GPU. Isso é verdade se uma empresa usa um dos "três grandes" provedores de nuvem ou se autofornece custos de nó com base em sua própria configuração de nuvem privada.

Com esses custos de GPU em mãos, o próximo passo é analisar a utilização da GPU. O Kubecost identifica a alocação de custos com base não apenas nas GPUs solicitadas, mas também no uso da GPU, para reconhecer a capacidade ociosa. O Kubecost também coleta métricas padrão, incluindo informações de utilização, fornecidas pelo software Nvidia. (Planejamos expandir para AMD e outras marcas de GPU.)

Ao combinar informações de custo e utilização, o Kubecost pode determinar a eficiência da GPU, que é uma das maiores questões na mente dos líderes empresariais à medida que as GPUs se tornam cada vez mais poderosas e caras.

O Kubecost então vai um passo além, fornecendo inteligência adicional que informa às equipes como realizar proativamente suas oportunidades de otimização. Normalmente, essas oportunidades significam economia de custos. Em alguns casos, onde as equipes estão enfrentando problemas relacionados à capacidade, a oportunidade pode ser otimizar gastando mais.

Por exemplo, considere um cenário de economia de custos em que as cargas de trabalho solicitam várias GPUs, mas o Kubecost vê que nem todas estão sendo usadas. O Kubecost sinalizará essa ineficiência e sugerirá ações para eliminar o desperdício de gastos em GPUs ociosas. O Kubecost pode reconfigurar as cargas de trabalho para automatizar parte dessa eficiência também.

Em um futuro próximo, a Kubecost planeja levar suas recomendações de economia mais longe e colocar as chaves nas mãos dos usuários para automatizar essas solicitações de economia.

Custos Elevados Significam Grandes Oportunidades de Economia

Em março, a Nvidia anunciou a nova geração Blackwell de GPUs. As gerações mais novas dessas GPUs custarão cerca de US$ 30.000 a US$ 40.000 cada. Em cenários em que ferramentas como o Kubecost podem revelar repentinamente a uma empresa que ela está usando apenas mais uma dessas GPUs do que o realmente necessário, isso representa uma economia rápida de US$ 40.000. Dessa forma, os altos riscos dos investimentos em GPU geram ganhos de eficiência que são extremamente benéficos.

De uma perspectiva de ROI, as ferramentas necessárias para atingir essa eficiência são simples de justificar quando cobrem seus próprios custos e, em seguida, alguns logo após a implementação.

A Questão do Carbono

O consumo de energia e os custos de carbono associados às GPUs e a evolução atual da IA são um tópico quente. As GPUs usam muita energia. As organizações naturalmente querem saber quanta energia e como reduzir esse consumo, se possível. Nessa frente, os mecanismos de otimização do Kubecost oferecem um antídoto ao consumo desnecessário.

No futuro, também estamos estrategicamente comprometidos em introduzir visibilidade nos custos de carbono da GPU, para que as empresas possam visualizar seu progresso na redução desse consumo juntamente com suas outras conquistas de eficiência.

Visibilidade da GPU significa Economia de Custos Imediata

Uma empresa com uma equipe experiente pode montar o Kubecost em minutos, configurá-lo em horas e, potencialmente, tê-lo ajustado e revelando potenciais economias de custo de GPU na hora do almoço ou, no máximo, em alguns dias. O poder de permanência do Kubecost é sua capacidade de aumentar a eficiência a longo prazo e manter os custos otimizados durante o dimensionamento. Em última análise, o objetivo é construir uma cultura de engenharia eficiente e práticas de operações finas , e estabelecer a visibilidade da GPU é um passo fundamental em direção a esse objetivo.

Conteúdo relacionado

Chapa de Aço Inox: Explorando suas Aplicações

A chapa de aço inox é um material versátil e amplamente utilizado em diversas indústrias devido às suas propriedades técnicas notáveis. Composto principalmente por ferro, cromo e níquel, o aço inox...
Aço Reciclado impulsiona a Revolução das Motocicletas Elétricas

A indústria de motocicletas está passando por uma transformação revolucionária, com a adoção cada vez maior de veículos elétricos. Essa mudança é impulsionada não apenas pela crescente conscientiza...
Um avanço na ciência dos materiais pode ajudar a entregar uma nova geração de baterias acessíveis

A busca por baterias mais eficientes e acessíveis é um desafio constante na indústria de energia. Recentemente, uma equipe internacional de pesquisadores liderada por químicos da Universidade de Gl...
Soldagem a Plasma: Tecnologia para a Indústria e Construção

A soldagem a plasma, também conhecida como PAW (Plasma Arc Welding), é uma técnica de soldagem avançada que vem revolucionando a indústria e a construção. Essa tecnologia oferece uma solução eficie...
Soldagem por Fricção: Junção de Metais Leves

A indústria moderna enfrenta constantes desafios na busca por soluções de fabricação cada vez mais eficientes e sustentáveis. Nesse cenário, a técnica de soldagem por fricção (FSW - Friction Stir W...
Janelas de Vidro vs. Janelas de PVC: Qual a Melhor Opção para Sua Casa?

Ao escolher as janelas certas para sua casa, você se depara com uma decisão importante: vidro ou PVC? Ambos os materiais têm suas próprias vantagens e desvantagens, e a escolha certa dependerá das ...
Concreto com Fibra de Polipropileno vs. Concreto Convencional: Qual é a melhor opção para sua Construção?

A escolha do tipo de concreto a ser utilizado em uma construção é uma decisão crucial que pode impactar significativamente a qualidade, durabilidade e eficiência do projeto. Neste artigo, vamos exp...
Concreto Autorreparável: Como as Bactérias estão Transformando a Construção Civil

O setor da construção civil enfrenta constantemente desafios relacionados à durabilidade e manutenção das estruturas. As fissuras e rachaduras são problemas comuns que podem comprometer a segurança...