OpenAI lança novos recursos de destilação de Modelos e Cache de Prompts para Aplicativos de IA Generativa

8 oktober 2024 Luciano Bertene

Em um esforço para acompanhar a concorrência, a OpenAI, a empresa por trás do ChatGPT, anunciou uma série de atualizações em sua API que visam facilitar o desenvolvimento de aplicativos baseados em inteligência artificial (IA) generativa. Essas novidades, apresentadas durante a conferência DevDay desta semana, incluem recursos como destilação de modelos e cache de prompts, que já são oferecidos por empresas rivais.

Destilação de Modelos para Reduzir Custos de Aplicações de IA de Geração

A destilação de modelos, uma técnica derivada da destilação de conhecimento, é usada no treinamento de grandes modelos de linguagem. Ela permite que um modelo menor aprenda o conhecimento desejado ou necessário de um modelo maior.

Essa abordagem é preferida pelos desenvolvedores, pois pode manter o desempenho de um modelo que sustenta um aplicativo, ao mesmo tempo em que reduz os requisitos de computação e, consequentemente, os custos. A justificativa é que modelos menores, que usam menos computação, são capazes de funcionar como um modelo maior em um campo específico de conhecimento ou especialização.

Vários especialistas afirmam que a destilação de modelos pode ser usada efetivamente em tarefas de processamento de linguagem natural em tempo real ou em setores da indústria, como finanças e saúde, que precisam que o modelo tenha conhecimento especializado.

O recurso de destilação de modelos introduzido na API OpenAI inclui três componentes — Stored Completions, Evals e Fine-tuning — todos os quais podem ser acessados por meio da API.

Para destilar um modelo usando a API OpenAI, os desenvolvedores precisam criar uma avaliação, manualmente ou usando o componente Evals, que está em beta, para medir o desempenho do modelo menor. A ideia é monitorar continuamente o modelo após destilá-lo para garantir que ele esteja funcionando conforme desejado, explicou a OpenAI.

Após criar a avaliação, os desenvolvedores podem usar as conclusões armazenadas para criar um conjunto de dados de saídas do modelo maior sobre o tópico desejado no qual o modelo menor deve ser treinado. Stored Completions, de acordo com a OpenAI, é um novo recurso gratuito dentro da API que pode ser usado para capturar e armazenar automaticamente pares de entrada-saída gerados por qualquer um dos LLMs fornecidos pela empresa, como GPT-4o ou o1-preview.

Depois que o conjunto de dados é criado usando Stored Completions, ele pode ser revisado, filtrado e usado para ajustar o modelo menor ou pode ser usado como um conjunto de dados de avaliação. Depois disso, os desenvolvedores podem conduzir uma avaliação do modelo menor para ver se ele está tendo um desempenho ideal ou se está próximo do modelo maior, disse a empresa.

É importante notar que os rivais Google, Anthropic e AWS já oferecem recursos de destilação de modelos. O Google, por exemplo, ofereceu anteriormente a capacidade de criar modelos destilados para PaLM e atualmente oferece a capacidade de usar o Gemini para destilar modelos menores. A AWS, por sua vez, fornece acesso ao Llama 3.1-405B para geração e destilação de dados sintéticos para ajustar modelos menores.

A destilação de modelos como um recurso dentro da API OpenAI está disponível para o público em geral, disse a empresa, acrescentando que qualquer um de seus modelos maiores pode ser usado para destilar modelos menores.

Cache de Prompts para Reduzir Latência em Aplicativos de IA de Geração

Além da capacidade de destilação, a OpenAI também disponibilizou o recurso de cache de prompt para as versões mais recentes do GPT-4o, GPT-4o mini, o1-preview e o1-mini, bem como versões ajustadas desses modelos.

O cache de prompt é uma técnica usada no processo de desenvolvimento de aplicativos baseados em IA de geração que permite que o modelo entenda a linguagem natural mais rapidamente, armazenando e reutilizando contextos que são usados repetidamente ao fazer chamadas de API.

"Muitos desenvolvedores usam o mesmo contexto repetidamente em várias chamadas de API ao criar aplicativos de IA, como ao fazer edições em uma base de código ou ter conversas longas e multifacetadas com um chatbot", explicou a OpenAI, acrescentando que a justificativa é reduzir o consumo de tokens ao enviar uma solicitação ao LLM.

O que isso significa é que quando uma nova solicitação chega, o LLM verifica se algumas partes da solicitação estão em cache. Caso esteja em cache, ele usa a versão em cache, caso contrário, ele executa a solicitação completa.

O novo recurso de cache de prompts do OpenAI funciona com o mesmo princípio fundamental, o que pode ajudar os desenvolvedores a economizar tempo e custos. "Ao reutilizar tokens de entrada vistos recentemente, os desenvolvedores podem obter um desconto de 50% e tempos de processamento rápidos", disse a OpenAI.

Além disso, a OpenAI introduziu uma versão beta pública da Realtime API, uma API que permite aos desenvolvedores criar experiências multimodais de baixa latência, incluindo texto e fala em aplicativos.

Essas atualizações da API OpenAI, incluindo a destilação de modelos e o cache de prompts, demonstram os esforços contínuos da empresa em fornecer aos desenvolvedores ferramentas e recursos que facilitem o desenvolvimento de aplicativos de IA generativa, mantendo o desempenho e reduzindo os custos.

À medida que a concorrência nesse espaço se intensifica, a OpenAI busca se manter na vanguarda, oferecendo soluções inovadoras que atendam às necessidades em constante evolução dos desenvolvedores e das empresas que buscam aproveitar o poder da IA generativa.