A OpenAI, líder em inteligência artificial, acaba de lançar uma versão beta pública da sua Realtime API, uma API que permite que desenvolvedores criem experiências multimodais de baixa latência, incluindo texto e fala em aplicativos. Apresentada em 1º de outubro, a Realtime API, semelhante ao OpenAI ChatGPT Advanced Voice Mode, oferece suporte a conversas naturais de fala para fala usando vozes predefinidas que a API já oferece suporte.
A OpenAI também está introduzindo entrada e saída de áudio na Chat Completions API para oferecer suporte a casos de uso que não precisam dos benefícios de baixa latência da Realtime API. Os desenvolvedores podem passar entradas de texto ou áudio para o GPT-4o e fazer com que o modelo responda com texto, áudio ou ambos.
Experiências de conversação mais naturais
Com a API em tempo real e o suporte de áudio na API de preenchimento de bate-papo, os desenvolvedores não precisam mais vincular vários modelos para potencializar experiências de voz. Eles podem criar experiências de conversação naturais com apenas uma chamada de API, disse a OpenAI.
Anteriormente, criar uma experiência de voz semelhante fazia com que os desenvolvedores transcrevessem um modelo de reconhecimento automático de fala, como o Whisper, passando texto para um modelo de texto para inferência ou raciocínio e reproduzindo a saída do modelo usando um modelo de texto para fala. Essa abordagem geralmente resultava em perda de emoção, ênfase e sotaques, além de latência.
Benefícios da Realtime API
Com a API Chat Completions, os desenvolvedores podem lidar com todo o processo com uma chamada de API, embora continue mais lento do que a conversa humana. A API Realtime melhora a latência ao transmitir entradas e saídas de áudio diretamente, permitindo experiências de conversação mais naturais, disse a OpenAI. A API Realtime também pode lidar com interrupções automaticamente, como o modo de voz avançado do ChatGPT.
A API em tempo real permite o desenvolvimento de uma conexão WebSocket persistente para trocar mensagens com GPT-4o. A API faz o backing de chamadas de função, o que torna possível que assistentes de voz respondam a solicitações de usuários puxando um novo contexto ou acionando ações.
Além disso, a API em tempo real aproveita várias camadas de proteções de segurança para mitigar o risco de abuso de API, incluindo monitoramento automatizado e revisão humana de entradas e saídas de modelos sinalizados.
Preços e planos futuros
A API em tempo real usa tokens de texto e tokens de áudio. A entrada de texto custa US$ 5 por 1 milhão de tokens e a saída de texto custa US$ 20 por 1 milhão de tokens. A entrada de áudio custa US$ 100 por 1 milhão de tokens e a saída de áudio custa US$ 200 por 1 milhão de tokens.
A OpenAI disse que os planos para melhorar a Realtime API incluem adicionar suporte para visão e vídeo, aumentar os limites de taxa, adicionar suporte para cache de prompt e expandir o suporte do modelo para GPT-4o mini. A empresa disse que também integraria o suporte para a Realtime API nos OpenAI Python e Node.js SDKs.
Com o lançamento da Realtime API, a OpenAI está dando um passo importante em direção a experiências de conversação mais naturais e multimodais. Essa nova API tem o potencial de revolucionar a forma como os desenvolvedores criam assistentes de voz e outras aplicações de IA conversacional.