OpenAI lança a Realtime API, permitindo experiências de conversação multimodais com baixa latência

OpenAI lança a Realtime API, permitindo experiências de conversação multimodais com baixa latência

A OpenAI, líder em inteligência artificial, acaba de lançar uma versão beta pública da sua Realtime API, uma API que permite que desenvolvedores criem experiências multimodais de baixa latência, incluindo texto e fala em aplicativos. Apresentada em 1º de outubro, a Realtime API, semelhante ao OpenAI ChatGPT Advanced Voice Mode, oferece suporte a conversas naturais de fala para fala usando vozes predefinidas que a API já oferece suporte.

A OpenAI também está introduzindo entrada e saída de áudio na Chat Completions API para oferecer suporte a casos de uso que não precisam dos benefícios de baixa latência da Realtime API. Os desenvolvedores podem passar entradas de texto ou áudio para o GPT-4o e fazer com que o modelo responda com texto, áudio ou ambos.

Experiências de conversação mais naturais

Com a API em tempo real e o suporte de áudio na API de preenchimento de bate-papo, os desenvolvedores não precisam mais vincular vários modelos para potencializar experiências de voz. Eles podem criar experiências de conversação naturais com apenas uma chamada de API, disse a OpenAI.

Anteriormente, criar uma experiência de voz semelhante fazia com que os desenvolvedores transcrevessem um modelo de reconhecimento automático de fala, como o Whisper, passando texto para um modelo de texto para inferência ou raciocínio e reproduzindo a saída do modelo usando um modelo de texto para fala. Essa abordagem geralmente resultava em perda de emoção, ênfase e sotaques, além de latência.

Benefícios da Realtime API

Com a API Chat Completions, os desenvolvedores podem lidar com todo o processo com uma chamada de API, embora continue mais lento do que a conversa humana. A API Realtime melhora a latência ao transmitir entradas e saídas de áudio diretamente, permitindo experiências de conversação mais naturais, disse a OpenAI. A API Realtime também pode lidar com interrupções automaticamente, como o modo de voz avançado do ChatGPT.

A API em tempo real permite o desenvolvimento de uma conexão WebSocket persistente para trocar mensagens com GPT-4o. A API faz o backing de chamadas de função, o que torna possível que assistentes de voz respondam a solicitações de usuários puxando um novo contexto ou acionando ações.

Além disso, a API em tempo real aproveita várias camadas de proteções de segurança para mitigar o risco de abuso de API, incluindo monitoramento automatizado e revisão humana de entradas e saídas de modelos sinalizados.

Preços e planos futuros

A API em tempo real usa tokens de texto e tokens de áudio. A entrada de texto custa US$ 5 por 1 milhão de tokens e a saída de texto custa US$ 20 por 1 milhão de tokens. A entrada de áudio custa US$ 100 por 1 milhão de tokens e a saída de áudio custa US$ 200 por 1 milhão de tokens.

A OpenAI disse que os planos para melhorar a Realtime API incluem adicionar suporte para visão e vídeo, aumentar os limites de taxa, adicionar suporte para cache de prompt e expandir o suporte do modelo para GPT-4o mini. A empresa disse que também integraria o suporte para a Realtime API nos OpenAI Python e Node.js SDKs.

Com o lançamento da Realtime API, a OpenAI está dando um passo importante em direção a experiências de conversação mais naturais e multimodais. Essa nova API tem o potencial de revolucionar a forma como os desenvolvedores criam assistentes de voz e outras aplicações de IA conversacional.

Conteúdo Relacionado

A Google acaba de anunciar o lançamento da versão...
O mundo do trabalho está passando por uma transformação...
Na era do declínio do império dos Estados Unidos...
A explosão de interesse em IA, particularmente IA generativa,...
No mundo atual, orientado por dados, a recuperação de...
GenAI no Marketing: Transformando as Operações de Receita em...
Nos últimos anos, os modelos de IA centralizados baseados...
A emergência de robôs conversacionais desenvolvidos especificamente para crianças,...
Em qualquer lugar da internet, as pessoas reclamam que...
O modo de voz rapidamente se tornou um recurso...
A IA Generativa (também conhecida como GenAI) está transformando...
Com o avanço da inteligência artificial (IA), uma das...
Em uma era em que vulnerabilidades de software podem...
A Inteligência Artificial (IA) está modernizando as indústrias ao...
Graças ao langchaingo, é possível construir aplicativos de IA...
Os dados são frequentemente chamados de a força vital...
Como desenvolvedores, muitos de nós somos céticos em relação...
Nos últimos anos, houve um aumento significativo na adoção...
Torna al blog

Lascia un commento

Si prega di notare che, prima di essere pubblicati, i commenti devono essere approvati.