OpenAI lança a Realtime API, permitindo experiências de conversação multimodais com baixa latência

OpenAI lança a Realtime API, permitindo experiências de conversação multimodais com baixa latência

A OpenAI, líder em inteligência artificial, acaba de lançar uma versão beta pública da sua Realtime API, uma API que permite que desenvolvedores criem experiências multimodais de baixa latência, incluindo texto e fala em aplicativos. Apresentada em 1º de outubro, a Realtime API, semelhante ao OpenAI ChatGPT Advanced Voice Mode, oferece suporte a conversas naturais de fala para fala usando vozes predefinidas que a API já oferece suporte.

A OpenAI também está introduzindo entrada e saída de áudio na Chat Completions API para oferecer suporte a casos de uso que não precisam dos benefícios de baixa latência da Realtime API. Os desenvolvedores podem passar entradas de texto ou áudio para o GPT-4o e fazer com que o modelo responda com texto, áudio ou ambos.

Experiências de conversação mais naturais

Com a API em tempo real e o suporte de áudio na API de preenchimento de bate-papo, os desenvolvedores não precisam mais vincular vários modelos para potencializar experiências de voz. Eles podem criar experiências de conversação naturais com apenas uma chamada de API, disse a OpenAI.

Anteriormente, criar uma experiência de voz semelhante fazia com que os desenvolvedores transcrevessem um modelo de reconhecimento automático de fala, como o Whisper, passando texto para um modelo de texto para inferência ou raciocínio e reproduzindo a saída do modelo usando um modelo de texto para fala. Essa abordagem geralmente resultava em perda de emoção, ênfase e sotaques, além de latência.

Benefícios da Realtime API

Com a API Chat Completions, os desenvolvedores podem lidar com todo o processo com uma chamada de API, embora continue mais lento do que a conversa humana. A API Realtime melhora a latência ao transmitir entradas e saídas de áudio diretamente, permitindo experiências de conversação mais naturais, disse a OpenAI. A API Realtime também pode lidar com interrupções automaticamente, como o modo de voz avançado do ChatGPT.

A API em tempo real permite o desenvolvimento de uma conexão WebSocket persistente para trocar mensagens com GPT-4o. A API faz o backing de chamadas de função, o que torna possível que assistentes de voz respondam a solicitações de usuários puxando um novo contexto ou acionando ações.

Além disso, a API em tempo real aproveita várias camadas de proteções de segurança para mitigar o risco de abuso de API, incluindo monitoramento automatizado e revisão humana de entradas e saídas de modelos sinalizados.

Preços e planos futuros

A API em tempo real usa tokens de texto e tokens de áudio. A entrada de texto custa US$ 5 por 1 milhão de tokens e a saída de texto custa US$ 20 por 1 milhão de tokens. A entrada de áudio custa US$ 100 por 1 milhão de tokens e a saída de áudio custa US$ 200 por 1 milhão de tokens.

A OpenAI disse que os planos para melhorar a Realtime API incluem adicionar suporte para visão e vídeo, aumentar os limites de taxa, adicionar suporte para cache de prompt e expandir o suporte do modelo para GPT-4o mini. A empresa disse que também integraria o suporte para a Realtime API nos OpenAI Python e Node.js SDKs.

Com o lançamento da Realtime API, a OpenAI está dando um passo importante em direção a experiências de conversação mais naturais e multimodais. Essa nova API tem o potencial de revolucionar a forma como os desenvolvedores criam assistentes de voz e outras aplicações de IA conversacional.

Conteúdo Relacionado

A Google acaba de anunciar o lançamento da versão...
O mundo do trabalho está passando por uma transformação...
Na era do declínio do império dos Estados Unidos...
A explosão de interesse em IA, particularmente IA generativa,...
No mundo atual, orientado por dados, a recuperação de...
GenAI no Marketing: Transformando as Operações de Receita em...
Nos últimos anos, os modelos de IA centralizados baseados...
A emergência de robôs conversacionais desenvolvidos especificamente para crianças,...
Em qualquer lugar da internet, as pessoas reclamam que...
O modo de voz rapidamente se tornou um recurso...
A IA Generativa (também conhecida como GenAI) está transformando...
Com o avanço da inteligência artificial (IA), uma das...
Em uma era em que vulnerabilidades de software podem...
A Inteligência Artificial (IA) está modernizando as indústrias ao...
Graças ao langchaingo, é possível construir aplicativos de IA...
Os dados são frequentemente chamados de a força vital...
Como desenvolvedores, muitos de nós somos céticos em relação...
Nos últimos anos, houve um aumento significativo na adoção...
返回博客

发表评论

请注意,评论必须在发布之前获得批准。