Gemini Live: O Recurso de Voz Avançado do Google que desafia o ChatGPT

Gemini Live: O Recurso de Voz Avançado do Google que desafia o ChatGPT

Gemini Live é a resposta do Google ao Advanced Voice Mode do OpenAI, um recurso quase idêntico do ChatGPT que está atualmente em um teste alfa limitado. Enquanto o OpenAI venceu o Google ao demonstrar o recurso primeiro, o Google é o primeiro a lançar o recurso finalizado.

Na minha experiência, esses recursos verbais de baixa latência parecem muito mais naturais do que enviar mensagens de texto com o ChatGPT, ou mesmo falar com a Siri ou Alexa. Descobri que o Gemini Live respondeu às perguntas em menos de dois segundos e conseguiu mudar de posição bem rápido quando interrompido. O Gemini Live não é perfeito, mas é a melhor maneira de usar seu telefone com as mãos livres que já vi.

Como funciona o Gemini Live

Antes de falar com o Gemini Live, o recurso permite que você escolha entre 10 vozes, em comparação com apenas três vozes do OpenAI. O Google trabalhou com dubladores para criar cada uma. Gostei da variedade ali, e achei que cada uma soava muito humana.

Em um exemplo, um gerente de produto do Google pediu verbalmente à Gemini Live para encontrar vinícolas para famílias perto de Mountain View com áreas ao ar livre e playgrounds por perto, para que as crianças pudessem vir. Essa é uma tarefa muito mais complicada do que eu pediria à Siri — ou ao Google Search, francamente —, mas a Gemini recomendou com sucesso um local que atendia aos critérios: Cooper-Garrod Vineyards em Saratoga.

Dito isso, o Gemini Live deixa algo a desejar. Parecia alucinar um playground próximo chamado Henry Elementary School Playground que supostamente fica a "10 minutos de distância" daquele vinhedo. Há outros playgrounds próximos em Saratoga, mas a Henry Elementary School mais próxima fica a mais de duas horas de carro de lá. Há uma Henry Ford Elementary School em Redwood City, mas fica a 30 minutos de distância.

O Google gostava de mostrar como os usuários podem interromper o Gemini Live no meio da frase, e a IA rapidamente muda. A empresa diz que isso permite que os usuários controlem a conversa. Na prática, esse recurso não funciona perfeitamente. Às vezes, os gerentes de projeto do Google e o Gemini Live estavam falando um sobre o outro, e a IA parecia não entender o que era dito.

Limitações do Gemini Live

Notavelmente, o Google não está permitindo que o Gemini Live cante ou imite nenhuma voz fora das 10 que ele fornece, de acordo com o gerente de produto Leland Rechis. A empresa provavelmente está fazendo isso para evitar problemas com a lei de direitos autorais. Além disso, Rechis disse que o Google não está focado em fazer o Gemini Live entender a entonação emocional na voz de um usuário — algo que a OpenAI apregoou durante sua demonstração.

No geral, o recurso parece uma ótima maneira de mergulhar profundamente em um assunto de forma mais natural do que você faria com a simples Pesquisa Google. O Google observa que o Gemini Live é um passo no caminho para o Projeto Astra, o modelo de IA totalmente multimodal que a empresa estreou durante o Google I/O. Por enquanto, o Gemini Live é capaz apenas de conversas por voz; no entanto, no futuro, o Google quer adicionar compreensão de vídeo em tempo real.

contenido relacionado

Regresar al blog

Deja un comentario

Ten en cuenta que los comentarios deben aprobarse antes de que se publiquen.