Gemini Live: O Recurso de Voz Avançado do Google que desafia o ChatGPT

30 de agosto de 2024 Luciano Bertene

Gemini Live é a resposta do Google ao Advanced Voice Mode do OpenAI, um recurso quase idêntico do ChatGPT que está atualmente em um teste alfa limitado. Enquanto o OpenAI venceu o Google ao demonstrar o recurso primeiro, o Google é o primeiro a lançar o recurso finalizado.

Na minha experiência, esses recursos verbais de baixa latência parecem muito mais naturais do que enviar mensagens de texto com o ChatGPT, ou mesmo falar com a Siri ou Alexa. Descobri que o Gemini Live respondeu às perguntas em menos de dois segundos e conseguiu mudar de posição bem rápido quando interrompido. O Gemini Live não é perfeito, mas é a melhor maneira de usar seu telefone com as mãos livres que já vi.

Como funciona o Gemini Live

Antes de falar com o Gemini Live, o recurso permite que você escolha entre 10 vozes, em comparação com apenas três vozes do OpenAI. O Google trabalhou com dubladores para criar cada uma. Gostei da variedade ali, e achei que cada uma soava muito humana.

Em um exemplo, um gerente de produto do Google pediu verbalmente à Gemini Live para encontrar vinícolas para famílias perto de Mountain View com áreas ao ar livre e playgrounds por perto, para que as crianças pudessem vir. Essa é uma tarefa muito mais complicada do que eu pediria à Siri — ou ao Google Search, francamente —, mas a Gemini recomendou com sucesso um local que atendia aos critérios: Cooper-Garrod Vineyards em Saratoga.

Dito isso, o Gemini Live deixa algo a desejar. Parecia alucinar um playground próximo chamado Henry Elementary School Playground que supostamente fica a "10 minutos de distância" daquele vinhedo. Há outros playgrounds próximos em Saratoga, mas a Henry Elementary School mais próxima fica a mais de duas horas de carro de lá. Há uma Henry Ford Elementary School em Redwood City, mas fica a 30 minutos de distância.

O Google gostava de mostrar como os usuários podem interromper o Gemini Live no meio da frase, e a IA rapidamente muda. A empresa diz que isso permite que os usuários controlem a conversa. Na prática, esse recurso não funciona perfeitamente. Às vezes, os gerentes de projeto do Google e o Gemini Live estavam falando um sobre o outro, e a IA parecia não entender o que era dito.

Limitações do Gemini Live

Notavelmente, o Google não está permitindo que o Gemini Live cante ou imite nenhuma voz fora das 10 que ele fornece, de acordo com o gerente de produto Leland Rechis. A empresa provavelmente está fazendo isso para evitar problemas com a lei de direitos autorais. Além disso, Rechis disse que o Google não está focado em fazer o Gemini Live entender a entonação emocional na voz de um usuário — algo que a OpenAI apregoou durante sua demonstração.

No geral, o recurso parece uma ótima maneira de mergulhar profundamente em um assunto de forma mais natural do que você faria com a simples Pesquisa Google. O Google observa que o Gemini Live é um passo no caminho para o Projeto Astra, o modelo de IA totalmente multimodal que a empresa estreou durante o Google I/O. Por enquanto, o Gemini Live é capaz apenas de conversas por voz; no entanto, no futuro, o Google quer adicionar compreensão de vídeo em tempo real.

Conteúdo relacionado

Rodovias de Aço: A Revolução da Recarga Elétrica em Movimento

A revolução dos veículos elétricos está em pleno andamento, e com ela surge uma nova demanda: a necessidade de uma infraestrutura de recarga eficiente e acessível. É neste cenário que as rodovias d...
Carros Elétricos vs. Combustíveis Renováveis: Dilema da Sustentabilidade

Com recorde de vendas em 2024, os carros elétricos são promovidos como solução verde, mas especialistas questionam o impacto ambiental das baterias e a complexidade da reciclagem, abrindo espaço pa...
Soldar Aço 1020 corretamente: Evite trincas e Garanta Qualidade

O aço SAE AISI 1020 é um dos materiais mais utilizados na indústria e construção civil devido à sua versatilidade e custo-benefício. Esse aço carbono de baixa liga é amplamente empregado em estrutu...
Concreto Reciclado vs. Concreto Tradicional: Qual é a melhor opção para a Construção Sustentável?

A construção civil é um setor fundamental para o desenvolvimento econômico e social de um país, mas também é um dos maiores consumidores de recursos naturais e emissores de carbono. Nesse contexto,...
Equação de Stefan-Boltzmann: Compreendendo a Radiação Térmica

A radiação térmica é um fenômeno fascinante que permeia nossa vida diária, desde o calor do sol até a energia emitida por nossos próprios corpos. No coração dessa compreensão está a equação de Stef...
Cálculo de Deformação em Regime Elástico em Barras de Aço

Cálculo de Deformação em Regime Elástico em Barras de Aço Quando se trata de estruturas metálicas, é fundamental entender como elas reagem a cargas aplicadas. Em especial, as barras de aço são fre...
Ibovespa acelera alta e dólar cai com guerra comercial em foco

O mercado financeiro brasileiro registrou uma sessão positiva nesta segunda-feira (17), com o Ibovespa, principal índice da B3, subindo 0,93% e chegando a 129.507 pontos. Ao mesmo tempo, o dólar à ...
Aço Inoxidável em Alta: Entenda o Crescimento da Demanda no Mercado Brasileiro

Em 2025, o mercado brasileiro de aço inoxidável experimentou um crescimento significativo, com uma alta de 12% na demanda. Esse aumento é impulsionado por diversos setores-chave da economia, como a...