Em fevereiro deste ano, o Google pausou temporariamente a capacidade do seu chatbot Gemini, alimentado por IA, de gerar imagens de pessoas após usuários reclamarem de imprecisões históricas. Instruído a retratar "uma legião romana", por exemplo, o Gemini mostraria um grupo anacrônico de soldados racialmente diversos enquanto renderizava "guerreiros zulus" como estereotipicamente negros.
O CEO do Google, Sundar Pichai, pediu desculpas, e Demis Hassabis, o cofundador da divisão de pesquisa de IA do Google, DeepMind, disse que uma correção deve chegar "em muito pouco tempo" — nas próximas semanas. Acabou demorando muito, muito mais do que isso (apesar de alguns Googlers trabalharem 120 horas por semana!). Mas nos próximos dias, Gemini poderá novamente criar fotos mostrando pessoas. Bem... mais ou menos.
Apenas certos usuários — especificamente aqueles inscritos em um dos planos Gemini pagos do Google, Gemini Advanced, Business ou Enterprise — recuperarão o recurso de geração de pessoas do Gemini como parte de um teste de acesso antecipado, somente em inglês. O Google não disse quando o teste será expandido para o nível gratuito Gemini e outros idiomas.
O Imagen 3 e suas Melhorias
Em uma notícia melhor, todos os usuários do Gemini receberão o Imagen 3 dentro de uma semana — menos a geração de pessoas para aqueles que não são assinantes do Gemini Advanced.
O Google diz que o Imagen 3 pode entender com mais precisão os prompts de texto que ele traduz em imagens em comparação com seu antecessor, o Imagen 2, e é mais "criativo e detalhado" em suas gerações. Além disso, o modelo produz menos artefatos e erros, afirma o Google, e é o melhor modelo Imagen até agora para renderizar texto.
Para aliviar as preocupações sobre o potencial de criação de deepfakes, o Imagen 3 usará o SynthID, uma abordagem desenvolvida pela DeepMind para aplicar marcas d'água criptográficas invisíveis à mídia — diferentemente dos resultados do Pixel Studio do Google.
Gems: Especialistas Personalizados do Gemini
Junto com o Imagen 3, o Google está lançando Gems para Gemini — embora apenas para usuários Gemini Advanced, Business e Enterprise. Assim como os GPTs da OpenAI, os Gems são versões personalizadas do Gemini que podem atuar como "especialistas" em tópicos. Para criar um, escreva instruções para um Gem, dê um nome a ele e você está pronto para as corridas.
Segundo o Google, "Com Gems, você pode criar uma equipe de especialistas para ajudar você a pensar em um projeto desafiador, fazer um brainstorming de ideias para um evento futuro ou escrever a legenda perfeita para uma publicação de mídia social. Sua Gem também pode lembrar de um conjunto detalhado de instruções para ajudar você a economizar tempo em tarefas tediosas, repetitivas ou difíceis."
As joias estão disponíveis em desktops e dispositivos móveis em 150 países e "na maioria dos idiomas", diz o Google — mas ainda não são suportadas no Gemini Live. Várias predefinidas estão disponíveis no lançamento, incluindo um "treinador de aprendizagem", um "guia de carreira" e um "parceiro de codificação".
Quando perguntado se o Google tinha planos de lançar uma maneira de compartilhar e usar Gems de outros usuários, como a GPT Store da OpenAI, a resposta foi "não", basicamente. "Agora, estamos focados em aprender como as pessoas usarão Gems para criatividade e produtividade", disse o porta-voz. "Nada mais para compartilhar neste momento."
Conclusão
O lançamento do Imagen 3 e dos Gems representa um passo importante no avanço da geração de imagens por IA, com melhorias significativas na qualidade e precisão das imagens geradas. No entanto, o Google ainda enfrenta desafios, como a restrição do recurso de geração de pessoas apenas para assinantes premium e a falta de compartilhamento de Gems entre usuários.
À medida que a tecnologia de IA continua a evoluir, é crucial que empresas como o Google lidem de forma responsável com os potenciais impactos negativos, como a criação de deepfakes. O uso do SynthID no Imagen 3 é um passo positivo nessa direção, mas é apenas o início. À medida que a IA se torna cada vez mais poderosa, será necessário um diálogo contínuo entre a indústria, os reguladores e a sociedade para garantir que esses avanços sejam utilizados de maneira ética e benéfica para todos.