O Google Imagen 3 e os Gems: Avanços e Desafios na Geração de Imagens por IA

August 28, 2024 Luciano Bertene

Em fevereiro deste ano, o Google pausou temporariamente a capacidade do seu chatbot Gemini, alimentado por IA, de gerar imagens de pessoas após usuários reclamarem de imprecisões históricas. Instruído a retratar "uma legião romana", por exemplo, o Gemini mostraria um grupo anacrônico de soldados racialmente diversos enquanto renderizava "guerreiros zulus" como estereotipicamente negros.

O CEO do Google, Sundar Pichai, pediu desculpas, e Demis Hassabis, o cofundador da divisão de pesquisa de IA do Google, DeepMind, disse que uma correção deve chegar "em muito pouco tempo" — nas próximas semanas. Acabou demorando muito, muito mais do que isso (apesar de alguns Googlers trabalharem 120 horas por semana!). Mas nos próximos dias, Gemini poderá novamente criar fotos mostrando pessoas. Bem... mais ou menos.

Apenas certos usuários — especificamente aqueles inscritos em um dos planos Gemini pagos do Google, Gemini Advanced, Business ou Enterprise — recuperarão o recurso de geração de pessoas do Gemini como parte de um teste de acesso antecipado, somente em inglês. O Google não disse quando o teste será expandido para o nível gratuito Gemini e outros idiomas.

O Imagen 3 e suas Melhorias

Em uma notícia melhor, todos os usuários do Gemini receberão o Imagen 3 dentro de uma semana — menos a geração de pessoas para aqueles que não são assinantes do Gemini Advanced.

O Google diz que o Imagen 3 pode entender com mais precisão os prompts de texto que ele traduz em imagens em comparação com seu antecessor, o Imagen 2, e é mais "criativo e detalhado" em suas gerações. Além disso, o modelo produz menos artefatos e erros, afirma o Google, e é o melhor modelo Imagen até agora para renderizar texto.

Para aliviar as preocupações sobre o potencial de criação de deepfakes, o Imagen 3 usará o SynthID, uma abordagem desenvolvida pela DeepMind para aplicar marcas d'água criptográficas invisíveis à mídia — diferentemente dos resultados do Pixel Studio do Google.

Gems: Especialistas Personalizados do Gemini

Junto com o Imagen 3, o Google está lançando Gems para Gemini — embora apenas para usuários Gemini Advanced, Business e Enterprise. Assim como os GPTs da OpenAI, os Gems são versões personalizadas do Gemini que podem atuar como "especialistas" em tópicos. Para criar um, escreva instruções para um Gem, dê um nome a ele e você está pronto para as corridas.

Segundo o Google, "Com Gems, você pode criar uma equipe de especialistas para ajudar você a pensar em um projeto desafiador, fazer um brainstorming de ideias para um evento futuro ou escrever a legenda perfeita para uma publicação de mídia social. Sua Gem também pode lembrar de um conjunto detalhado de instruções para ajudar você a economizar tempo em tarefas tediosas, repetitivas ou difíceis."

As joias estão disponíveis em desktops e dispositivos móveis em 150 países e "na maioria dos idiomas", diz o Google — mas ainda não são suportadas no Gemini Live. Várias predefinidas estão disponíveis no lançamento, incluindo um "treinador de aprendizagem", um "guia de carreira" e um "parceiro de codificação".

Quando perguntado se o Google tinha planos de lançar uma maneira de compartilhar e usar Gems de outros usuários, como a GPT Store da OpenAI, a resposta foi "não", basicamente. "Agora, estamos focados em aprender como as pessoas usarão Gems para criatividade e produtividade", disse o porta-voz. "Nada mais para compartilhar neste momento."

Conclusão

O lançamento do Imagen 3 e dos Gems representa um passo importante no avanço da geração de imagens por IA, com melhorias significativas na qualidade e precisão das imagens geradas. No entanto, o Google ainda enfrenta desafios, como a restrição do recurso de geração de pessoas apenas para assinantes premium e a falta de compartilhamento de Gems entre usuários.

À medida que a tecnologia de IA continua a evoluir, é crucial que empresas como o Google lidem de forma responsável com os potenciais impactos negativos, como a criação de deepfakes. O uso do SynthID no Imagen 3 é um passo positivo nessa direção, mas é apenas o início. À medida que a IA se torna cada vez mais poderosa, será necessário um diálogo contínuo entre a indústria, os reguladores e a sociedade para garantir que esses avanços sejam utilizados de maneira ética e benéfica para todos.

Conteúdo relacionado

TypeScript vs. Dart: Quam melhor para Desenvolvimento de Aplicativos Web e Móveis?

A escolha entre TypeScript e Dart é uma decisão importante para qualquer desenvolvedor que esteja construindo aplicativos web e móveis. Ambas as linguagens oferecem recursos poderosos e têm suas pr...
Benefícios dos Brincos de Aço Inox: Durabilidade, Resistência e Hipoalergenicidade

Os brincos de aço inox são um acessório cada vez mais popular entre aqueles que buscam peças duráveis, resistentes e hipoalergênicas. Esses brincos são fabricados com ligas metálicas inoxidáveis, c...
Chapa de Aço Inox: Explorando suas Aplicações

A chapa de aço inox é um material versátil e amplamente utilizado em diversas indústrias devido às suas propriedades técnicas notáveis. Composto principalmente por ferro, cromo e níquel, o aço inox...
Crescimento impressionante da Indústria Automotiva brasileira em 2024

O ano de 2024 tem sido um período de grande crescimento e otimismo para a indústria automotiva brasileira. Segundo os dados divulgados pela Associação Nacional dos Fabricantes de Veículos Automotor...
Soldagem de Titânio: Superando Desafios e Impulsionando a Inovação

O titânio é um material fascinante, conhecido por sua resistência, leveza e biocompatibilidade. No entanto, a soldagem desse metal nobre apresenta desafios únicos que exigem técnicas especializadas...
Soldagem por Fricção: Junção de Metais Leves

A indústria moderna enfrenta constantes desafios na busca por soluções de fabricação cada vez mais eficientes e sustentáveis. Nesse cenário, a técnica de soldagem por fricção (FSW - Friction Stir W...
Construção Sustentável vs. Construção Tradicional: Qual é a melhor opção?

A indústria da construção civil tem sido um dos principais motores da economia global, mas também um dos maiores contribuintes para os desafios ambientais que enfrentamos atualmente. Diante dessa r...
Cálculo de Frequência de Vibração em Barras de Aço

Criar uma introdução com titulo h2 dentro do HTML que seja diferente para a Cálculo de Frequência de Vibração em Barras de Aço, vamos falar sobre a Cálculo de Frequência de Vibração em Barras de A...