O Google Imagen 3 e os Gems: Avanços e Desafios na Geração de Imagens por IA

28 augusti 2024 Luciano Bertene

Em fevereiro deste ano, o Google pausou temporariamente a capacidade do seu chatbot Gemini, alimentado por IA, de gerar imagens de pessoas após usuários reclamarem de imprecisões históricas. Instruído a retratar "uma legião romana", por exemplo, o Gemini mostraria um grupo anacrônico de soldados racialmente diversos enquanto renderizava "guerreiros zulus" como estereotipicamente negros.

O CEO do Google, Sundar Pichai, pediu desculpas, e Demis Hassabis, o cofundador da divisão de pesquisa de IA do Google, DeepMind, disse que uma correção deve chegar "em muito pouco tempo" — nas próximas semanas. Acabou demorando muito, muito mais do que isso (apesar de alguns Googlers trabalharem 120 horas por semana!). Mas nos próximos dias, Gemini poderá novamente criar fotos mostrando pessoas. Bem... mais ou menos.

Apenas certos usuários — especificamente aqueles inscritos em um dos planos Gemini pagos do Google, Gemini Advanced, Business ou Enterprise — recuperarão o recurso de geração de pessoas do Gemini como parte de um teste de acesso antecipado, somente em inglês. O Google não disse quando o teste será expandido para o nível gratuito Gemini e outros idiomas.

O Imagen 3 e suas Melhorias

Em uma notícia melhor, todos os usuários do Gemini receberão o Imagen 3 dentro de uma semana — menos a geração de pessoas para aqueles que não são assinantes do Gemini Advanced.

O Google diz que o Imagen 3 pode entender com mais precisão os prompts de texto que ele traduz em imagens em comparação com seu antecessor, o Imagen 2, e é mais "criativo e detalhado" em suas gerações. Além disso, o modelo produz menos artefatos e erros, afirma o Google, e é o melhor modelo Imagen até agora para renderizar texto.

Para aliviar as preocupações sobre o potencial de criação de deepfakes, o Imagen 3 usará o SynthID, uma abordagem desenvolvida pela DeepMind para aplicar marcas d'água criptográficas invisíveis à mídia — diferentemente dos resultados do Pixel Studio do Google.

Gems: Especialistas Personalizados do Gemini

Junto com o Imagen 3, o Google está lançando Gems para Gemini — embora apenas para usuários Gemini Advanced, Business e Enterprise. Assim como os GPTs da OpenAI, os Gems são versões personalizadas do Gemini que podem atuar como "especialistas" em tópicos. Para criar um, escreva instruções para um Gem, dê um nome a ele e você está pronto para as corridas.

Segundo o Google, "Com Gems, você pode criar uma equipe de especialistas para ajudar você a pensar em um projeto desafiador, fazer um brainstorming de ideias para um evento futuro ou escrever a legenda perfeita para uma publicação de mídia social. Sua Gem também pode lembrar de um conjunto detalhado de instruções para ajudar você a economizar tempo em tarefas tediosas, repetitivas ou difíceis."

As joias estão disponíveis em desktops e dispositivos móveis em 150 países e "na maioria dos idiomas", diz o Google — mas ainda não são suportadas no Gemini Live. Várias predefinidas estão disponíveis no lançamento, incluindo um "treinador de aprendizagem", um "guia de carreira" e um "parceiro de codificação".

Quando perguntado se o Google tinha planos de lançar uma maneira de compartilhar e usar Gems de outros usuários, como a GPT Store da OpenAI, a resposta foi "não", basicamente. "Agora, estamos focados em aprender como as pessoas usarão Gems para criatividade e produtividade", disse o porta-voz. "Nada mais para compartilhar neste momento."

Conclusão

O lançamento do Imagen 3 e dos Gems representa um passo importante no avanço da geração de imagens por IA, com melhorias significativas na qualidade e precisão das imagens geradas. No entanto, o Google ainda enfrenta desafios, como a restrição do recurso de geração de pessoas apenas para assinantes premium e a falta de compartilhamento de Gems entre usuários.

À medida que a tecnologia de IA continua a evoluir, é crucial que empresas como o Google lidem de forma responsável com os potenciais impactos negativos, como a criação de deepfakes. O uso do SynthID no Imagen 3 é um passo positivo nessa direção, mas é apenas o início. À medida que a IA se torna cada vez mais poderosa, será necessário um diálogo contínuo entre a indústria, os reguladores e a sociedade para garantir que esses avanços sejam utilizados de maneira ética e benéfica para todos.

Conteúdo relacionado

MATLAB vs. R: Qual a melhor ferramenta para análise de dados e simulações?

A escolha entre MATLAB e R é uma decisão importante para profissionais que trabalham com análise de dados, modelagem e simulações. Ambas as ferramentas possuem pontos fortes e fracos, e a seleção d...
O que é Aço de Baixa Liga e como ele melhora as propriedades do Aço

O aço é um material fundamental para a indústria e a construção civil, sendo amplamente utilizado em uma variedade de aplicações, desde estruturas de edifícios até peças automotivas. No entanto, ne...
Incentivos Fiscais de R$ 3,8 bilhões em 2025: Programa Mover na Indústria Automotiva

Em um cenário de constante evolução e desafios, a indústria automotiva brasileira recebe um impulso significativo com a implementação do programa Mover. Esse decreto regulamentador prevê a concessã...
Detectando falhas de baterias de Veículos Elétricos antes que seja tarde demais

As baterias em veículos elétricos podem falhar rapidamente, às vezes pegando fogo sem muito aviso. O Sandia National Laboratories está trabalhando para detectar essas falhas cedo e fornecer tempo d...
Soldagem em Aço Inoxidável: Evitando os Erros Mais Comuns

A soldagem de aço inoxidável é uma tarefa delicada que requer atenção aos mínimos detalhes. Diferente da soldagem de aços carbono, o processo de união de peças em aço inoxidável envolve desafios es...
Cálculo do Módulo de Young em Barras de Aço

Cálculo de Módulo de Young em Barras de Aço As barras de aço são um dos materiais mais comuns utilizados em construção civil e engenharia, seja para a construção de edifícios, pontes, ou estrutura...
Cálculo de Flambagem de Compressão em Barras de Aço

Cálculo de Flambagem de Compressão em Barras de Aço A flambagem em barra de aço é um fenómeno comum em estruturas que sofrem cargas compressivas, como alas de pontes, vigas e colunas. No Brasil, é...
Prioridades da Indústria para o Congresso: Licenciamento Ambiental, Economia Circular e Inteligência Artificial

A indústria brasileira apresentou suas principais prioridades ao Congresso Nacional, destacando três temas fundamentais para impulsionar a competitividade e a sustentabilidade do setor nos próximos...