Intel Labs, em colaboração com Blockade Labs, introduziu o Latent Diffusion Model for 3D (LDM3D), um novo modelo de difusão que usa IA generativa para criar conteúdo visual 3D realista.
LDM3D é o primeiro modelo da indústria a gerar um mapa de profundidade usando o processo de difusão para criar imagens 3D com visualizações de 360 graus que são vívidas e imersivas. Tem o potencial de revolucionar a criação de conteúdo, aplicações de metaverso e experiências digitais, transformando uma ampla gama de indústrias, desde entretenimento e jogos até arquitetura e design.
“A tecnologia de IA generativa visa aumentar e aprimorar ainda mais a criatividade humana e economizar tempo”, explicou Vasudev Lal, cientista de pesquisa de IA/ML do Intel Labs. “No entanto, a maioria dos modelos generativos de IA atuais estão limitados à geração de imagens 2D e apenas muito poucos podem gerar imagens 3D a partir de prompts de texto. Ao contrário dos modelos de difusão latente estável existentes, o LDM3D permite aos usuários gerar uma imagem e um mapa de profundidade a partir de um determinado prompt de texto usando quase o mesmo número de parâmetros. Ele fornece profundidade relativa mais precisa para cada pixel em uma imagem em comparação com métodos de pós-processamento padrão para estimativa de profundidade e economiza tempo significativo para os desenvolvedores desenvolverem cenas.”
Por que isso importa
Ecossistemas fechados limitam a escala. E o compromisso da Intel com a verdadeira democratização da IA permitirá um acesso mais amplo aos benefícios da IA através de um ecossistema aberto. Uma área que tem visto avanços significativos nos últimos anos é o campo da visão computacional, particularmente na IA generativa.
No entanto, muitos dos modelos avançados de IA generativa de hoje estão limitados a gerar apenas imagens 2D. Ao contrário dos modelos de difusão existentes, que geralmente geram apenas imagens RGB 2D a partir de prompts de texto, o LDM3D permite aos usuários gerar uma imagem e um mapa de profundidade a partir de um determinado prompt de texto. Usando quase o mesmo número de parâmetros que a difusão latente estável, o LDM3D fornece profundidade relativa mais precisa para cada pixel em uma imagem em comparação com métodos padrão de pós-processamento para estimativa de profundidade.
Esta pesquisa pode revolucionar a forma como interagimos com o conteúdo digital, permitindo que os usuários experimentem suas solicitações de texto de maneiras anteriormente inconcebíveis. As imagens e mapas de profundidade gerados pelo LDM3D permitem aos usuários transformar a descrição textual de uma praia tropical serena, um arranha-céu moderno ou um universo de ficção científica em um panorama detalhado de 360 graus. Esta capacidade de capturar informações profundas pode melhorar instantaneamente o realismo e a imersão geral, permitindo aplicações inovadoras para indústrias que vão desde entretenimento e jogos até design de interiores e listagens imobiliárias, bem como museus virtuais e experiências imersivas de realidade virtual (VR).
Como funciona
O LDM3D foi treinado em um conjunto de dados construído a partir de um subconjunto de 10.000 amostras do banco de dados LAION-400M, que contém mais de 400 milhões de pares de legendas de imagens. A equipe usou o modelo de estimativa de grande profundidade Dense Prediction Transformer (DPT) (desenvolvido anteriormente no Intel Labs) para anotar o corpus de treinamento. O modelo DPT grande fornece profundidade relativa altamente precisa para cada pixel em uma imagem.
O conjunto de dados LAION-400M foi construído para fins de pesquisa para permitir o treinamento de modelos de teste em maior escala para pesquisadores em geral e outras comunidades interessadas.
O modelo LDM3D é treinado em um supercomputador Intel AI equipado com processadores Intel Xeon e aceleradores Intel Habana Gaudi AI. O modelo e o pipeline resultantes combinam imagem RGB gerada e mapa de profundidade para gerar visualizações de 360 graus para experiências imersivas.
Para demonstrar o potencial do LDM3D, os pesquisadores da Intel e da Blockade desenvolveram o DepthFusion, um aplicativo que aproveita fotos RGB 2D padrão e mapas de profundidade para criar experiências de visualização imersivas e interativas em 360 graus. O DepthFusion utiliza TouchDesigner, uma linguagem de programação visual baseada em nós para conteúdo multimídia interativo em tempo real, para transformar prompts de texto em experiências digitais interativas e imersivas.
O modelo LDM3D é um modelo único para criar uma imagem RGB e seu mapa de profundidade, levando a economia no consumo de memória e melhorias de latência.