Intel Labs apresenta modelo de difusão latente para imagens 3D

Intel Labs presenta el modelo de difusión latente para imágenes 3D

11 de junio de 2024 Roberto Magalhães

Intel Labs, en colaboración con Blockade Labs, presentó el modelo de difusión latente para 3D (LDM3D), un nuevo modelo de difusión que utiliza IA generativa para crear contenido visual 3D realista.

Vea un vídeo de LDM3D en funcionamiento aquí.

LDM3D es el primer modelo de la industria que genera un mapa de profundidad utilizando el proceso de difusión para crear imágenes 3D con vistas de 360 grados que son vívidas e inmersivas. Tiene el potencial de revolucionar la creación de contenidos, las aplicaciones de metaverso y las experiencias digitales, transformando una amplia gama de industrias, desde el entretenimiento y los juegos hasta la arquitectura y el diseño.

"La tecnología de IA generativa tiene como objetivo mejorar y potenciar aún más la creatividad humana y ahorrar tiempo", explicó Vasudev Lal, científico investigador de IA/ML en Intel Labs. “Sin embargo, la mayoría de los modelos de IA generativa actuales se limitan a generar imágenes en 2D, y sólo unos pocos pueden generar imágenes en 3D a partir de indicaciones de texto. A diferencia de los modelos de difusión latente estable existentes, LDM3D permite a los usuarios generar una imagen y un mapa de profundidad a partir de un mensaje de texto determinado utilizando casi la misma cantidad de parámetros. Proporciona una profundidad relativa más precisa para cada píxel de una imagen en comparación con los métodos de posprocesamiento estándar para la estimación de profundidad y ahorra a los desarrolladores un tiempo significativo en el desarrollo de escenas”.

¿Por qué esto importa?
Los ecosistemas cerrados limitan la escala. Y el compromiso de Intel con la verdadera democratización de la IA permitirá un acceso más amplio a los beneficios de la IA a través de un ecosistema abierto. Un área que ha experimentado avances significativos en los últimos años es el campo de la visión por computadora, particularmente la IA generativa.

Sin embargo, muchos de los modelos avanzados de IA generativa actuales se limitan a generar únicamente imágenes 2D. A diferencia de los modelos de difusión existentes, que normalmente solo generan imágenes RGB 2D a partir de mensajes de texto, LDM3D permite a los usuarios generar una imagen y un mapa de profundidad a partir de un mensaje de texto determinado. Utilizando casi la misma cantidad de parámetros que la difusión latente estable, LDM3D proporciona una profundidad relativa más precisa para cada píxel de una imagen en comparación con los métodos de posprocesamiento estándar para la estimación de profundidad.

Esta investigación podría revolucionar la forma en que interactuamos con el contenido digital, permitiendo a los usuarios experimentar sus indicaciones de texto de formas antes inconcebibles. Las imágenes y mapas de profundidad generados por LDM3D permiten a los usuarios transformar la descripción textual de una serena playa tropical, un rascacielos moderno o un universo de ciencia ficción en un panorama detallado de 360 grados. Esta capacidad de capturar información profunda puede mejorar instantáneamente el realismo y la inmersión general, permitiendo aplicaciones innovadoras para industrias que van desde el entretenimiento y los juegos hasta el diseño de interiores y listados de bienes raíces, así como museos virtuales y experiencias inmersivas de realidad virtual (VR).

Como funciona
LDM3D se entrenó en un conjunto de datos construido a partir de un subconjunto de 10.000 muestras de la base de datos LAION-400M, que contiene más de 400 millones de pares de títulos de imágenes. El equipo utilizó el modelo de estimación profunda Dense Prediction Transformer (DPT) (desarrollado anteriormente en Intel Labs) para anotar el corpus de entrenamiento. El modelo DPT grande proporciona una profundidad relativa de alta precisión para cada píxel de una imagen.

El conjunto de datos LAION-400M se creó con fines de investigación para permitir la capacitación de modelos de prueba a mayor escala para investigadores generales y otras comunidades interesadas.

El modelo LDM3D está entrenado en una supercomputadora Intel AI equipada con procesadores Intel Xeon y aceleradores Intel Habana Gaudi AI. El modelo y la canalización resultantes combinan una imagen RGB generada y un mapa de profundidad para generar vistas de 360 grados para experiencias inmersivas.

Para demostrar el potencial de LDM3D, investigadores de Intel y Blockade desarrollaron DepthFusion, una aplicación que aprovecha fotografías RGB 2D estándar y mapas de profundidad para crear experiencias de visualización interactivas e inmersivas de 360 grados. DepthFusion utiliza TouchDesigner, un lenguaje de programación visual basado en nodos para contenido multimedia interactivo en tiempo real, para transformar indicaciones de texto en experiencias digitales interactivas e inmersivas.

El modelo LDM3D es un modelo único para crear una imagen RGB y su mapa de profundidad, lo que permite ahorrar en el consumo de memoria y mejorar la latencia.

Volver al blog

País/Región

Idioma

Conteúdo relacionado

Deja un comentario