Evolução dos Modelos de Linguagem Multimodais

Evolução dos Modelos de Linguagem Multimodais

Os grandes modelos de linguagem agora estão evoluindo além de seus primeiros dias unimodais, quando eles só podiam processar um tipo de entrada de dados. Hoje em dia, o interesse está mudando para modelos multimodais de grandes linguagens (MLLMs), com relatórios sugerindo que o mercado de IA multimodal crescerá 35% anualmente para US$ 4,5 bilhões até 2028.

IA multimodal são sistemas que podem processar simultaneamente vários tipos de dados — como texto, imagens e vídeos — de forma integrada e contextual. MLLMs podem ser usados ​​para analisar um relatório técnico com uma combinação de texto, imagens, gráficos e dados numéricos, e então resumi-lo. Outros usos potenciais incluem busca de imagem para texto e texto para imagem, perguntas e respostas visuais (VQA), segmentação e rotulagem de imagens, e para criar sistemas de IA específicos de domínio e agentes MLLM.

Como os MLLMs são projetados?

Embora os modelos multimodais possam ter uma variedade de arquiteturas, a maioria das estruturas multimodais consiste nestes elementos:

Encoders

Este componente transforma diferentes tipos de dados em embeddings vetoriais que podem ser lidos por uma máquina. Modelos multimodais normalmente têm um codificador para cada tipo de dado, seja imagem, texto ou áudio.

Mecanismo de fusão

Combina todas as diversas modalidades para que o modelo possa entender o contexto mais amplo.

Decodificadores

Por fim, há um decodificador que gera a saída analisando os vetores de características dos diferentes tipos de dados.

Principais modelos multimodais

1. CLIPE

O pré-treinamento de linguagem contrastiva e imagem (CLIP) da OpenAI é um modelo de visão e linguagem multimodal que lida com a classificação de imagens vinculando descrições de dados baseados em texto com imagens correspondentes para gerar rótulos de imagens.

Ele apresenta uma função de perda contrastiva que otimiza o aprendizado, um codificador de texto baseado em transformador e um codificador de imagem Vision Transformer (ViT) com capacidade de disparo zero. O CLIP pode ser usado para uma variedade de tarefas, como anotação de imagem para dados de treinamento, recuperação de imagem e geração de legendas a partir de entradas de imagem.

2. Vinculação de imagem

Este modelo multimodal da Meta AI é capaz de combinar seis modalidades diferentes, incluindo texto, áudio, vídeo, profundidade, térmica e unidade de medição inercial (IMU). Ele pode gerar saída em qualquer um desses tipos de dados.

O ImageBind pareia dados de imagens com outras modalidades para treinar o modelo e usa o InfoNCE para otimização de perdas. O ImageBind pode ser usado para criar vídeos promocionais com áudio relevante, apenas inserindo um prompt de texto.

3. Flamingo

Oferecendo aos usuários a possibilidade de aprendizado em poucos instantes, este modelo de visão e linguagem da DeepMind é capaz de processar entradas de texto, imagem e vídeo para produzir saídas de texto.

Ele apresenta um ResNet Normalizer-Free pré-treinado e congelado para o codificador de visão, um reamostrador de percepção que gera tokens visuais, bem como camadas de atenção cruzada para fundir recursos textuais e visuais. O Flamingo pode ser usado para legendas de imagens, classificação e VQA.

4. GPT-4o

Também conhecido como GPT-4 Omni, a OpenAI lançou este modelo multimodal generativo pré-treinado baseado em transformador no início deste ano.

O GPT-4o é um sistema de alto desempenho que é capaz de receber texto, áudio, vídeo e imagens como entradas, e pode gerar qualquer um desses tipos de dados como saída com velocidade relâmpago, com média de 320 milissegundos em tempo de resposta. Também é um sistema multilíngue que pode entender mais de 50 idiomas. Curiosamente, as saídas geradas pelo GPT-4o também podem ser solicitadas a incluir parâmetros mais sutis — como tom, ritmo e emoção — tornando-o uma ferramenta poderosa para criar conteúdo convincente.

5. Gen2

Este impressionante e poderoso modelo de texto para vídeo e imagem para vídeo da Runway aproveita modelos baseados em difusão e pode usar prompts baseados em texto e imagem para produzir vídeos com reconhecimento de contexto.

O Gen2 utiliza um autocodificador para mapear quadros de vídeo de entrada; bem como MiDaS, um modelo de aprendizado de máquina que estima a profundidade dos quadros de vídeo de entrada. Ele usa CLIP para codificar quadros de vídeo para entender o contexto. Finalmente, há um mecanismo de atenção cross-modal para mesclar as representações de conteúdo e estrutura destiladas de MiDaS e CLIP. O sistema permite que os usuários gerem videoclipes usando imagens e prompts de texto, que podem ser estilizados para corresponder a uma imagem.

6. Gemini

Gemini do Google (anteriormente Bard) é uma linha de modelos de IA multimodais capazes de processar texto, áudio, vídeo e imagens.

Gemini está disponível em três versões — Ultra, Pro e Nano — e apresenta uma arquitetura baseada em transformador. Ele tem uma janela de contexto maior, o que permite processar dados de formato mais longo — sejam vídeos longos, texto ou código — tornando-o uma ferramenta poderosa que pode ser usada em uma variedade de domínios diferentes. Para reforçar a segurança e a qualidade das respostas, Gemini utiliza ajuste fino supervisionado e aprendizado por reforço com feedback humano (RLHF).

7. Claude 3

Este modelo de visão-linguagem da Anthropic vem em três iterações: Haiku, Sonnet e Opus. De acordo com a empresa, Opus é a variante principal e demonstra desempenho de ponta em uma variedade de benchmarks, incluindo conhecimento de graduação e raciocínio especializado de nível de pós-graduação, bem como matemática básica. A Anthropic afirma ter níveis quase humanos de compreensão e fluência em tarefas complexas.

O Claude 3 apresenta recursos poderosos de recall, nos quais ele pode processar sequências de entrada com mais de 1 milhão de tokens. Ao analisar artigos de pesquisa, ele pode entender fotos, diagramas, tabelas e gráficos em menos de três segundos, o que o torna uma ferramenta educacional poderosa.

Conclusão

Há uma riqueza de ferramentas de IA multimodais disponíveis por aí, com a maioria das grandes empresas de tecnologia oferecendo algum tipo de MLLM atualmente. No entanto, esses modelos maiores podem não ser adequados para todas as situações — abrindo caminho para sistemas de IA multimodais menores, que abordaremos em um próximo post.

Conteúdo Relacionado

A Google acaba de anunciar o lançamento da versão...
O mundo do trabalho está passando por uma transformação...
Na era do declínio do império dos Estados Unidos...
A explosão de interesse em IA, particularmente IA generativa,...
No mundo atual, orientado por dados, a recuperação de...
GenAI no Marketing: Transformando as Operações de Receita em...
Nos últimos anos, os modelos de IA centralizados baseados...
A emergência de robôs conversacionais desenvolvidos especificamente para crianças,...
Em qualquer lugar da internet, as pessoas reclamam que...
O modo de voz rapidamente se tornou um recurso...
A IA Generativa (também conhecida como GenAI) está transformando...
Com o avanço da inteligência artificial (IA), uma das...
Em uma era em que vulnerabilidades de software podem...
A Inteligência Artificial (IA) está modernizando as indústrias ao...
Graças ao langchaingo, é possível construir aplicativos de IA...
Os dados são frequentemente chamados de a força vital...
Como desenvolvedores, muitos de nós somos céticos em relação...
Nos últimos anos, houve um aumento significativo na adoção...
Vissza a blogba

Hozzászólás írása

Felhívjuk a figyelmedet, hogy a hozzászólásokat jóvá kell hagyni a közzétételük előtt.