Redes Neurais Líquidas: Superando as limitações dos Modelos de IA Convencionais

6 de noviembre de 2024 Luciano Bertene

Apesar de suas capacidades relativamente impressionantes, a maioria dos modelos convencionais de IA de aprendizado profundo sofre de uma série de limitações — como não ser capaz de relembrar conhecimentos aprendidos anteriormente após aprender uma nova tarefa (esquecimento catastrófico) e a incapacidade de se adaptar a novas informações (perda de plasticidade). Redes neurais líquidas (LNNs) são um desenvolvimento relativamente recente que pode resolver algumas dessas limitações, graças a uma arquitetura dinâmica, juntamente com capacidades de aprendizagem adaptáveis e contínuas.

Introduzidas em 2020 por uma equipe de pesquisadores do MIT, as redes neurais líquidas são um tipo de rede neural recorrente (RNN) contínua no tempo que pode processar dados sequenciais de forma eficiente. Em contraste com as redes neurais convencionais que geralmente são treinadas apenas uma vez em um conjunto de dados fixo, as LNNs também podem se adaptar a novas entradas enquanto ainda retêm conhecimento de tarefas aprendidas anteriormente — ajudando assim a evitar problemas como esquecimento catastrófico e perda de plasticidade.

Menos nós, mas mais ricos

De acordo com o coautor do estudo Ramin Hasani, a inspiração para LNNs veio do nematoide C. elegans, um verme redondo microscópico que tem apenas 302 neurônios em seu sistema nervoso, mas pode "gerar dinâmicas inesperadamente complexas" — em contraste com redes neurais de aprendizado profundo massivamente grandes com milhares de nós neuronais. Com isso em mente, o objetivo da equipe era desenvolver uma rede reduzida com "menos nós, mas mais ricos".

São essas conexões "mais ricas" que permitem que as LNNs operem com tamanhos de rede relativamente menores e, subsequentemente, menos recursos computacionais, ao mesmo tempo em que ainda permitem que elas modelem comportamento complexo. Essa redução no tamanho geral também significa que as decisões que as LNNs tomam são mais transparentes e "interpretáveis", em comparação a outros modelos maiores que funcionam mais como "caixas pretas" inescrutáveis.

Vantagens no mundo real

Em termos do mundo real, esses recursos dão às LNNs uma vantagem no manuseio de uma variedade de diferentes tipos de dados — desde o processamento de imagens, vídeos e linguagem natural até qualquer tipo de dado de série temporal que exija aprendizado contínuo. O tamanho menor e a arquitetura dinâmica das LNNs podem significar um impulso para robôs, carros autônomos, drones autônomos e análise de dados para mercados financeiros e diagnóstico médico — basicamente, qualquer situação em que os sistemas em questão possam não ter capacidade para armazenar e executar um grande modelo de linguagem.

Liquid Foundational Models (LFMs)

O enorme potencial dos LNNs levou seus criadores a dar o próximo passo no lançamento do que eles estão chamando de Liquid Foundational Models (LFMs), por meio de uma nova startup chamada Liquid AI (Hasani é cofundador e CEO). Esta nova linha de modelos de IA generativos de última geração da Liquid AI melhora o desempenho enquanto minimiza o uso de memória, em contraste com grandes modelos de linguagem baseados em transformadores — o tipo agora familiar de arquitetura de aprendizado profundo que foi introduzido pelo Google em 2017 e tornado famoso pelo ChatGPT em 2022.

De acordo com a empresa, os Liquid Foundational Models diferem dos modelos de transformador pré-treinado generativo (GPT) porque usam um sistema computacional híbrido que é baseado na "teoria de sistemas dinâmicos, processamento de sinais e álgebra linear numérica". Isso permite que os LFMs funcionem como modelos de propósito geral que podem ser treinados em qualquer tipo de dado sequencial, seja vídeo, áudio, texto, séries temporais e sinais — e também alcançam desempenho semelhante aos modelos tradicionais de aprendizado profundo, usando menos neurônios.

Eficiência em termos de memória

Mais notavelmente, os LFMs são muito mais eficientes em termos de memória do que os modelos baseados em transformadores, particularmente quando se trata de entradas longas. Com os LLMs baseados em transformadores, o cache KV cresce linearmente com o comprimento da sequência, enquanto os LFMs podem processar sequências mais longas usando o mesmo hardware. Impressionantemente, os LFMs são projetados para suportar um comprimento de contexto de 32K tokens, tornando-os adequados para usos complexos, como chatbots mais inteligentes ou análise de documentos.

Outras vantagens

Além disso, pesquisas anteriores da equipe demonstram que esses sistemas podem funcionar como aproximadores universais, sistemas expressivos de aprendizado de máquina em tempo contínuo para dados sequenciais, são eficientes em termos de parâmetros no aprendizado de novas habilidades, são causais e interpretáveis e, quando linearizados, podem modelar com eficiência dependências de longo prazo em dados sequenciais.

Modelos Líquidos Disponíveis

Atualmente, existem três versões de LFMs, todas elas iguais ou superiores a modelos baseados em transformadores de tamanho semelhante durante os testes:

LFM-1B: Com 1,3 bilhão de parâmetros, este é o menor dos LFMs da Liquid AI. Ele é caracterizado como um modelo denso que é mais adequado para ambientes com recursos limitados, com testes iniciais indicando que é a primeira vez que uma arquitetura não-GPT superou significativamente os modelos baseados em transformadores.
LFM-3B: O modelo intermediário com 3,1 bilhões de parâmetros que é mais robusto e otimizado para implantações de ponta, como drones e dispositivos móveis.
LFM-40B: Projetado para executar tarefas complexas em um ambiente baseado em nuvem, este é um modelo de "mistura de especialistas" com 40,3 bilhões de parâmetros.

Com sua eficiência aumentada, adaptabilidade dinâmica e capacidades multimodais, os LFMs podem ajudar a levar a tecnologia de IA generativa para o próximo nível, desafiando o domínio atual dos modelos baseados em GPT. Durante seu recente evento de lançamento de produto, a equipe também apresentou o Liquid DevKit, oferecendo aos desenvolvedores uma abordagem simplificada, mas abrangente, para construir, dimensionar e explicar LFMs.

Para saber mais, você pode assistir novamente ao seu recente evento de lançamento via webcast. A empresa também está oferecendo acesso de demonstração aos seus LFMs via Liquid Playground, Lambda Chat e API e Perplexity Labs.