É hora de falar sobre o GPT-5? — O problema com os transformadores

É hora de falar sobre o GPT-5? — O problema com os transformadores

O GPT-5 está no horizonte e promete abalar a indústria. Mas serão necessários mais parâmetros para criar um modelo mais poderoso?

Imagem em destaque

No mundo em constante evolução do desenvolvimento de software, a inteligência artificial (IA) emergiu como uma virada de jogo. O seu potencial para revolucionar indústrias e impulsionar o crescimento dos negócios chamou a atenção de CEOs, CFOs e investidores. À medida que a tecnologia continua a avançar a um ritmo sem precedentes, surge uma questão: a IA pode ser melhorada com energia bruta? Neste artigo, exploraremos as possibilidades e implicações de capacitar a IA através do aumento das capacidades computacionais.

A IA evoluiu a um ritmo incrível, desde os primeiros chatbots como Eliza até aos modernos algoritmos de aprendizagem automática, e esta rápida progressão tem sido grandemente apoiada pelos serviços de desenvolvimento de IA. A IA é agora capaz de igualar e até mesmo superar a inteligência humana em muitas áreas. No entanto, este potencial tem um grande custo: IAs mais poderosas requerem mais potência, bem como mais capacidade computacional.

Ao adicionar mais poder de processamento aos sistemas de IA, os engenheiros podem desbloquear novos níveis de desempenho e alcançar resultados inovadores. Isto pode ser alcançado através de vários meios, como a utilização de clusters de computação de alto desempenho ou o aproveitamento de infraestrutura baseada em nuvem.

Tomemos como exemplo o GPT-3 e sua família de modelos. No que diz respeito aos grandes modelos de linguagem (LLMs), ao tentar criar uma IA, parece que o padrão para dar uma estimativa das capacidades do modelo é dado em termos do número de parâmetros que possui. Quanto maior o número, mais poderosa é a IA. E embora sim, o tamanho importa, os parâmetros não são tudo e, em algum momento, enfrentaremos o problema de engenharia de exigir mais poder de processamento do que podemos fornecer.

Antes de nos aprofundarmos, quero traçar um paralelo com um assunto que me é caro: videogames e consoles. Veja, sou uma criança dos anos 80; Eu estive lá nas grandes guerras de consoles dos anos 90 – a Sega faz o que a Nintendo não faz e todo aquele jazz. Em algum momento, os consoles pararam de comercializar suas capacidades de som ou a qualidade de suas cores e, em vez disso, começaram a falar sobre bits.

Em essência, quanto mais bits, mais poderoso será o console; todo mundo estava atrás dessas grandes partes. E isso levou as empresas a criarem arquiteturas extremamente malucas. Não importava o quão insano fosse o hardware, desde que pudessem promovê-lo como tendo mais bits que a concorrência (Ahe, Atari Jaguar).

Isso continuou por um bom tempo – a Sega deixou o mercado de consoles, a Sony conquistou o mundo com o Playstation, a Microsoft entrou na competição com o Xbox – e no coração de cada geração, tínhamos os pedaços. Na era do PS2, também começamos a falar sobre polígonos e teraflops; mais uma vez, tudo girava em torno dos grandes números.

E então veio a era do PS3 e do Xbox 360. Ah, a promessa de gráficos realistas, som envolvente e muito mais. Agora não se tratava de pedaços; tratava-se de quantos polígonos nas telas, fps, capacidades de armazenamento; mais uma vez, foi o maior número.

Os dois fabricantes de consoles se enfrentaram e, sem nunca perceberem, uma pequena alternativa apareceu no mercado: o Wii da Nintendo. O Wii era um brinquedo em comparação com as feras que a Sony e a Microsoft lançaram no mercado, mas a Nintendo foi inteligente. Eles tinham como alvo o público casual, aquele que não estava intoxicado com grandes números. O resultado final fala por si. Durante essa geração de console, o PS3 vendeu 80 milhões de unidades, o Xbox 360 vendeu 84 e o Wii? – 101 milhões de unidades.

O pequeno oprimido conquistou o mercado e bastou um pouco de criatividade e engenhosidade.

O que minhas divagações têm a ver com a corrida armamentista da IA? Na verdade, como vemos, há uma razão muito forte para ter cuidado com modelos maiores, e não é porque eles vão dominar o mundo.

Por que queremos modelos maiores?

Então, quais são as vantagens de colocar nossos modelos em hardware maior e mais potente? Assim como os desenvolvedores de software conseguem fazer milagres com uma caixa de bebidas energéticas, mais RAM e mais poder de processamento são um impulso que aumenta as possibilidades computacionais de nossos modelos.

Impulsionar a IA com mais poder de computação envolve fornecer-lhe maiores recursos para processar dados de forma mais rápida e eficiente. Isto pode ser alcançado através de vários meios, como a utilização de clusters de computação de alto desempenho ou o aproveitamento de infraestrutura baseada em nuvem. Ao turbinar os sistemas de IA, as organizações podem desbloquear novos níveis de desempenho e alcançar resultados inovadores.

Uma vantagem significativa de capacitar a IA com maiores capacidades computacionais, auxiliadas por serviços de aprendizagem automática, é a sua capacidade de analisar grandes conjuntos de dados em tempo real. Com acesso a um imenso poder computacional, os algoritmos de IA podem identificar rapidamente padrões e tendências que, de outra forma, poderiam passar despercebidos. Isto permite que CEOs e CFOs tomem decisões mais rápidas e informadas com base em insights precisos derivados de conjuntos de dados complexos.

Além disso, sistemas de IA mais poderosos, incluindo IA para testes de software, têm o potencial de processar padrões complexos em conjuntos de dados de forma mais eficaz, levando a previsões altamente precisas que ajudam os investidores a tomar decisões informadas. Ao aproveitar o maior poder computacional, as organizações podem aproveitar modelos de análise preditiva que fornecem informações valiosas sobre tendências de mercado, comportamento do cliente e oportunidades de investimento.

Por fim, a IA capacitada tem a capacidade de automatizar tarefas repetitivas em grande escala, ao mesmo tempo que mantém a precisão e reduz os custos operacionais para as empresas. Com maior poder computacional, as organizações podem implantar soluções avançadas de automação que agilizam processos em vários departamentos, como finanças, operações ou atendimento ao cliente.

E tudo isso é bom senso, certo? Mais poder significa mais poder de processamento, o que se traduz em modelos maiores e resultados mais rápidos/precisos. No entanto, embora os benefícios potenciais de impulsionar a IA com mais poder computacional sejam significativos, existem várias questões tangenciais que precisam ser consideradas:

  • Considerações éticas: À medida que a IA se torna mais poderosa, podem surgir preocupações éticas em torno da invasão de privacidade ou da tomada de decisões tendenciosa. As organizações devem garantir transparência e responsabilidade ao implementar soluções de IA capacitadas para manter a confiança e evitar potenciais armadilhas.
  • Impacto ambiental: O aumento do poder computacional requer mais consumo de energia, o que pode ter implicações ambientais. É crucial que as organizações equilibrem os benefícios da IA ​​capacitada com práticas sustentáveis ​​e explorem formas de minimizar a sua pegada de carbono.

O problema de simplesmente colocar mais poder no refinamento de nossos modelos é que isso é um pouco como o lado negro de Star Wars (eu sou um geek…). Sim, é um caminho mais rápido rumo ao poder, mas também tem um custo que pode não ser evidente até que seja tarde demais.

Os modelos de transformadores: uma abordagem revolucionária para IA

Só para aumentar a tensão, vamos falar um pouco sobre modelos de transformadores e por que eles são tão importantes para a computação moderna e o aprendizado de máquina. Vamos explorar o poder transformador dos modelos de transformadores (trocadilho intencional) e suas implicações para os negócios.

Os modelos transformadores são um tipo de arquitetura de aprendizado profundo que utiliza mecanismos de autoatenção para processar dados sequenciais com eficiência. Na verdade, a atenção é tão importante que o artigo original foi intitulado “Atenção é tudo que você precisa.”

Para simplificar um assunto muito complexo, ao contrário das redes neurais recorrentes (RNNs) tradicionais ou das redes neurais convolucionais (CNNs), os transformadores podem capturar dependências de longo alcance nos dados sem depender de processamento sequencial. Ou seja, imagine que você tem uma caixa cheia de fotografias e deseja organizá-las cronologicamente.

Um método seria empilhar as fotos e depois olhar cada uma delas em ordem, classificando-as com base na sua relação com os vizinhos mais próximos. Definitivamente, isso poderia funcionar, mas traz alguns problemas importantes: principalmente porque você não está prestando atenção em toda a pilha de fotos, mas sim em algumas de cada vez.

A segunda abordagem, aquela que lembra transformadores, envolve colocar todas as fotos no chão e olhar todas de uma vez, descobrindo quais fotos estão mais próximas de quais com base nas cores, estilos, conteúdo e assim por diante. Veja a diferença? Isso paga mais atenção ao contexto do que uma análise sequencial.

Essa inovação abriu caminho para avanços notáveis ​​em tarefas de processamento de linguagem natural (PNL), como tradução automática, análise de sentimentos e resposta a perguntas.

Uma vantagem importante dos modelos de transformadores é a sua capacidade de compreender estruturas linguísticas complexas com precisão excepcional. Ao aproveitar mecanismos de autoatenção, esses modelos podem analisar as relações entre palavras ou frases dentro de uma frase de forma mais eficaz do que as abordagens anteriores.

É bem simples quando colocamos assim, certo? O contexto é tudo na linguagem, e os transformadores podem estar “conscientes” de mais informações do que apenas algumas palavras, por isso têm mais informações para prever com precisão a nova palavra em uma frase. Ou, no caso de outras aplicações, como análise de sentimento, pode identificar o sentimento em relação a um tópico e até diferenciar se um comentário é sarcástico com base no contexto.

A tradução automática sempre foi uma tarefa desafiadora devido às nuances linguísticas e às diferenças culturais entre os idiomas. No entanto, os modelos transformadores melhoraram significativamente a qualidade da tradução ao modelar dependências globais entre palavras, em vez de depender apenas do contexto local, como fazem as abordagens tradicionais. Esta inovação capacita as empresas que operam globalmente com traduções mais precisas para os seus produtos, serviços e materiais de marketing.

O lado negro do poder: os desafios de dimensionar modelos de transformadores

Embora os modelos de transformadores tenham revolucionado o campo da IA ​​e trazido avanços significativos na compreensão da linguagem, dimensionar esses modelos para lidar com conjuntos de dados maiores e tarefas mais complexas apresenta seu próprio conjunto de desafios.

Em primeiro lugar, os transformadores consomem muitos recursos. À medida que crescem em tamanho e complexidade, exigem recursos computacionais substanciais para serem treinados e implantados de forma eficaz. O treinamento de modelos de transformadores em grande escala requer clusters de computação de alto desempenho ou infraestrutura baseada em nuvem com hardware especializado, como unidades de processamento gráfico (GPUs) ou unidades de processamento de tensores (TPUs). Esta maior procura por poder computacional pode representar restrições financeiras para organizações sem recursos adequados.

Basta procurar o OpenAI e seus modelos GPT. Ninguém pode negar o quão incríveis esses modelos são, mas isso tem um custo. Os modelos estão sendo executados em data centers que, em comparação, fariam os mainframes de computadores antigos parecerem laptops. Na verdade, você pode baixe qualquer um dos LLMs de código aberto lá fora e tente executá-lo em seu computador e observe sua RAM chorar de dor enquanto o modelo a engole.

E a maioria dos modelos é menor em comparação com o GPT-3.5 em termos de parâmetros. Por exemplo, Llama (LLM da Meta) e seus primos de código aberto têm algo em torno de 40 bilhões de parâmetros. Compare isso com os 175 bilhões de parâmetros do GPT-3. E embora a OpenAI tenha optado por não divulgar quantos parâmetros o GPT-4 possui, rumores colocam-no em cerca de 1 trilhão.

Só para colocar em perspectiva, Sam Altman, CEO da OpenAI, disse à imprensa que o treinamento do GPT-4 custa cerca de 100 milhões de dólares. E leve em consideração que este modelo utiliza dados que já foram coletados e pré-processados ​​​​para os demais modelos.

O dimensionamento de modelos de transformadores geralmente requer acesso a grandes quantidades de dados de treinamento rotulados. Embora alguns domínios possam ter conjuntos de dados prontamente disponíveis, outros podem exigir grandes esforços para coletar ou anotar dados manualmente. Além disso, garantir a qualidade e a diversidade dos dados de treinamento é crucial para evitar preconceitos ou representações distorcidas no modelo.

Recentemente, um ação coletiva foi movida contra OpenAI por falta de transparência na recolha de dados. Queixas semelhantes foram levantadas pela UE. A teoria é que, assim como não se pode fazer uma omelete sem quebrar alguns ovos, não se pode construir um modelo de trilhão de parâmetros sem obter dados de forma superficial.

Modelos de transformadores maiores tendem a ter um número maior de parâmetros, tornando-os mais difíceis de otimizar durante o treinamento. O ajuste fino de hiperparâmetros e a otimização de arquiteturas de modelos tornam-se tarefas cada vez mais complexas à medida que a escala cresce. As organizações devem investir tempo e experiência no ajuste fino desses parâmetros para alcançar o desempenho ideal, evitando problemas de overfitting ou underfitting.

A implantação de modelos de transformadores ampliados em ambientes de produção pode ser uma tarefa difícil devido aos seus requisitos de recursos e possíveis problemas de compatibilidade com a infraestrutura ou sistemas de software existentes. As organizações precisam de estratégias de implantação robustas que garantam a utilização eficiente dos recursos computacionais, mantendo ao mesmo tempo a escalabilidade e a confiabilidade.

O código aberto contra-ataca

A competição no mundo da IA ​​há muito é vista como um campo de batalha entre titãs da tecnologia como Google e OpenAI. No entanto, um concorrente inesperado está emergindo rapidamente: a comunidade de código aberto. Uma carta vazada de um engenheiro do Google postula que o código aberto tem o potencial de ofuscar o Google e o OpenAI na corrida para o domínio da IA.

Uma vantagem significativa das plataformas de código aberto é o poder da inovação colaborativa. Com o vazamento do modelo de base capaz do Meta, a comunidade de código aberto deu um salto quântico. Indivíduos e instituições de pesquisa em todo o mundo desenvolveram rapidamente melhorias e modificações, algumas superando os desenvolvimentos do Google e do OpenAI.

A gama de ideias e soluções produzidas pela comunidade de código aberto foi abrangente e de alto impacto devido à sua natureza descentralizada e aberta a todos. O modelo criado por esta comunidade iterou e melhorou as soluções existentes, algo que o Google e a OpenAI poderiam considerar em suas estratégias.

Curiosamente, o engenheiro em questão também aponta para o facto de estes modelos de código aberto estarem a ser construídos tendo em mente a acessibilidade. Em contraste com o rolo compressor que é o GPT-4, alguns desses modelos produzem resultados impressionantes e podem ser executados em um laptop poderoso. Podemos resumir a opinião deles sobre os LLMs em cinco pontos principais:

  1. Falta de flexibilidade e velocidade: O desenvolvimento de modelos grandes é lento e é difícil fazer melhorias iterativas neles rapidamente. Isto dificulta o ritmo da inovação e impede reações rápidas a novos conjuntos de dados e tarefas.
  2. Reciclagem dispendiosa: Sempre que surge uma nova aplicação ou ideia, os modelos grandes geralmente precisam ser retreinados do zero. Isso não apenas descarta o pré-treinamento, mas também quaisquer melhorias feitas nele. No mundo do código aberto, essas melhorias aumentam rapidamente, tornando uma reciclagem completa extremamente cara.
  3. Impedimento à Inovação: Embora modelos grandes possam inicialmente oferecer capacidades superiores, o seu tamanho e complexidade podem sufocar a rápida experimentação e inovação. O ritmo de melhoria de modelos menores e rapidamente iterados na comunidade de código aberto supera em muito o de modelos maiores, e suas melhores versões já são amplamente indistinguíveis de modelos grandes como o ChatGPT. Assim, o foco em modelos grandes coloca empresas como o Google em desvantagem.
  4. Leis de escalonamento de dados: Modelos grandes também dependem muito da quantidade de dados, e não da qualidade. No entanto, muitos projetos de código aberto estão agora a treinar em conjuntos de dados pequenos e altamente selecionados, o que potencialmente desafia a sabedoria convencional sobre as leis de escala de dados na aprendizagem automática.
  5. Acessibilidade restrita: Grandes modelos muitas vezes exigem recursos computacionais substanciais, o que limita a sua acessibilidade a uma gama mais ampla de desenvolvedores e pesquisadores. Este factor impede a democratização da IA, uma vantagem fundamental da comunidade de código aberto.

Em outras palavras, modelos menores permitem iterações mais rápidas e, consequentemente, desenvolvimento mais rápido. Este é um daqueles casos em que podemos dizer com segurança que menos é mais. Os experimentos que a comunidade de código aberto está fazendo com esses modelos são incríveis e, como mencionamos no quarto ponto, basicamente estão questionando muitas suposições que fizemos até agora sobre aprendizado de máquina.

Comecei com uma analogia de videogame e terminarei com uma. Em entrevista a Yoshinori Kitase, diretor do incrível Final Fantasy VI, o desenvolvedor japonês foi questionado sobre o clima e a cultura do desenvolvimento de jogos nos anos 90. Sem surpresa, Kitase admitiu que foi uma dor.

Ter que encaixar um conto épico com gráficos, diálogos, música e até cenas cortadas em meros 8 megabytes de armazenamento parece impossível para os padrões atuais. Mas Kitase, na verdade, falou bastante favoravelmente sobre a experiência. Para ele, as limitações de tempo obrigaram a equipe a pensar criativamente, a moldar e remodelar sua visão até conseguir reduzi-la a 8 megabytes.

Parece que a comunidade de código aberto incorpora esse espírito. Por não terem os recursos dos gigantes da tecnologia, eles assumiram a tarefa de criar e desenvolver modelos que poderiam funcionar com uma batata. E, no processo, eles nos mostraram que mais parâmetros são apenas um caminho para a construção de um modelo de linguagem poderoso.

Se você gostou deste artigo, confira um de nossos outros artigos sobre IA.

  • 3 dicas para encontrar um ótimo parceiro de desenvolvimento de IA
  • 8 Tendências FinTech: Do Open Banking à Web3 – Um White Paper da BairesDev
  • Como fazer com que todos em sua empresa participem da IA
  • Como a inteligência artificial pode ajudar na privacidade de dados
  • A nova série de desafios de talentos: como a IA pode impulsionar seus esforços de recrutamento

Fonte: BairesDev

Conteúdo Relacionado

Vídeos deep fake ao vivo cada vez mais sofisticados...
Aprenda como os processos baseados em IA aprimoram o...
O Rails 8 sempre foi um divisor de águas...
A GenAI está transformando a força de trabalho com...
A otimização de processos industriais é um desafio constante...
Entenda o papel fundamental dos testes unitários na validação...
Aprenda como os testes de carga garantem que seu...
Aprofunde-se nas funções complementares dos testes positivos e negativos...
Entenda a metodologia por trás dos testes de estresse...
Descubra a imprevisibilidade dos testes ad hoc e seu...
A nomeação de Nacho De Marco para o Fast...
A Samsung Electronics, fornecedora de tecnologia de memória avançada,...
O mercado embarcado tem uma necessidade de soluções de...
A Inteligência Artificial (IA) tem se tornado cada vez...
Ao relatar estatísticas resumidas para resultados de testes de...
Como você previne alucinações de grandes modelos de linguagem...
Nos últimos anos, a Inteligência Artificial Generativa (Generative AI)...
Domain-Driven Design (DDD) é uma abordagem estratégica importante para...
返回網誌

發表留言

請注意,留言須先通過審核才能發佈。