A ascensão dos agentes autônomos: AutoGPT, AgentGPT e BabyAGI

A ascensão dos agentes autônomos: AutoGPT, AgentGPT e BabyAGI

Primeiro, existiam modelos LLM e agora temos agentes e programas autônomos capazes de realizar tarefas complexas sem intervenção humana. O que sabemos sobre eles? E eles estão prontos para mudar a forma como fazemos negócios?

Imagem em destaque

Em 2022, a AMC lançou uma das melhores séries de ficção científica deste século, uma animação de curta duração chamada Pantheon, baseada nos contos do autor Ken Liu (A garota escondida e outras histórias). A história segue uma garota de 14 anos chamada Maddie Kim, uma garota introvertida que um dia descobre que seu falecido pai foi transformado em uma UI (inteligência carregada), isso envia Maddie para uma teia de enganos e conspirações, à medida que empresas e governos todos em todo o mundo competem para criar o primeiro agente autônomo totalmente funcional. O resultado final? Uma singularidade e o colapso do mundo como o conhecemos.

Tirando alguns dos aspectos mais dramáticos do Pantheon, a história é quase profética, estamos em 2023 e parece que este é um ano que vai ficar na história como o ano da inteligência artificial. Um dia não sabíamos o quanto a IA fazia parte da nossa vida diária e, no dia seguinte, vemos centenas de artigos e tópicos nas redes sociais sobre grandes modelos de linguagem e o que eles estão realizando. Estamos vendo todos os gigantes da tecnologia abandonando qualquer projeto em que estavam trabalhando e colocando a IA na vanguarda.

A OpenAI pode ter liderado, mas todos querem um pedaço do bolo, mesmo as pequenas startups. Há alguns meses, parecia impossível executar um LLM em qualquer coisa que não fosse um farm de servidores, mas aqui estamos nós com centenas de concorrentes executando modelos derivados do LLaMA com uma fração dos recursos dos gigantes da tecnologia.

E isso sem levar em conta o exército de pequenas empresas que usam APIs para trabalhar com grandes modelos. Não sei quantos dados a OpenAI processa diariamente, mas com a quantidade de erros de “muitas solicitações” que nossa equipe enfrentou ao trabalhar com GPT-3.5, é seguro dizer que eles estão quase na capacidade atual.

Qual é o próximo passo? Quem vai ganhar esta corrida armamentista? De acordo com um Google funcionário as probabilidades favorecem os pequenos desenvolvedores e a comunidade de código aberto. Seria um grande erro focar nos peixes grandes e perder de vista algumas das implementações mais interessantes e poderosas de IA provenientes de pequenas comunidades, por exemplo, Agentes Autônomos.

Agentes Autônomos

Se você já experimentou algum dos modelos modernos de linguagem grande, já conhece a essência dele. É um ambiente semelhante a um bate-papo onde você escreve algum texto e o modelo retorna algum texto. Por exemplo, se eu escrevesse “Por favor, escreva um artigo sobre AutoGPT”, faria o possível para falar sobre isso. Neste caso específico, se usássemos o ChatGPT, ele responderia que não sabe o que é isso ou teria alucinações com alguma resposta muito criativa, mas inventada. Por que? Porque o ponto de corte do ChatGPT é 2021, ou seja, ele não foi treinado em nada depois.

Agora, é claro, existem maneiras de contornar isso. Por exemplo, eu poderia escrever um programa Python que faça uma pesquisa na web, reúna os 10 principais resultados, passe-os para o chatGPT para um treinamento curto e, em seguida, imprima o resultado. Não é de forma alguma uma solução perfeita, mas é boa o suficiente para uma maneira rápida e suja de escapar da sandbox OpenAI.

Com isso, temos uma IA que está “conectada à internet” (ok, na verdade não, mas é boa o suficiente para este exemplo). Agora imagine que eu estendo meu script Python para que ele pegue a saída chatGPT, verifique se é um código Python e o execute. Agora temos uma IA que está conectada à internet e é capaz de rodar código (para os entusiastas, se quiserem tentar algo assim, use uma máquina virtual).

Neste ponto, temos um agente rudimentar.

Um agente de computador é um programa de software que pode executar tarefas em nome de um usuário ou de outro programa de computador. Os agentes são normalmente concebidos para serem autónomos e proactivos, o que significa que podem tomar decisões e agir sem a necessidade de intervenção humana.

Embora não seja totalmente autônomo, nosso agente bebê tem independência suficiente para realizar algumas coisas realmente peculiares. É por isso que você deve executá-lo em uma máquina virtual, realmente não sabemos que tipo de código ele executará no final do dia. Podemos continuar a desenvolver este programa, por exemplo, poderíamos introduzir uma forma de o nosso modelo de linguagem criar primeiro uma série de etapas para atingir o nosso objetivo. Então poderíamos passar cada etapa para o nosso modelo de linguagem, testar o resultado e tentar novamente, ir para a próxima tarefa ou criar subtarefas dependendo da solução.

E aos poucos, camada por camada, vamos acrescentando funcionalidades ao nosso agente. Observe como após nossa primeira instrução (aquela que dá o pontapé inicial), nosso agente começará a usar o diálogo interno para continuar trabalhando em cada tarefa. Por exemplo, se o código retornar um erro, o agente dirá a si mesmo: “Ops, algo deu errado; vamos depurar isso e tentar novamente”, não há necessidade de um humano chato supervisionando seu trabalho. Se isso está causando um arrepio na espinha, isso é bom, significa que você já está começando a ver as implicações.

Os agentes informáticos são como pequenos ajudantes que facilitam a nossa vida digital. Eles podem fazer todo tipo de tarefas para nós sem que percebamos – mais ou menos como um assistente pessoal cuida das coisas nos bastidores para que seu chefe não precise se estressar com tudo.

Existem três tipos principais de agentes computacionais: agentes reativos, agentes deliberativos e agentes híbridos.

Agentes reativos

Esses caras são como puro instinto. Eles reagem a estímulos específicos em seu ambiente sem qualquer consciência ou análise do contexto além daquilo para o qual foram explicitamente programados. É como quando você instala um software antivírus em seu laptop – ele entra em ação imediatamente quando um arquivo suspeito é detectado em seu sistema.

Agentes Deliberativos

Por outro lado, temos agentes deliberados – esses caras pensam antes de agir (exatamente como deveríamos!). Eles raciocinam sobre os problemas usando experiências passadas e conhecimentos armazenados em seus bancos de dados para tomar decisões informadas com base nas circunstâncias atuais. Pense na Siri ou na Alexa ao fazer perguntas – elas respondem depois de processar várias fontes de dados antes de fornecer uma resposta.

Agentes Híbridos

O terceiro tipo é onde as coisas ficam selvagens: combinações híbridas! Esses bad boys combinam características de agentes reativos e deliberativos, permitindo-lhes lidar com ambientes dinâmicos com condições em constante mudança, bem como solucionar problemas relacionados a cenários de missão com eficiência incomparável a outros tipos.

Nosso exemplo ficaria em algum lugar entre o híbrido e o deliberativo. Mas com bastante esforço e dedicação, poderíamos transformá-lo em um agente híbrido completo como autoGPT, babyAGI ou agentGPT.

Chega um novo desafiante: AutoGPT vs. Bate-papoGPT

AutoGPT é um aplicativo experimental de código aberto que usa o modelo de linguagem GPT-4 da OpenAI para atingir objetivos autônomos. Foi criado pelo desenvolvedor de jogos Toran Bruce Richards e lançado em março de 2023.

Muito parecido com o nosso exemplo, o AutoGPT funciona dividindo uma meta definida pelo usuário em uma série de subtarefas. Em seguida, ele usa GPT-4 para gerar texto e código que podem ser usados ​​para concluir essas subtarefas. O AutoGPT pode ser usado para executar uma variedade de tarefas, incluindo:

  • Escrevendo código
  • Gerando texto
  • Traduzindo idiomas
  • Respondendo a perguntas
  • Resolvendo problemas

O AutoGPT ainda está em desenvolvimento, na verdade, se você visitar o GitHub do projeto, ele tem mais avisos do que um frasco de remédio. É instável, não confiável e pode destruir totalmente sua carteira com consultas à API OpenAI. Mas também tem potencial para ser uma ferramenta poderosa para automatizar tarefas e melhorar a eficiência. É também uma ferramenta valiosa para desenvolvedores que desejam aprender mais sobre o GPT-4 e como ele pode ser usado para criar aplicativos autônomos.

Aqui estão alguns dos benefícios de usar o AutoGPT:

  • Pode automatizar tarefas: O AutoGPT pode ser usado para automatizar uma variedade de tarefas, como escrever código, gerar texto, traduzir idiomas, responder perguntas e resolver problemas. Isso pode economizar tempo e esforço e também ajudá-lo a ser mais produtivo.
  • É fácil de usar: AutoGPT é muito fácil de usar. Você só precisa definir uma meta e o AutoGPT fará o resto. Não há necessidade de escrever nenhum código ou aprender comandos complexos.
  • É poderoso: O AutoGPT é desenvolvido com GPT-4, que é um dos modelos de linguagem mais poderosos do mundo. Isso significa que o AutoGPT pode ser usado para executar uma ampla variedade de tarefas e com alto grau de precisão.

Não consigo enfatizar isso o suficiente, o autoGPT é o primeiro desse tipo e não é absolutamente confiável. Seria uma loucura tentar implantá-lo em um ambiente de produção. Mas por outro lado, se você está pensando em construir agentes autônomos, é imprescindível verificar o repositório GitHub deste projeto. Existem tantas boas ideias neste projeto que podem ser aproveitadas, redefinidas e adaptadas para outros ambientes.

A solução simples: AgentGPT

AgenteGPT é como um canivete suíço para qualquer CTO que deseja aumentar a produtividade de sua equipe. Imagine um assistente supereficiente que pode ajudá-lo em tarefas que vão desde o desenvolvimento de uma estratégia de marketing até a construção de um site com muito pouca intervenção humana – esse é o AgentGPT para você.

Veja, AgentGPT é uma plataforma que cria agentes de IA para atender aos seus objetivos, assim como o autoGPT. É um projeto de código aberto que aproveita os modelos GPT-3.5 e GPT-4 da OpenAI. Pense nele como um primo evoluído do ChatGPT que pode não apenas conversar, mas também criar autonomamente suas próprias tarefas, navegar na web e até mesmo enviar novos agentes ao campo de batalha digital para cumprir a missão que lhe foi atribuída.

A melhor parte? É como um super-herói amigável da vizinhança. Você não precisa ser um assistente de codificação ou possuir nenhum conhecimento técnico especial para usar o AgentGPT. Não quer lidar com dockers, configuração de ambientes e outras coisas de tecnologia? Quer experimentar agora mesmo o que os agentes autônomos têm a oferecer? Então AgentGPT é a solução mais simples.

Acessar o AgentGPT é tão simples quanto pedir uma pizza. Tudo o que você precisa fazer é visitar o site do AgentGPT ou, se você gosta mais de DIY, pode pegar o código do repositório oficial do GitHub e instalá-lo em seu sistema local.

Depois de entrar, você terá três níveis de acesso. Você pode jogar como convidado com tokens limitados e sem capacidade de salvar agentes. Suba de nível criando uma conta e você poderá gerenciar contas e salvar agentes implantados. O nível superior requer uma chave de API OpenAI e desbloqueia recursos avançados, como definir o nível de foco do agente e o número máximo de loops.

Obter o AgentGPT quase não requer nenhum trabalho. Você precisa montar e configurar um agente, atribuir uma meta a ele e implantá-lo. É literalmente apenas dar um nome e um objetivo. É como dar um nome ao seu novo animal de estimação e ensinar-lhe truques. Quando criei meu primeiro agente, chamei-o de “Deal Finder”. Você pode escolher qualquer nome, desde que esteja relacionado à função ou objetivo do agente.

Agora é aqui que fica interessante configurar seu agente. É aqui que você ajusta o comportamento do seu agente. É como escolher os ingredientes de uma receita complexa. Você tem a opção de selecionar o modelo GPT, modo de execução, nível de foco, tokens e loops máximos. É crucial encontrar o equilíbrio certo – muito alto ou muito baixo, e você pode acabar com um prato queimado ou uma massa mal cozida.

Neste caso, mire muito alto e você terá uma IA errática e sem foco, muito baixa e sua IA será um agente bastante manso e previsível que fará o mínimo absoluto. Depois de montar e configurar seu agente, é hora de deixá-lo solto na selva digital. Implante seu agente e então você poderá monitorar sua jornada no console principal do site.

Parece fantástico, certo? Bem, assim como seu primo AutoGPT, que entende de tecnologia, ainda não é confiável e depende do modelo da OpenAI. Ainda assim, na minha experiência pessoal, é um pequeno experimento divertido que pode realmente se transformar em uma ferramenta líder do setor, fácil de usar.

O melhor para o final: BabyAGI

Um dos principais problemas dos grandes modelos de linguagem é que eles são amnésicos. Feche a janela ou exclua o bate-papo e seu fiel companheiro de IA desaparecerá para sempre. Mas e se pudéssemos inspirar-nos na humanidade e dar-lhe uma memória de longo prazo? Entra no BabyAGI de Yohei Nakajima baseado em seu papel “Agente autônomo orientado a tarefas utilizando GPT-4, Pinecone e LangChain para diversas aplicações”. Como o nome indica, é uma pilha de tecnologia com três componentes principais. GPT, Pinha e LangChain

Pinha

Pinecone é um serviço de banco de dados vetorial projetado para fornecer recursos de pesquisa vetorial eficientes e escaláveis. Foi lançado com o objetivo de permitir que as empresas criem aplicativos que aproveitem o aprendizado de máquina de maneira mais fácil e eficaz. O serviço é baseado em nuvem e totalmente gerenciado, o que significa que os usuários não precisam se preocupar com gerenciamento de infraestrutura, dimensionamento ou atualização de sistemas – a Pinecone cuida de tudo isso.

Aqui está uma visão mais detalhada de como funciona o Pinecone:

  1. Incorporação e Indexação:

Pinecone começa incorporando dados em um espaço vetorial usando um modelo de aprendizado de máquina. Este processo de incorporação transforma texto, imagens ou outros dados em um vetor numérico que captura seus recursos essenciais. Pinecone indexa seus vetores incorporados para uma pesquisa eficiente.

  1. Pesquisa vetorial:

Insira um vetor de consulta e pesquise vetores semelhantes em seu banco de dados. Pinecone usa um algoritmo de pesquisa do vizinho mais próximo aproximado (ANN) para pesquisar grandes bancos de dados de maneira eficiente e escalonável.

  1. Atualizando o Índice:

O índice pode incorporar novos dados sem reconstruí-los. Pinecone é perfeitamente adequado para aplicações com dados variáveis.

  1. Dimensionamento e gerenciamento:

Pinecone foi desenvolvido para grandes aplicações. À medida que seu banco de dados cresce, ele gerencia a infraestrutura, dimensiona e otimiza as operações de pesquisa. Os desenvolvedores podem se concentrar no desenvolvimento de aplicativos sem se preocupar com a infraestrutura devido a essa escalabilidade e gerenciamento.

LangChain

A introdução do extraordinário projeto de código aberto LangChain por Harrison Chase em outubro de 2022 causou um grande rebuliço na indústria de TI. Ganhou muita atenção e investimentos, incluindo uma rodada de financiamento de US$ 20 milhões da Sequoia Capital, graças à sua comunidade em rápida expansão no GitHub, Twitter, Discord e outras plataformas.

É uma arquitetura inovadora que funciona com uma ampla variedade de sistemas e serviços, desde provedores de armazenamento em nuvem como Amazon e Google até modelos de linguagem como OpenAI, Anthropic e Hugging Face. Ele serve como uma plataforma unificada e expansível para uma ampla variedade de aplicações.

A gama de aplicações possíveis é enorme. Você pode usar notícias, listas de filmes e wrappers da API meteorológica. Ele é capaz de executar programas shell, rastrear a web e até mesmo gerar prompts de aprendizagem rápidos. Da manipulação de PDF ao SQL, esta ferramenta ajuda você.

É compatível com uma ampla variedade de tipos de documentos e fontes de dados. e bancos de dados não relacionais (NoSQL). Além de seus recursos de gerenciamento de dados, LangChain também pode gerar, analisar e depurar scripts escritos em Python e Java. Quando todos esses elementos são combinados, obtemos um dos agentes autônomos mais sofisticados possíveis.

Novamente, não é perfeito, mas usa algumas técnicas de aprendizado de máquina de ponta para construir um companheiro de IA capaz com espaço para crescimento. BabyAGI também tem a vantagem adicional de poder rodar em modelos baseados em GPT-4 ou LLaMA. Portanto, a comunidade de código aberto provavelmente investirá mais no BabyAGI.

Qual é o próximo?

Talvez seja demasiado cedo para colocar estas ferramentas em produção para qualquer tarefa significativa, mas apostaria a minha vida que os agentes autónomos têm o potencial de roubar a atenção dos grandes modelos de linguagem. Posso imaginar bots multimodais complicados no futuro, produzindo não apenas texto, mas também conteúdo visual e de áudio. Mesmo que os computadores não tenham consciência, não tenho dúvidas de que já passaram no teste de Turing.

Se você gostou deste artigo, confira um de nossos outros artigos sobre IA.

  • Como a inteligência artificial ajudará a alimentar o mundo
  • 5 maneiras pelas quais as empresas B2B podem usar IA
  • Como o copiloto do GitHub afetará a produtividade
  • Como as emoções e a IA fazem os negócios crescerem
  • Como a Internet dos Comportamentos (IoB) está sacudindo o mercado

Fonte: BairesDev

Conteúdo Relacionado

Deepfakes de IA: uma ameaça à autenticação biométrica facial
Vídeos deep fake ao vivo cada vez mais sofisticados...
Desenvolvimento de produtos orientado por IA: da ideação à prototipagem
Aprenda como os processos baseados em IA aprimoram o...
O Rails 8 está pronto para redefinir o Desenvolvimento Web
O Rails 8 sempre foi um divisor de águas...
Como os trabalhadores da Silver aproveitam o GenAI para qualificação
A GenAI está transformando a força de trabalho com...
Otimizando Processos Industriais: Técnicas Avançadas para maior eficiência
A otimização de processos industriais é um desafio constante...
Testes Unitários: Definição, Tipos e Melhores Práticas
Entenda o papel fundamental dos testes unitários na validação...
Teste de carga: definição, ferramentas e melhores práticas
Aprenda como os testes de carga garantem que seu...
Comparação entre testes positivos e negativos: estratégias e métodos
Aprofunde-se nas funções complementares dos testes positivos e negativos...
O que é teste de estresse? Levando o teste de software ao seu limite
Entenda a metodologia por trás dos testes de estresse...
Testes Ad Hoc: Adotando a espontaneidade no controle de qualidade
Descubra a imprevisibilidade dos testes ad hoc e seu...
Nacho De Marco agora é membro do Fast Company Impact Council
A nomeação de Nacho De Marco para o Fast...
Primeiro MPU single-core com interface de câmera MIPI CSI-2 e áudio
O mercado embarcado tem uma necessidade de soluções de...
A Importância da Inteligência Artificial Explicável (XAI) para Desenvolvedores
A Inteligência Artificial (IA) tem se tornado cada vez...
Entendendo Distribuições Multimodais em Testes de Desempenho
Ao relatar estatísticas resumidas para resultados de testes de...
Como Prevenir Alucinações em Aplicativos GenAI com Streaming de Dados em Tempo Real
Como você previne alucinações de grandes modelos de linguagem...
Roteamento de Consulta: Otimizando Aplicativos Generative AI Avançados
Nos últimos anos, a Inteligência Artificial Generativa (Generative AI)...
10 Armadilhas Comuns do Domain-Driven Design (DDD) que Você Deve Evitar
Domain-Driven Design (DDD) é uma abordagem estratégica importante para...
Framework mais utilizado no mercado atualmente: Explorando o Poder do Ionic
No atual cenário tecnológico, a escolha do framework adequado...
Retour au blog

Laisser un commentaire

Veuillez noter que les commentaires doivent être approuvés avant d'être publiés.