Mecanismos de Busca Alimentados pela Inteligência Artificial

4 de novembro de 2024 Luciano Bertene

O mecanismo de busca da internet do futuro será alimentado por inteligência artificial. Já é possível escolher entre uma série de mecanismos de busca alimentados por IA ou aprimorados por IA — embora sua confiabilidade ainda deixe muito a desejar. No entanto, uma equipe de cientistas da computação da University of Massachusetts Amherst publicou e lançou recentemente um novo sistema para avaliar a confiabilidade de buscas geradas por IA.

Chamado de "eRAG", o método é uma maneira de colocar a IA e o mecanismo de busca em conversação um com o outro, e então avaliar a qualidade dos mecanismos de busca para uso da IA. O trabalho é publicado como parte dos Anais da 47ª Conferência Internacional ACM SIGIR sobre Pesquisa e Desenvolvimento em Recuperação de Informação.

O Problema com os Mecanismos de Busca Atuais

"Todos os mecanismos de busca que sempre usamos foram projetados para humanos", diz Alireza Salemi, estudante de pós-graduação na Manning College of Information and Computer Sciences da UMass Amherst e principal autor do artigo. "Eles funcionam muito bem quando o usuário é humano, mas o mecanismo de busca do usuário principal do futuro será um dos Modelos de Linguagem Grande de IA (LLMs), como o ChatGPT. Isso significa que precisamos redesenhar completamente a maneira como os mecanismos de busca funcionam, e minha pesquisa explora como os LLMs e os mecanismos de busca podem aprender uns com os outros."

O problema básico que Salemi e o autor sênior da pesquisa, Hamed Zamani, professor associado de ciências da informação e da computação na UMass Amherst, enfrentam é que humanos e LLMs têm necessidades informacionais e comportamento de consumo muito diferentes.

Por exemplo, se você não consegue lembrar o título e o autor daquele novo livro que acabou de ser publicado, você pode inserir uma série de termos de pesquisa gerais, como "qual é o novo romance de espionagem com um toque ambiental daquele escritor famoso" e, então, restringir os resultados, ou executar outra pesquisa conforme você se lembrar de mais informações (o autor é uma mulher que escreveu o romance "Flamethrowers"), até encontrar o resultado correto ("Creation Lake" de Rachel Kushner — que o Google retornou como o terceiro resultado após seguir o processo acima).

Mas é assim que os humanos trabalham, não os LLMs. Eles são treinados em conjuntos de dados específicos e enormes, e qualquer coisa que não esteja naquele conjunto de dados — como o novo livro que acabou de chegar às bancas — é efetivamente invisível para o LLM.

Além disso, eles não são particularmente confiáveis com solicitações confusas, porque o LLM precisa ser capaz de solicitar mais informações ao mecanismo; mas, para fazer isso, ele precisa saber as informações adicionais corretas a serem solicitadas.

Avaliando a Confiabilidade dos Mecanismos de Busca para IA

Cientistas da computação criaram uma maneira de ajudar os LLMs a avaliar e escolher as informações de que precisam, chamada "geração aumentada de recuperação" ou RAG. RAG é uma maneira de aumentar os LLMs com as listas de resultados produzidas por mecanismos de busca. Mas, claro, a questão é: como avaliar a utilidade dos resultados de recuperação para os LLMs?

Até agora, os pesquisadores descobriram três maneiras principais de fazer isso: a primeira é fazer crowdsourcing da precisão dos julgamentos de relevância com um grupo de humanos. No entanto, é um método muito custoso e os humanos podem não ter o mesmo senso de relevância que um LLM.

Também é possível ter um LLM gerando um julgamento de relevância, o que é muito mais barato, mas a precisão sofre a menos que se tenha acesso a um dos modelos LLM mais poderosos. A terceira maneira, que é o padrão ouro, é avaliar o desempenho de ponta a ponta dos LLMs aumentados por recuperação.

Mas mesmo esse terceiro método tem suas desvantagens. "É muito caro", diz Salemi, "e há algumas questões preocupantes de transparência. Não sabemos como o LLM chegou a seus resultados; sabemos apenas que ele chegou ou não." Além disso, há algumas dezenas de LLMs em existência agora, e cada um deles funciona de maneiras diferentes, retornando respostas diferentes.

O Método eRAG

Em vez disso, Salemi e Zamani desenvolveram o eRAG, que é semelhante ao método padrão ouro, mas muito mais econômico, até três vezes mais rápido, usa 50 vezes menos energia da GPU e é quase tão confiável.

"O primeiro passo para desenvolver mecanismos de busca eficazes para agentes de IA é avaliá-los com precisão", diz Zamani. "O eRAG fornece uma metodologia de avaliação confiável, relativamente eficiente e eficaz para mecanismos de busca que estão sendo usados por agentes de IA."

Em resumo, o eRAG funciona assim: um usuário humano usa um agente de IA alimentado por LLM para realizar uma tarefa. O agente de IA enviará uma consulta a um mecanismo de busca e o mecanismo de busca retornará um número discreto de resultados — digamos, 50 — para consumo de LLM.

O eRAG executa cada um dos 50 documentos pelo LLM para descobrir qual documento específico o LLM achou útil para gerar a saída correta. Essas pontuações em nível de documento são então agregadas para avaliar a qualidade do mecanismo de busca para o agente de IA.

Embora atualmente não haja um mecanismo de busca que funcione com todos os principais LLMs desenvolvidos, a precisão, a relação custo-benefício e a facilidade com que o eRAG pode ser implementado são um grande passo em direção ao dia em que todos os nossos mecanismos de busca serão executados com IA.