Pequenas IAs generativas: o tamanho importa

Pequeñas IA generativas: el tamaño importa

31 de mayo de 2024 Roberto Magalhães

Más grande no siempre es mejor. Incluso con los impresionantes resultados de modelos como ChatGPT, todavía hay argumentos que defender a favor de modelos más pequeños y de modelos ajustados que sean “expertos” en un área.

Hoy quiero hablar de las pequeñas IA generativas: las pequeñas potencias que están teniendo un gran impacto en el mundo del desarrollo de software.

Ahora sé lo que podrías estar pensando: "¿No es siempre mejor lo más grande?" Bueno no exactamente. Cuando se trata de modelos de IA, más grande suele significar resultados más precisos e impresionantes. Pero (siempre hay un pero) la cantidad de datos también trae consigo algunas limitaciones y riesgos.

Todos hemos oído hablar de estas cosas llamadas modelos de lenguaje grande (LLM), por ejemplo, ChatGPT de OpenAI, LaMDA y BARD de Google, HuggingChat de Hugging Face, LLaMA de Meta y Titan Text de Amazon. Es sorprendente la rapidez con la que las empresas se subieron al carro del LLM después del gran éxito de OpenAI.

Estos modelos son impresionantes (al menos los que están disponibles públicamente) y no podrían existir sin millones de gigabytes de datos. No es de extrañar que los productos de IA estén utilizando la cantidad de parámetros (en miles de millones) como referencia, como los fabricantes de consolas solían hablar de bits en los años 90 y principios de los 2000.

Pero ese tamaño tiene un costo. La arquitectura del servidor para este tipo de producto es enorme y esto es sólo la punta del iceberg: recopilación y limpieza de datos, costos de ingeniería, inversión de tiempo y más. Este no es el tipo de producto que se prepara en el garaje durante un fin de semana.

Y eso sin tener en cuenta algunas de las cuestiones éticas que rodean la recopilación de datos, la extracción de datos y otros temas que han puesto a OpenAI en problemas en los últimos meses, como la prohibición italiana. Y créanme, llegaremos a eso, pero antes de ver un tema aún mayor con estos modelos, la mejor manera de explicarlo es hablando de una figura clásica muy conocida: el bueno de Sócrates.

Los males de Sócrates: Episteme vs. doxa

Sócrates es una figura enigmática pero significativa del período clásico; Casi todo lo que sabemos sobre él está contado a través de los ojos de su supuesto discípulo, Platón. Para algunos filósofos, Sócrates ni siquiera era una persona real, sino más bien un recurso literario para explorar la filosofía de Platón a través del diálogo.

Dejando ese debate de lado, Sócrates era famoso por ser un hombre obstinado que extraía respuestas de todo aquel que se atrevía a tener una opinión. El método socrático es un proceso doloroso en el que, a través del acto de cuestionar, se desmonta el supuesto conocimiento, dando paso a la “verdad” detrás del tema en cuestión.

Fue tan fanático en su búsqueda de la verdad que acabó ganándose enemigos políticos que le costaron la vida. Acusado de corromper a los jóvenes, fue injustamente condenado a muerte. Incluso cuando tuvo la oportunidad de escapar, decidió aceptar su destino, ya que era su responsabilidad como ciudadano de Atenas.

En otras palabras, Sócrates estaba en contra de la doxa, las creencias y opiniones de un grupo de personas. En cambio, persiguió incansablemente la episteme, que se refiere al conocimiento “verdadero”. En aquella época la forma en que entendíamos la verdad era muy diferente, pero hoy en día la episteme equivaldría al conocimiento basado en hechos y evidencias.

He aquí la triste verdad: cuando confiamos demasiado en grandes modelos lingüísticos, corremos el riesgo de priorizar la doxa sobre la epistemología. El modelo puede generar un argumento convincente o una explicación plausible, pero eso no necesariamente lo convierte en verdadero.

La razón es doble. Primero, los modelos de lenguaje no entienden los conceptos de la misma manera que nosotros (de hecho, no los entienden en absoluto). Son muy buenos para entender qué palabras deberían ir juntas, pero no por qué deberían ir juntas. Esto es lo que provoca alucinaciones cuando la IA inventa hechos porque, estadísticamente, tiene sentido que esas palabras vayan juntas.

La segunda razón es que la mayoría de los datos en el mundo son en realidad doxa en el sentido griego y no episteme. Los mismos datos con los que se construyen los modelos. Ahora, antes de hablar de las implicaciones de la afirmación, quiero dejar algo sumamente claro: doxa no es lo mismo que mentiras o falsedades. Más bien, sería más bien una “verdad a medias”. Por ejemplo, la mayoría de las personas saben que el vinagre evita que los alimentos se echen a perder, pero si se les pregunta por qué sucede esto, probablemente no podrán explicarlo.

En términos más simples, el hecho de que un modelo pueda hablar con el ejemplo no significa que pueda predicar con el ejemplo. Es como pedirle a mi amigo que siempre está arrojando teorías de conspiración sobre el alunizaje que me ayude con mi tarea de historia. Claro, es posible que se le ocurran algunas teorías descabelladas sobre lo que "realmente" sucedió, pero eso no significa que sepa nada sobre los hechos históricos reales.

Y ese es el verdadero peligro de depender demasiado de los LLM. Podríamos sentirnos tentados a confiar en los resultados del modelo sin cuestionar si son realmente exactos o si se basan en evidencia sólida. Es como dejar que una Bola Mágica 8 tome todas tus decisiones comerciales; claro, puede que tengas suerte de vez en cuando, pero respóndeme: ¿volarías en un avión construido enteramente con instrucciones de ChatGPT?

¿Entonces, cuál es la solución? Como ocurre con la mayoría de las cosas en la vida, se trata de equilibrio. Los grandes modelos lingüísticos tienen su lugar, pero debemos tener cuidado de no dejar que se apoderen por completo. Siempre debemos cuestionar el resultado del modelo, comprobando las fuentes y comprobando los hechos. Y si no estamos seguros de algo, debemos estar dispuestos a admitirlo y buscar información adicional.

Ahora hay otra alternativa. ¿Qué tal si, en lugar de depender directamente del LLM, simplemente lo usamos como base, como punto de partida para construir IA especializada con datos cuidadosamente seleccionados? Así como los humanos iniciamos nuestro camino en la educación aprendiendo un poco sobre todo y, a medida que vamos creciendo, nos centramos en áreas específicas.

El alcance de estos modelos enfocados es bastante pequeño en comparación, pero al mismo tiempo, sus resultados sobre temas específicos son mucho más confiables. Es como ajustar la difusión estable con los cuadros de Velásquez. A partir de ese momento, a este modelo en particular le costará más realizar todo tipo de imágenes imaginables, pero llegará a ser muy bueno pintando como Velásquez.

IA generativas pequeñas versus IA generativas grandes: pros y contras

Muy bien, hablemos de IA generativas pequeñas versus IA generativas grandes. Es como comparar una navaja de bolsillo con un machete; Ambos tienen sus usos, pero uno puede ser más apropiado que el otro dependiendo de la situación.

Las pequeñas IA generativas pueden ser como su confiable navaja de bolsillo: compactas, eficientes y confiables para determinadas tareas. Son excelentes para generar pequeños fragmentos de texto o imágenes de forma rápida y precisa. No necesita una gran potencia informática para realizar tareas con ellos. Además, se pueden integrar fácilmente en los sistemas existentes sin causar muchas interrupciones.

Por otro lado, a veces necesitas esa IA grande, mala y parecida a un machete para resolver problemas difíciles. Los modelos a gran escala tienen acceso a grandes cantidades de datos y potencia de procesamiento, lo que les permite generar contenidos más complejos con mayor precisión. Puede que no sean tan fáciles de manejar o integrar como los más pequeños, pero sin duda son eficaces cuando se trata de tiempos difíciles.

He trabajado con ambos tipos de modelos en mi tiempo desarrollando software y descubrí que elegir entre IA a pequeña y gran escala realmente depende de lo que desee de su sistema de IA.

A veces, todo lo que se necesita es una herramienta de toma de decisiones rápida que genere fragmentos de código simples o cadenas basadas en algunos patrones predefinidos (algo relativamente mundano que no requiere grandes recursos computacionales), por lo que los modelos pequeños sirven mejor.

En otras ocasiones, sin embargo (como si estás intentando hacer un deepfake), los peces gordos deberían salir a la luz. Modelos más grandes entrenados con grandes cantidades de datos nos ayudarán a acercarnos a lograr lo que pretendemos: desarrollar habilidades AGI, como la creación de mundos virtuales completos, indistinguibles de la realidad.

Aquí también hay consideraciones sobre los costos de capacitación. Realizar un entrenamiento que involucre grandes conjuntos de datos durante períodos de tiempo más largos requiere inmensos recursos y, por lo tanto, desperdicia energía innecesaria. Para problemas pequeños, los grandes modelos son como volar un país por los aires sólo para matar una mosca. Por tanto, es una herramienta que hay que utilizar con prudencia.

El futuro de las pequeñas IA generativas

Antes que nada, déjame decirte que estoy muy contento con lo que viene. Como alguien a quien le encanta jugar con la tecnología y superar los límites, no puedo esperar a ver hasta dónde llegaremos con estas mini maravillas.

Mi intuición es que a medida que la potencia de procesamiento se vuelva aún más rápida y más barata de lo que ya es, veremos suceder cosas realmente sorprendentes con las pequeñas IA generativas. Piénselo: ahora mismo, nos están impresionando a diestro y siniestro al crear impresionantes obras de arte o música dentro de ciertos parámetros definidos por humanos (como combinaciones de colores o estructuras de acordes). Pero ¿y si tuvieran más libertad? ¿Y si les dieran las riendas creativas?

Sé que algunas personas podrían estar preocupadas por esta idea. Después de todo, ¿no deberíamos ser nosotros los que hacemos arte? Pero escúchenme: creo que trabajar junto con pequeñas IA generativas podría generar colaboraciones realmente interesantes entre humanos y máquinas. Imagínese poder intercambiar ideas con su propio asistente personal de IA hasta que se le ocurra algo verdaderamente único e inesperado.

A medida que la IA mejore y se construyan nuevos modelos a partir de modelos fundamentales, veremos resultados de mayor calidad con estas herramientas de IA. El futuro no se trata sólo de recopilar más datos y dárselos a los peces gordos; también se trata de ser más ágiles y eficientes, de ahorrar energía y de crear las herramientas adecuadas para nuestras necesidades.

Hay muchas aplicaciones prácticas para esta tecnología más allá de generar bellas imágenes o música. Las pequeñas IA generativas podrían ayudar a automatizar tareas de codificación repetitivas o incluso generar programas completos desde cero utilizando datos en lugar de reglas preescritas.

Por supuesto, también hay posibles desventajas a considerar cuando pensamos en traspasar partes de nuestra creatividad (y medios de vida) a las máquinas. Es importante para nosotros, como desarrolladores de software, no sólo explorar nuevas tecnologías sino también evaluar sus implicaciones éticas para la sociedad en general.

Estudios de caso: Pequeñas IA generativas en acción

Cuando se trata de pequeñas IA generativas, siempre ha habido un poco de escepticismo en la comunidad de desarrollo de software. Algunos desarrolladores creen que estos pequeños algoritmos tienen un alcance muy limitado y no pueden tener ningún impacto significativo en su trabajo.

Pero como alguien que ha implementado varias IA generativas pequeñas en mis propios proyectos, estoy aquí para decirles: ¡el tamaño no importa! De hecho, algunas de las soluciones más innovadoras e impactantes que he creado provienen de proyectos de IA más pequeños.

Tomemos, por ejemplo, un proyecto en el que trabajé recientemente. Estábamos desarrollando una aplicación que requería la capacidad de generar recomendaciones personalizadas para los usuarios en función de su comportamiento en la plataforma. Originalmente consideramos utilizar un modelo de IA previamente entrenado más grande, pero después de experimentar decidimos optar por un diseño más compacto que se adaptaba mejor a nuestras necesidades: consumía menos recursos y al mismo tiempo ofrecía resultados impresionantes.

Algunos entusiastas han tenido gran éxito en la creación de pequeños modelos de lenguaje entrenándolos con resultados de GPT, por ejemplo GPT4all. (Por cierto, no hagas esto, va en contra de los términos de servicio de OpenAI).

Para garantizar que su precisión se mantuviera alta, entrenamos ampliamente este algoritmo, probando diferentes entradas y parámetros hasta que logramos exactamente lo que necesitábamos: operación rápida y resultados precisos entregados de manera consistente en todos los dispositivos.

Si bien puede que no haya sido tan sólido o completo como muchos otros modelos existentes, nuestra genAI compacta demostró ser invaluable a través de sus recomendaciones confiables, guiándonos de manera eficiente hacia nuevas ideas de funciones que mejoraron la experiencia del usuario sin sacrificar la calidad o la escalabilidad en los plazos de desarrollo, manteniendo las cosas ¡Más ágil que nunca en nuestro equipo ágil!

Entonces, si eres escéptico acerca de implementar pequeñas IA generativas en tu próximo proyecto porque parecen no estar suficientemente equipadas, ¡piénsalo de nuevo! Estos pequeños ofrecen un rendimiento increíble donde más importa: ¡rendimiento optimizado al menor costo de potencia de procesamiento!

La ética de las pequeñas IA generativas

Seamos realistas: la IA es como un genio que puede conceder todos nuestros deseos, pero viene con su propio conjunto de términos y condiciones. Como desarrolladores, tenemos la responsabilidad de crear sistemas inteligentes sin comprometer la privacidad ni la ética. Y cuando se trata de pequeñas IA generativas, surge la pregunta: ¿importa el tamaño?

Hoy en día, vemos muchas pequeñas aplicaciones impulsadas por IA que generan imágenes, música e incluso contenido de correo electrónico. Son herramientas útiles para artistas aficionados que quieren expresarse creativamente mientras aprenden el oficio. Pero a medida que estas aplicaciones se vuelvan más frecuentes y poderosas, podrían generar preocupaciones en materia de propiedad intelectual.

Por ejemplo, no querrás una aplicación que reclame la propiedad de tu arte o idea generada porque en teoría fue programada por el algoritmo de sus servidores. ¡Hablamos de manipulación robótica! De manera similar, imagina usar una aplicación que genera pistas de música basándose en la entrada del usuario, solo para enfrentarte a problemas de derechos de autor en el futuro, ya que, sin saberlo, has cruzado líneas con piezas que ya tienen derechos de autor.

Estos dilemas éticos deben abordarse (y ya se están abordando) antes de que dichas aplicaciones se generalicen, limitando cualquier impacto negativo futuro.

Otra área donde las pequeñas IA generativas podrían tener problemas sería su potencial susceptibilidad a la explotación por parte de elementos deshonestos o grupos de interés con intenciones poco puras. Garantizar que no haya abusos en ciertos campos podría ayudar a evitar que la automatización reemplace puestos de trabajo demasiado rápido (considere cuántas personas se sintieron incómodas cuando Uber introdujo los automóviles autónomos).

No estoy diciendo que todo este negocio de aplicaciones creativas más pequeñas pero poderosas no tenga un gran potencial; sin embargo, por la misma razón, cualquier nueva invención tiene posibilidades paralelas asociadas. Sólo necesitamos equilibrar adecuadamente ambas partes mientras nos esforzamos por adoptar prácticas responsables.

Conclusión: Por qué el tamaño importa en la IA generativa

Cuanto mayor sea el conjunto de datos y el modelo en el desarrollo de la IA generativa, mayores serán las posibilidades de generar resultados de alta calidad. Es como hacer un pastel; Cuantos más ingredientes elijas y mezcles, mayores serán tus posibilidades de preparar un postre delicioso.

Pero no dejes que esto desanime a quienes recién están comenzando su viaje con la IA. No es necesario crecer mucho ni volver a casa de inmediato. Como dicen, “pequeñas pero poderosas”: las pequeñas IA generativas todavía tienen un gran potencial para generar resultados creativos y oportunidades de aprendizaje.

Y si hay algo que a los desarrolladores nos encanta hacer es compartir nuestro código. Incluso los modelos pequeños pueden unir fuerzas con otros modelos a través de técnicas de aprendizaje federado, que permiten que múltiples algoritmos en una red se entrenen de manera colaborativa entre sí sin fusionarse en un modelo convincente, incorporando mecanismos de protección de la privacidad entre dispositivos, como la privacidad diferencial (juego de palabras). .

En cualquier caso, y sea cual sea el modelo de tamaño con el que empieces, recuerda estas palabras de precaución: comprueba siempre el resultado generado antes de usarlo como la verdad absoluta. Habrá ocasiones en las que una IA genere resultados extraños o problemáticos; ¡Confía siempre, pero verifica! ¡Así que adelante, experimentadores! Intente construir diferentes tamaños de modelos de IA generativa, ¿por qué no? Experimente con conjuntos de datos de entrenamiento. Vea cuánta creatividad se esconde debajo de sus capas y capas de hiperparámetros.

Sólo recuerda: “El tamaño no importa… Mírame… Júzgame por mi tamaño, ¿no?” -Yoda

Conteúdo relacionado

Prolog vs. Lisp: Explorando a Programação Lógica e Funcional

A escolha da linguagem de programação certa pode fazer toda a diferença no desenvolvimento de aplicativos complexos e sistemas inteligentes. Neste post, vamos mergulhar na comparação entre duas abo...
Haskell vs. OCaml: Escolhendo a Linguagem Funcional Ideal para o seu Projeto

Na era da computação moderna, onde a eficiência e a confiabilidade são cruciais, a escolha da linguagem de programação certa pode fazer toda a diferença. Neste artigo, vamos explorar as característ...
Dylan vs. Smalltalk: Programação Dinâmica e Orientada a Objetos

Quando se trata de linguagens de programação, a diversidade é abundante, cada uma com suas próprias características, forças e aplicações específicas. Neste blog, vamos mergulhar na comparação entre...
JRuby vs. Groovy: Desenvolvimento JVM Dinâmico

A escolha entre JRuby e Groovy pode ser um desafio para desenvolvedores que trabalham em ambientes Java. Ambas as linguagens oferecem vantagens únicas, mas é importante entender as diferenças para ...
V vs. Zig: Linguagem Certa para Desenvolvimento de Sistemas e Segurança

Na era digital em constante evolução, a escolha da linguagem de programação certa se torna cada vez mais crucial para o desenvolvimento de sistemas eficientes e seguros. Neste artigo, vamos explora...
Crystal vs. Nim: Desenvolvimento de Sistemas e Performance

O mundo do desenvolvimento de software está em constante evolução, e as linguagens de programação desempenham um papel fundamental nesse cenário. Duas linguagens que têm ganhado destaque são o Crys...
Tcl vs. Expect: Explorando as diferenças na Automação de Tarefas

A evolução da tecnologia trouxe consigo uma série de ferramentas e linguagens de programação que visam facilitar a automatização de tarefas. Neste cenário, duas opções se destacam: Tcl (Tool Comman...
Idris vs. Agda: Explorando a Programação Funcional e a Tipagem Dependente

No mundo em constante evolução da tecnologia, a busca por linguagens de programação cada vez mais poderosas e seguras é uma prioridade. Neste cenário, duas linguagens se destacam: Idris e Agda. Amb...