É hora de falar sobre o GPT-5? — O problema com os transformadores

¿Es hora de hablar de GPT-5? — El problema de los transformadores

4 de junio de 2024 Roberto Magalhães

GPT-5 está en el horizonte y promete revolucionar la industria. ¿Pero se necesitan más parámetros para crear un modelo más potente?

En el mundo en constante evolución del desarrollo de software, la inteligencia artificial (IA) se ha convertido en un factor de cambio. Su potencial para revolucionar industrias e impulsar el crecimiento empresarial ha llamado la atención de directores ejecutivos, directores financieros e inversores. A medida que la tecnología continúa avanzando a un ritmo sin precedentes, surge una pregunta: ¿se puede mejorar la IA con energía bruta? En este artículo, exploraremos las posibilidades e implicaciones de potenciar la IA aumentando las capacidades computacionales.

La IA ha evolucionado a un ritmo increíble, desde los primeros chatbots como Eliza hasta los modernos algoritmos de aprendizaje automático, y esta rápida progresión ha sido respaldada en gran medida por los servicios de desarrollo de IA. La IA ahora es capaz de igualar e incluso superar la inteligencia humana en muchas áreas. Sin embargo, este potencial tiene un gran coste: las IA más potentes requieren más potencia, así como más capacidad computacional.

Al agregar más potencia de procesamiento a los sistemas de IA, los ingenieros pueden desbloquear nuevos niveles de rendimiento y lograr resultados revolucionarios. Esto se puede lograr a través de varios medios, como el uso de clústeres informáticos de alto rendimiento o el aprovechamiento de la infraestructura basada en la nube.

Tomemos como ejemplo GPT-3 y su familia de modelos. En lo que respecta a los grandes modelos de lenguaje (LLM), cuando se intenta crear una IA, parece que el estándar para dar una estimación de las capacidades del modelo viene dado en términos del número de parámetros que tiene. Cuanto mayor sea el número, más poderosa será la IA. Y aunque sí, el tamaño importa, los parámetros no lo son todo y en algún momento nos enfrentaremos al problema de ingeniería de requerir más potencia de procesamiento de la que podemos proporcionar.

Antes de profundizar más, quiero establecer un paralelo con un tema que me toca muy de cerca: los videojuegos y las consolas. Mira, soy un niño de los 80; Estuve allí durante las grandes guerras de consolas de los años 90: Sega hace lo que Nintendo no hace y todo ese jazz. En algún momento, las consolas dejaron de comercializar sus capacidades de sonido o la calidad de sus colores y empezaron a hablar de bits.

En esencia, cuantos más bits, más potente será la consola; Todo el mundo buscaba estos grandes papeles. Y esto llevó a las empresas a crear arquitecturas extremadamente locas. No importaba cuán loco fuera el hardware, siempre y cuando pudieran promocionarlo diciendo que tenía más bits que la competencia (Eje, Atari Jaguar).

Esto continuó durante mucho tiempo: Sega abandonó el mercado de las consolas, Sony conquistó el mundo con la Playstation, Microsoft entró en la competencia con la Xbox, y en el corazón de cada generación teníamos las piezas. En la era PS2, también empezamos a hablar de polígonos y teraflops; Una vez más, se trataba de grandes números.

Y luego llegó la era de la PS3 y la Xbox 360. Ah, la promesa de gráficos realistas, sonido envolvente y más. Ahora no se trataba de piezas; se trataba de cuántos polígonos había en las pantallas, fps, capacidades de almacenamiento; una vez más, fue el número más grande.

Los dos fabricantes de consolas se enfrentaron y, sin darse cuenta, apareció en el mercado una pequeña alternativa: la Wii de Nintendo. La Wii era un juguete comparada con las bestias que Sony y Microsoft sacaron al mercado, pero Nintendo era inteligente. Se dirigieron al público informal, aquellos que no estaban intoxicados por un gran número de personas. El resultado final habla por sí solo. Durante esta generación de consolas, la PS3 vendió 80 millones de unidades, la Xbox 360 vendió 84 y la Wii? – 101 millones de unidades.

El desvalido conquistó el mercado y todo lo que necesitó fue un poco de creatividad e ingenio.

¿Qué tienen que ver mis divagaciones con la carrera armamentista de la IA? De hecho, como vemos, hay una razón muy fuerte para tener cuidado con los modelos más grandes, y no es porque vayan a conquistar el mundo.

¿Por qué queremos modelos más grandes?

Entonces, ¿cuáles son las ventajas de instalar nuestros modelos en un hardware más grande y potente? Así como los desarrolladores de software pueden hacer milagros con una caja de bebidas energéticas, más RAM y más potencia de procesamiento son un impulso que aumenta las posibilidades computacionales de nuestros modelos.

Dotar a la IA de más potencia informática implica darle mayores recursos para procesar datos de forma más rápida y eficiente. Esto se puede lograr a través de varios medios, como el uso de clústeres informáticos de alto rendimiento o el aprovechamiento de la infraestructura basada en la nube. Al potenciar los sistemas de IA, las organizaciones pueden desbloquear nuevos niveles de rendimiento y lograr resultados revolucionarios.

Una ventaja significativa de dotar a la IA de mayores capacidades computacionales, con la ayuda de servicios de aprendizaje automático, es su capacidad para analizar grandes conjuntos de datos en tiempo real. Con acceso a una inmensa potencia informática, los algoritmos de IA pueden identificar rápidamente patrones y tendencias que de otro modo pasarían desapercibidos. Esto permite a los directores ejecutivos y directores financieros tomar decisiones más rápidas y mejor informadas basadas en conocimientos precisos derivados de conjuntos de datos complejos.

Además, los sistemas de IA más potentes, incluida la IA para pruebas de software, tienen el potencial de procesar patrones complejos en conjuntos de datos de manera más efectiva, lo que genera predicciones muy precisas que ayudan a los inversores a tomar decisiones informadas. Al aprovechar una mayor potencia informática, las organizaciones pueden aprovechar los modelos de análisis predictivo que brindan información valiosa sobre las tendencias del mercado, el comportamiento de los clientes y las oportunidades de inversión.

En última instancia, la IA potenciada tiene la capacidad de automatizar tareas repetitivas a escala mientras mantiene la precisión y reduce los costos operativos para las empresas. Con una mayor potencia informática, las organizaciones pueden implementar soluciones de automatización avanzadas que agilizan los procesos en múltiples departamentos, como finanzas, operaciones o servicio al cliente.

Y todo esto es de sentido común, ¿verdad? Más potencia significa más potencia de procesamiento, lo que se traduce en modelos más grandes y resultados más rápidos y precisos. Sin embargo, si bien los beneficios potenciales de impulsar la IA con más potencia informática son significativos, hay varias cuestiones tangenciales que deben considerarse:

Consideraciones éticas : a medida que la IA se vuelve más poderosa, pueden surgir preocupaciones éticas en torno a la invasión de la privacidad o la toma de decisiones sesgada. Las organizaciones deben garantizar la transparencia y la responsabilidad al implementar soluciones basadas en IA para mantener la confianza y evitar posibles obstáculos.
Impacto medioambiental : aumentar la potencia informática requiere un mayor consumo de energía, lo que puede tener implicaciones medioambientales. Es fundamental que las organizaciones equilibren los beneficios de una IA potenciada con prácticas sostenibles y exploren formas de minimizar su huella de carbono.

El problema de simplemente poner más poder en refinar nuestros modelos es que es un poco como el lado oscuro de Star Wars (soy un geek...). Sí, es un camino más rápido hacia el poder, pero también tiene un costo que tal vez no sea evidente hasta que sea demasiado tarde.

Modelos de transformadores: un enfoque revolucionario para la IA

Sólo para añadir tensión, hablemos un poco sobre los modelos de transformadores y por qué son tan importantes para la informática moderna y el aprendizaje automático. Exploremos el poder transformador de los modelos de transformadores (juego de palabras) y sus implicaciones para los negocios.

Los modelos transformativos son un tipo de arquitectura de aprendizaje profundo que utiliza mecanismos de autoatención para procesar datos secuenciales de manera eficiente. De hecho, la atención es tan importante que el artículo original se tituló “La atención es todo lo que necesitas”.

Para simplificar un tema muy complejo, a diferencia de las redes neuronales recurrentes (RNN) tradicionales o las redes neuronales convolucionales (CNN), los transformadores pueden capturar dependencias de largo alcance en los datos sin depender del procesamiento secuencial. Es decir, imagina que tienes una caja llena de fotografías y quieres organizarlas cronológicamente.

Un método sería apilar las fotos y luego mirar cada una en orden, clasificándolas según su relación con sus vecinos más cercanos. Esto definitivamente podría funcionar, pero conlleva algunos problemas importantes: principalmente porque no estás prestando atención a toda la pila de fotos, sino a unas pocas a la vez.

El segundo enfoque, el que recuerda a los transformadores, implica colocar todas las fotos en el suelo y mirarlas todas a la vez, descubriendo cuáles son las más cercanas a cada una en función de los colores, estilos, contenido, etc. ¿Ver la diferencia? Esto presta más atención al contexto que a un análisis secuencial.

Esta innovación allanó el camino para avances notables en tareas de procesamiento del lenguaje natural (PNL), como la traducción automática, el análisis de sentimientos y la respuesta a preguntas.

Una ventaja importante de los modelos transformadores es su capacidad para comprender estructuras lingüísticas complejas con una precisión excepcional. Al aprovechar los mecanismos de autoatención, estos modelos pueden analizar las relaciones entre palabras o frases dentro de una oración de manera más efectiva que los enfoques anteriores.

Es bastante simple cuando lo pones así, ¿verdad? El contexto lo es todo en el lenguaje, y los transformadores pueden ser "conscientes" de más información que unas pocas palabras, por lo que tienen más información para predecir con precisión la nueva palabra en una oración. O, en el caso de otras aplicaciones, como el análisis de sentimientos, puede identificar sentimientos hacia un tema e incluso diferenciar si un comentario es sarcástico según el contexto.

La traducción automática siempre ha sido una tarea desafiante debido a los matices lingüísticos y las diferencias culturales entre idiomas. Sin embargo, los modelos transformadores han mejorado significativamente la calidad de la traducción al modelar dependencias globales entre palabras, en lugar de depender únicamente del contexto local como lo hacen los enfoques tradicionales. Esta innovación permite a las empresas que operan a nivel mundial disponer de traducciones más precisas para sus productos, servicios y materiales de marketing.

El lado oscuro del poder: los desafíos de escalar modelos de transformadores

Si bien los modelos transformadores han revolucionado el campo de la IA y han aportado avances significativos en la comprensión del lenguaje, ampliar estos modelos para manejar conjuntos de datos más grandes y tareas más complejas presenta su propio conjunto de desafíos.

En primer lugar, los transformadores consumen muchos recursos. A medida que crecen en tamaño y complejidad, requieren importantes recursos informáticos para entrenarlos e implementarlos de manera efectiva. El entrenamiento de modelos de transformadores a gran escala requiere clústeres informáticos de alto rendimiento o infraestructura basada en la nube con hardware especializado, como unidades de procesamiento de gráficos (GPU) o unidades de procesamiento de tensores (TPU). Esta mayor demanda de potencia informática puede plantear limitaciones financieras para las organizaciones sin los recursos adecuados.

Basta con buscar OpenAI y sus modelos GPT. Nadie puede negar lo increíbles que son estos modelos, pero tiene un costo. Los modelos se ejecutan en centros de datos que, en comparación, harían que las computadoras centrales antiguas parecieran computadoras portátiles. De hecho, puededescargar cualquiera de los LLM de código abierto que existen e intentar ejecutarlo en su computadora y ver cómo su RAM grita de dolor mientras el modelo la devora.

Y la mayoría de los modelos son más pequeños en comparación con el GPT-3.5 en términos de parámetros. Por ejemplo, Llama (LLM de Meta) y sus primos de código abierto tienen alrededor de 40 mil millones de parámetros. Compare esto con los 175 mil millones de parámetros de GPT-3. Y aunque OpenAI ha optado por no revelar cuántos parámetros tiene GPT-4, los rumores lo cifran en alrededor de 1 billón .

Para ponerlo en perspectiva, Sam Altman, director ejecutivo de OpenAI, dijo a la prensa que el entrenamiento de GPT-4 cuesta alrededor de 100 millones de dólares. Y tenga en cuenta que este modelo utiliza datos que ya han sido recopilados y preprocesados para los otros modelos.

Escalar modelos de transformadores a menudo requiere acceso a grandes cantidades de datos de entrenamiento etiquetados. Si bien algunos dominios pueden tener conjuntos de datos fácilmente disponibles, otros pueden requerir grandes esfuerzos para recopilar o anotar datos manualmente. Además, garantizar la calidad y diversidad de los datos de entrenamiento es crucial para evitar sesgos o representaciones distorsionadas en el modelo.

Recientemente, se presentó una demanda colectiva contra OpenAI por falta de transparencia en la recopilación de datos. La UE ha presentado quejas similares. La teoría es que, así como no se puede hacer una tortilla sin romper algunos huevos, no se puede construir un modelo de un billón de parámetros sin obtener datos superficiales.

Los modelos de transformadores más grandes tienden a tener una mayor cantidad de parámetros, lo que los hace más difíciles de optimizar durante el entrenamiento. El ajuste de hiperparámetros y la optimización de las arquitecturas de modelos se convierten en tareas cada vez más complejas a medida que crece la escala. Las organizaciones deben invertir tiempo y experiencia en ajustar estos parámetros para lograr un rendimiento óptimo, evitando problemas de sobreajuste o desajuste.

Implementar modelos de transformadores ampliados en entornos de producción puede ser una tarea difícil debido a sus requisitos de recursos y posibles problemas de compatibilidad con la infraestructura o los sistemas de software existentes. Las organizaciones necesitan estrategias de implementación sólidas que garanticen la utilización eficiente de los recursos informáticos y al mismo tiempo mantengan la escalabilidad y la confiabilidad.

El código abierto contraataca

La competencia en el mundo de la IA se ha considerado durante mucho tiempo como un campo de batalla entre titanes tecnológicos como Google y OpenAI. Sin embargo, está surgiendo rápidamente un competidor inesperado: la comunidad de código abierto. Una carta filtrada de un ingeniero de Google postula que el código abierto tiene el potencial de eclipsar a Google y OpenAI en la carrera por el dominio de la IA.

Una ventaja significativa de las plataformas de código abierto es el poder de la innovación colaborativa. Con la filtración del modelo base capaz de Meta, la comunidad de código abierto dio un salto cualitativo. Individuos e instituciones de investigación de todo el mundo han desarrollado rápidamente mejoras y modificaciones, algunas superando los desarrollos de Google y OpenAI.

La gama de ideas y soluciones producidas por la comunidad de código abierto ha sido amplia y de alto impacto debido a su naturaleza descentralizada y abierta a todos. El modelo creado por esta comunidad repitió y mejoró las soluciones existentes, algo que Google y OpenAI podrían considerar en sus estrategias.

Curiosamente, el ingeniero en cuestión también señala el hecho de que estos modelos de código abierto se están construyendo teniendo en cuenta la accesibilidad. A diferencia del gigante GPT-4, algunos de estos modelos producen resultados impresionantes y pueden ejecutarse en una computadora portátil potente. Podemos resumir su opinión sobre los LLM en cinco puntos principales:

Falta de flexibilidad y velocidad : el desarrollo de modelos grandes es lento y es difícil realizarles mejoras iterativas rápidamente. Esto obstaculiza el ritmo de la innovación e impide reacciones rápidas a nuevos conjuntos de datos y tareas.
Reentrenamiento costoso : cada vez que surge una nueva aplicación o idea, a menudo es necesario volver a entrenar modelos grandes desde cero. Esto no sólo descarta la formación previa, sino también cualquier mejora que se pueda realizar en ella. En el mundo del código abierto, estas mejoras se acumulan rápidamente, lo que hace que el reciclaje completo sea extremadamente costoso.
Impedimento a la innovación : si bien los modelos grandes pueden ofrecer inicialmente capacidades superiores, su tamaño y complejidad pueden sofocar la experimentación y la innovación rápidas. El ritmo de mejora de los modelos más pequeños y de rápida iteración en la comunidad de código abierto supera con creces el de los modelos más grandes, y sus mejores versiones ya son en gran medida indistinguibles de modelos grandes como ChatGPT. Por tanto, centrarse en modelos grandes pone en desventaja a empresas como Google.
Leyes de escalamiento de datos : los modelos grandes también dependen en gran medida de la cantidad de datos más que de la calidad. Sin embargo, muchos proyectos de código abierto ahora se entrenan en conjuntos de datos pequeños y altamente seleccionados, lo que potencialmente desafía la sabiduría convencional sobre las leyes de escalamiento de datos en el aprendizaje automático.
Accesibilidad restringida : los modelos grandes a menudo requieren importantes recursos computacionales, lo que limita su accesibilidad a una gama más amplia de desarrolladores e investigadores. Este factor impide la democratización de la IA, una ventaja fundamental de la comunidad de código abierto.

En otras palabras, los modelos más pequeños permiten iteraciones más rápidas y, en consecuencia, un desarrollo más rápido. Este es uno de esos casos en los que podemos decir con seguridad que menos es más. Los experimentos que la comunidad de código abierto está haciendo con estos modelos son increíbles y, como mencionamos en el cuarto punto, básicamente están cuestionando muchas de las suposiciones que hemos hecho hasta ahora sobre el aprendizaje automático.

Comencé con una analogía con un videojuego y terminaré con una. En una entrevista con Yoshinori Kitase, director del increíble Final Fantasy VI, le preguntaron al desarrollador japonés sobre el clima y la cultura del desarrollo de juegos en los años 90. Como era de esperar, Kitase admitió que era un fastidio.

Tener que incluir una historia épica con gráficos, diálogos, música e incluso escenas en tan solo 8 megabytes de almacenamiento parece imposible para los estándares actuales. Pero Kitase en realidad habló bastante favorablemente sobre la experiencia. Para él, las limitaciones de tiempo obligaron al equipo a pensar creativamente, a dar forma y remodelar su visión hasta que lograron reducirla a 8 megabytes.

Parece que la comunidad de código abierto encarna este espíritu. Al carecer de los recursos de los gigantes tecnológicos, asumieron la tarea de crear y desarrollar modelos que pudieran funcionar con una papa. Y en el proceso, nos mostraron que más parámetros son solo una forma de construir un modelo de lenguaje potente.

Si le gustó este artículo, consulte uno de nuestros otros artículos sobre IA.

Tres consejos para encontrar un gran socio de desarrollo de IA
Ocho tendencias de FinTech: de la banca abierta a la Web3: un documento técnico de BairesDev
Cómo lograr que todos en su empresa se sumen a la IA
Cómo la inteligencia artificial puede ayudar con la privacidad de los datos
La serie New Talent Challenge: cómo la IA puede impulsar sus esfuerzos de contratación

Fuente: BairesDev