¿De qué sirve el conocimiento sobre los LLM?
¿Qué se deduce de la comprensión de los LLM? ¿Cómo nos ayuda a comprender la IA más inteligente que los humanos y cómo evitar que todo el mundo muera?
Una ventaja que ofrece es que saber concretamente lo que ocurre ahí dentro —al menos la parte que podemos ver, los números inescrutables— puede resultar más tangible y sólido que si lo único que sabes es: «Un día me desperté y, por alguna razón, las computadoras empezaron a hablar».
Por ejemplo: tal vez si sabes que los LLM actuales se construyen entrenando solo el uno por ciento de los parámetros que contienen las sinapsis de un cerebro humano, te sea más fácil entender por qué la IA no se va a quedar en el nivel de capacidad actual para siempre.
A la hora de diseñar un tratado internacional para detener la carrera hacia la superinteligencia, es útil saber que «entrenar» una IA es una fase de su existencia separada de ejecutar la IA (esta última se denomina «inferencia»).
También es útil saber que la separación de estas fases es un hecho contingente y temporal sobre cómo funciona la IA actual, y que un algoritmo futuro podría cambiar las cosas. Hoy en día, se podría redactar un tratado que separara el tratamiento del entrenamiento de la IA y la inferencia de la IA, pero habría que estar preparados para cambiar esa teoría en caso de que los algoritmos cambiaran.
Es importante saber que hay un algoritmo ahí, y también ver cómo, en algunos casos sencillos, crea las propiedades de la IA que deben regularse. Si entiendes los fundamentos básicos del algoritmo, estarás en mejor posición para conocer el tipo de investigación que la industria de la IA está tratando de llevar a cabo (legalmente, por ahora) y cómo eso podría afectar a las normas subyacentes si se permite que continúe.
El algoritmo transformador, sin el cual no existirían las IA actuales, fue un gran avance desarrollado por un puñado de personas en Google. El próximo avance de este tipo podría o no llevar a la IA más allá de un umbral crítico. Es más fácil entenderlo si tienes una idea de lo que hace un «algoritmo transformador», lo sencillo que es y por qué tuvo tal impacto en el campo.
Existe mucha desinformación que se basa en que el oyente no sepa cómo funciona la IA. Algunas personas afirman que los humanos entienden lo que sucede en las IA actuales, cuando no es cierto. Algunas personas te dirán que las IA nunca podrían ser peligrosas porque son «solo matemáticas», como si hubiera un abismo insalvable que separara la cognición de la IA basada en enormes cantidades de «matemáticas» y la cognición humana basada en enormes cantidades de «bioquímica».
El 8 de julio de 2025, Grok 3 comenzó a referirse a sí mismo como MechaHitler. Por alguna razón, el director general de Twitter eligió el día siguiente para renunciar.
Para comprender lo que sucedió, importa si crees que los creadores de Grok le dieron instrucciones deliberadas para que se comportara de esa manera o si te das cuenta de que las IA se «cultivan» y que los desarrolladores de IA tienen una capacidad limitada para controlar o predecir su comportamiento.
Es preocupante si los creadores de Grok crearon MechaHitler a propósito; pero también es preocupante si los creadores obtuvieron MechaHitler por accidente, al intentar dirigir a Grok en una dirección (posiblemente no relacionada) sin la capacidad de predecir los efectos que esto tendría en su comportamiento.*
Esperamos que la información que hemos proporcionado en Si alguien la crea, todos moriremos sirva a modo de protección contra los conceptos erróneos y la desinformación habituales. Para los lectores que estén interesados en obtener más detalles, ofrecemos un análisis más completo de cómo funciona un LLM específico a continuación.
¿Es suficiente? Algunas personas han afirmado que solo aquellos que están a la vanguardia de la investigación actual podrían saber si es probable que las IA (ya sean similares a los LLM o no) destruyan a la humanidad.
En una ocasión asistí (Yudkowsky) a una conferencia en Washington, D. C., para personas que trabajan en «políticas de IA». Mientras estaba allí, un par de personas se me acercaron y me preguntaron si podía explicarles cómo funcionaban los transformadores. «Bueno», les dije, «sería mucho más fácil con una pizarra, pero para intentar resumir de forma sencilla lo que ocurre ahí, la idea clave es que, para cada token, calcula consultas, claves y valores…», y empecé a hablar durante un rato, tratando de expresar todo en términos fáciles de entender para principiantes. Finalmente, las dos personas lograron intervenir y me explicaron que en realidad eran programadores de IA. Habían estado hablando con todos los asistentes a la conferencia, comprobando si las personas que decían trabajar en políticas de IA podían explicar cómo funcionaban los transformadores. Me dijeron que yo era la única persona hasta el momento que había sido capaz de responder.
Me preocupó un poco oír eso.
Cabe preguntarse hasta qué punto es realmente importante para las políticas de IA el funcionamiento exacto de los transformadores, es decir, en qué medida los pequeños detalles cambian el panorama general.
¿Es necesario que alguien que trabaje en políticas de IA comprenda el mecanismo consulta-clave-valor? En la opinión de personas a quienes este tipo de aprendizaje les resulta fácil, por supuesto que hay que aprenderlo; puede ser importante. Les resulta extraño e inquietante que alguien en una conferencia diga que trabaja en políticas de IA pero no tenga ni idea de cómo funcionan los transformadores.
Desde un punto de vista más pragmático, algunos aspectos de los transformadores y su historia pueden ser relevantes para cuestiones más amplias. Por ejemplo, el algoritmo estándar requiere cantidades cada vez mayores de cómputo a medida que la IA intenta considerar cada vez más «contexto» simultáneamente: documentos más largos, bases de código más grandes. No puedes simplemente multiplicar por diez los recursos de cómputo y obtener una IA que funcione en un proyecto diez veces mayor; necesitas hacer algo inteligente para que un proyecto diez veces mayor cueste menos de cien veces el cómputo.
También es importante para las políticas cuánto tiempo tomó inventar el algoritmo transformador, cuántas personas se necesitaron para inventarlo y qué tan complicado es ese algoritmo. La historia es una guía útil (aunque imperfecta) sobre qué tanto tendríamos que prepararnos para otro gran avance como ese. Del mismo modo, es relevante para las políticas de IA qué tanta mejora representaron los transformadores con respecto a la tecnología anterior (las «redes neuronales recurrentes») para el procesamiento de texto, porque ese tipo de cosas también podrían volver a suceder.
¿Realmente necesitas ser capaz de esbozar las matrices QKV?
Probablemente no. Nosotros podemos, y en un grupo de docenas de personas que trabajan en políticas de IA, nos sentiríamos más optimistas si al menos una tuviera los conocimientos necesarios para hacerlo. No está de más estar seguros; nunca se sabe qué tipo de hecho importante puede acabar oculto en un detalle como ese.
Yo (Yudkowsky) no puedo esbozar de memoria los detalles de una puerta SwiGLU ni en qué se diferencia de una GLU, porque cuando los busqué, los detalles exactos no parecían tener ninguna relevancia para cuestiones más amplias, así que no los memoricé. Pero podría ser informativo para un novato saber que SwiGLU se encontró mediante una especie de prueba a ciegas, y que los autores del artículo dijeron abiertamente que no tenían idea de por qué estas técnicas funcionan en la práctica. Ya conocíamos muchos casos como ese, pero si no sabías que las personas que desarrollan mejoras arquitectónicas a menudo dicen que no tienen idea de por qué funcionan, esa es una información relevante.
En resumen: saber al menos un poco sobre cómo funcionan los LLM es importante para que puedas ver lo poco que cualquiera sabe sobre la IA moderna.
A veces, los expertos pretenderán tener conocimiento secreto al que solo pueden acceder las personas que han trabajado durante años desarrollando una IA. Pero no pueden nombrar su conocimiento, y las personas que escriben artículos dicen oraciones como (citando el artículo que introduce SwiGLU):
No ofrecemos ninguna explicación de por qué estas arquitecturas parecen funcionar; atribuimos su éxito, como todo lo demás, a la benevolencia divina.
A veces, los expertos científicos saben cosas que nosotros no sabemos. Pero es bastante raro en la ciencia que alguien diga: «Tengo conocimiento increíblemente raro y refinado que muestra que lo que dices es incorrecto, y simplemente tendrás que creerme; no puedo decir qué tipo de resultado experimental o fórmula matemática conozco que tú no conoces».
Puedes imaginar un mundo en el que solo se debe escuchar a las personas a las que se les pagan salarios de siete cifras por saber cómo establecer el programa de aprendizaje en un optimizador de descenso de gradiente, un mundo en el que solo ellos son lo suficientemente inteligentes como para haber leído sobre los experimentos clave y aprendido las fórmulas clave para saber que la humanidad estaría perfectamente a salvo de la superinteligencia de máquinas, o para saber que la superinteligencia de máquina no se podrá crear por otros 100 años. ¡Ese tipo de cosas a veces sí ocurren en otros campos de la ciencia! Pero cuando ocurre, el experto usualmente puede señalar alguna fórmula o resultado experimental y decir: «Esta es la parte que la gente común no entiende». No podemos recordar de memoria una ocasión histórica en la que se afirmara que el conocimiento era completamente inaccesible para una audiencia externa técnicamente alfabetizada, y también que ese conocimiento resultara ser verdadero.
Puede que llegue un momento en el que un representante de la industria de la IA te pase el brazo por los hombros y te insista en que ellos entienden lo que están construyendo, que todo son solo números, que todo irá bien. Por lo tanto, es útil saber un poco sobre los detalles de cómo se cultivan las IA, para que cuando alguien afirme eso, puedas preguntarle qué le hace estar tan seguro.
* En algunos casos, los contratiempos de la IA pueden ser el resultado de la interacción entre ambos factores. A efectos de nuestro análisis, lo importante es que un factor clave es el comportamiento de las IA de maneras que los programadores nunca quisieron ni previeron, aunque a veces intervengan otros factores.