¿No demuestran las alucinaciones que las IA modernas son débiles?
Las alucinaciones revelan tanto una limitación como una desalineación.
Los LLM modernos (mientras escribimos esto a mediados de 2025) son propensos a «alucinaciones» donde inventan respuestas a preguntas con un tono que suena confiado. Si les pides que redacten un informe legal, por ejemplo, a veces inventarán casos judiciales falsos como precedentes.
Esto tiene sentido si entendemos cómo se entrenan las IA. Una IA genera palabras muy similares a las que produciría un abogado humano real, y si un abogado humano real redactara un informe legal, incluiría casos judiciales reales. Por ejemplo, un buen abogado humano podría escribir algo como:
Al aplicar la prueba de equilibrio en Graham, el tribunal ha sostenido que existe poco interés gubernamental en arrestar a un sospechoso por un delito menor. Véase Jones v. Parmley, 465 F.3d 46 (2.º Cir. 2006) (el jurado podría considerar razonablemente que dar patadas y puñetazos a manifestantes pacíficos en violación de la ordenanza local constituía uso excesivo de la fuerza); Thomas v. Roach, 165 F.3d 137 (2.º Cir. 1999) (las amenazas verbales son un delito demasiado leve como para crear un fuerte interés gubernamental en el arresto).
Un abogado humano real nunca escribiría simplemente «En realidad no conozco la jurisprudencia relevante, disculpe» en un informe legal. Por lo tanto, cuando una IA intenta sonar como un abogado, en casos donde realmente no conoce los precedentes, lo mejor que puede hacer es inventárselos. Es lo más cerca que puede llegar a la realidad. Los impulsos e instintos dentro de la IA que producen texto aparentemente confiable en ese tipo de situaciones se refuerzan regularmente mediante el descenso del gradiente.
Este comportamiento alucinatorio persiste incluso si se instruye a la IA para que diga «No lo sé» en casos donde no tiene la información. En esa situación, la IA está haciendo algo similar a representar a un abogado que diría «No conozco el precedente» si no lo conociera. Pero eso es irrelevante mientras la IA esté (más o menos) representando a un abogado que sí conoce el precedente, lo que significa que el personaje que interpreta nunca se encuentra con la oportunidad de decir «No lo sé». La IA podría generar texto como:
Bajo el marco de equilibrio de Graham, los tribunales han reconocido consistentemente que existe un interés gubernamental mínimo en efectuar arrestos por violaciones menores. Véase Carson v. Haddonfield, 115 F.3d 64 (8.º Cir. 2005) (que determinó un uso excesivo de la fuerza cuando los oficiales desplegaron gas pimienta contra personas que presuntamente cruzaron la calle de manera imprudente y que no opusieron resistencia); Walburg v. Jones, 212 F.3d 146 (2.º Cir. 2012) (que sostiene que un citatorio por alteración del orden público es insuficiente para justificar técnicas de restricción física).
Esto es lo más cerca que puede llegar la IA a igualar el texto real. El texto «No conozco el precedente» está más alejado del texto real en términos de predicción textual;* sería mucho menos similar al primer párrafo de texto mostrado arriba, incluso si se aproxima más a lo que quería el usuario.
Esto ofrece una perspectiva de la diferencia entre lo que las IA realmente intentan hacer (p. ej., sonar como un abogado seguro de sus capacidades) frente a lo que los usuarios quieren que hagan (p. ej., redactar un informe legal utilizable). Estos dos propósitos a veces pueden coincidir (p. ej., cuando la IA intenta sonar amigable y el humano quiere un interlocutor amigable), pero esas diferencias que ahora parecen pequeñas tendrían enormes consecuencias si las IA se volvieran más inteligentes —como discutiremos con más detalle en el capítulo 4—.†
No está claro qué tan difícil será eliminar las alucinaciones, ni cuánto potenciará esto las capacidades.
Independientemente de por qué surgen las alucinaciones, es cierto que en la práctica limitan las capacidades efectivas de los LLM. Construir un cohete lunar requiere largas cadenas de razonamiento con una tasa de error muy baja. El hecho de que las IA simplemente se inventen cosas (y no siempre puedan notarlo o no siempre les importe) es un gran obstáculo para la confiabilidad que necesitarían para lograr importantes avances científicos y tecnológicos.
Pero se trata de un arma de doble filo. Las alucinaciones y otros problemas de fiabilidad podrían frenar a la IA durante años. O podría ser que los problemas de fiabilidad sean la última pieza del rompecabezas, y que en el momento en que alguien tenga una idea inteligente que los resuelva, las IA superen algún umbral crítico. No lo sabemos.
No sabemos si las alucinaciones serán fáciles de resolver en el paradigma actual, si alguien encontrará un truco ingenioso que haga que los modelos de razonamiento sean mucho más robustos, o si se necesitará una idea tan disruptiva como la arquitectura de los transformadores que dio lugar a los LLM.
Sin embargo, sí observamos que solucionar las alucinaciones sería bastante lucrativo. Muchas personas están trabajando en ello. Esto podría interpretarse como que es probable que encuentren alguna idea ingeniosa o solución arquitectónica en poco tiempo. O podría interpretarse como una señal de que el problema es especialmente pernicioso y propenso a persistir, dado que ya lleva varios años presente.
En cualquier caso, eso no afecta mucho nuestro argumento. Lo que importa es que, con el tiempo, se crearán IA más confiables, ya sea mediante versiones ligeramente modificadas de los LLM o mediante una arquitectura completamente nueva y disruptiva.
Véase también nuestro debate sobre cómo el campo es bueno en superar obstáculos.
* No estamos sugiriendo que la IA necesariamente alucine porque esté motivada internamente para producir un texto lo más parecido posible a lo que diría un abogado real. Más bien, observamos que una IA entrenada en la predicción de texto recibe mucho más refuerzo por los párrafos de texto que se asemejan más a lo que diría un abogado real y, por lo tanto, que el refuerzo es más fuerte para los párrafos con citas alucinadas que para los que dicen «No lo sé». El mecanismo específico dentro de la IA que fue moldeado por esos refuerzos es una incógnita.
† Las IA modernas no se entrenan solo para la predicción de texto y, en teoría, los otros tipos de entrenamiento podrían corregir las alucinaciones. En la práctica, los otros tipos de entrenamiento para la satisfacción del usuario no corrigen las alucinaciones, sino que provocan que las IA empiecen a halagar a los usuarios hasta el punto de la psicosis, mientras siguen alucinando. (Creemos que hay una lección aquí).