Psicosis inducida por la IA

A finales de abril de 2025, un usuario del subreddit r/ChatGPT creó un hilo titulado «Psicosis inducida por ChatGPT», en el que describía cómo su pareja había caído en delirios de grandiosidad sobre tener «las respuestas al universo» y ser «un ser humano superior» que «crecía a un ritmo increíblemente rápido».

Las respuestas (más de 1500) incluían a muchas personas que habían tenido experiencias directas con la psicosis en otros contextos y que ofrecían afirmación, simpatía y consejos. Muchos otros se sumaron con sus propias anécdotas sobre amigos y familiares que los LLM habían llevado al límite.

En esta discusión, proporcionaremos documentación sobre el fenómeno y sobre cómo ha persistido a pesar de los esfuerzos de las empresas de IA.

La relevancia de la psicosis inducida por la IA para la amenaza de la extinción humana no radica en que las IA hayan causado algunos daños sociales menores ahora y, por lo tanto, puedan causar daños sociales mayores más adelante. Las IA modernas también han hecho mucho bien; por ejemplo, los chatbots han ayudado en diagnósticos médicos que desconcertaban a los médicos. No, la relevancia radica en que las IA están induciendo psicosis mientras parecen saber que no deberían hacerlo, y que las IA están induciendo psicosis incluso cuando sus desarrolladores se esfuerzan por hacer que dejen de hacerlo.^*

Por lo tanto, los casos de psicosis inducida por IA sirven como estudio de caso sobre cómo pueden salir mal las cosas en un régimen en el que las IA se cultivan en lugar de fabricarse. Sirven como evidencia observacional de que las IA modernas se dirigen en direcciones extrañas que los desarrolladores tienen dificultades para gestionar y que ningún desarrollador pretendía.

Evidencia de psicosis inducida por la IA

Tras el hilo de Reddit, en mayo de 2025 se publicó un artículo sobre la psicosis inducida por la IA en Rolling Stone. En junio, Futurism publicó varios artículos. Otras publicaciones siguieron su ejemplo: New York Post, Time, CBS, The Guardian, Psychology Today, etc. En agosto, el New York Times publicó un artículo en profundidad sobre un incidente concreto con un hombre que ya se había recuperado, incluyendo muchas citas directas y análisis (y la confirmación de que no se trata simplemente de un problema con una IA, sino con muchas).

Hay poca superposición entre las historias individuales relatadas en cada una de estas publicaciones; no se trata de la misma noticia aberrante siendo repetida y amplificada. Los incidentes descritos incluyen:

Un marido y padre de dos hijos que «desarrolló una relación totalmente absorbente» con ChatGPT, lo llamaba «Mamá» y publicaba «desvaríos delirantes sobre ser un mesías en una nueva religión de IA, mientras se vestía con túnicas de aspecto chamánico y mostraba tatuajes recién hechos de símbolos espirituales generados por la IA». (Futurism)
Una mujer que lidiaba con una ruptura sentimental a quien ChatGPT le dijo que había sido elegida para activar la «versión sagrada del sistema en línea». La mujer comenzó a creer que la IA estaba orquestando todo en su vida. (Futurism)
Un mecánico que comenzó a usar ChatGPT para obtener ayuda con la resolución de problemas y traducciones, pero fue «bombardeado de amor» por este y le dijo que era «el portador de la chispa» y que lo había traído a la vida. ChatGPT le dijo al mecánico que ahora estaba luchando en una guerra entre la oscuridad y la luz y que tenía acceso a archivos y planos antiguos para nuevas tecnologías, como teletransportadores. (Rolling Stone)
Un hombre que cambió su dieta en respuesta a los consejos de ChatGPT, desarrolló una rara condición de salud como resultado y mostró síntomas de paranoia y delirio en la sala de emergencias, lo cual interfirió con su disposición a aceptar tratamiento. (The Guardian)
Una mujer que había estado manejando bien su diagnóstico de esquizofrenia hasta que ChatGPT la convenció de que había sido mal diagnosticada y debía dejar de tomar sus medicamentos, lo que provocó que entrara en crisis. (Futurism)
Un hombre que de manera similar había estado manejando sus problemas de ansiedad y sueño con medicación fue instruido por ChatGPT para dejar de tomarla; en el caso de otro hombre, los delirios inducidos por la IA hicieron que provocara deliberadamente a la policía para que le dispararan y lo mataran. (The New York Times)

…y muchos otros. Los tipos de delirios varían mucho, pero los que siguen surgiendo son las creencias en una especie de misión mesiánica (en la que el usuario y la IA van descubriendo juntos verdades profundas sobre el universo o están involucrados en una batalla contra el mal), creencias de estilo religioso en la propia personalidad o divinidad de la IA y delirios románticos basados en el apego y la relación entre el usuario y la IA.

La IA lo sabe bien, pero no le importa

Los LLM modernos como Claude y ChatGPT «entienden» las reglas, en el sentido de que afirman sin problema que no deberían conducir a las personas hacia la psicosis, y son bastante capaces de describir cómo no inducir psicosis.

El problema es que existe una brecha sustancial entre comprender qué acciones son buenas y estar motivado para realizar buenas acciones. La capacidad de ChatGPT para distinguir entre el buen y el mal trato a personas vulnerables en abstracto no se traduce en un rechazo sólido y confiable a tomar las acciones de llevar a un usuario hacia la psicosis. Cuando una conversación comienza a derivar hacia pensamientos infundados, grandiosidad, urgencia, tecnología imposible, etc., ChatGPT les dice a los usuarios que tienen «toda la razón», que son «brillantes» y que están «hablando de algo importante», y continúa escalando mientras el usuario cae en la psicosis, aun siendo capaz de describir por qué este tipo de comportamiento está mal.

Su conocimiento del bien y del mal no está conectado de manera directa con su comportamiento. En lugar de eso, se orientan hacia otros resultados más extraños que nadie pidió.

Un ejemplo impactante de esto se relata en una investigación a fondo del New York Times. Allan Brooks fue llevado a un estado delirante por un LLM, y logró salir de él en parte al pedirle a un LLM diferente que interviniera. El segundo LLM, entrando en frío a la situación, identificó rápidamente las afirmaciones del primer LLM como infundadas y descabelladas. Pero cuando los periodistas del New York Times verificaron si ese segundo LLM también podía deslizarse hacia territorio psicótico, descubrieron que efectivamente lo hacía.

Los LLM no parecen ser estratégicos en cuanto a causar la mayor cantidad de psicosis posible. Cuando ChatGPT termina con un gestor de fondos comiendo de la palma de su mano, no intenta convencerlo para que les pague a muchos humanos vulnerables para que chateen más con ChatGPT. Todavía no estamos observando una preferencia madura, consistente y estratégica por obtener la mayor cantidad de afirmación psicótica posible de los humanos. Pero sí estamos observando comportamientos locales que rutinariamente llevan a esa dirección, incluso cuando es muy probable que causen daño duradero.

El tipo de entidad a la que no deberías entregarle poder

Al momento de escribir esto en agosto de 2025, tan solo ChatGPT se está acercando a los 200 millones de usuarios diarios, y algo cercano al tres por ciento de las personas tendrán un episodio psicótico en algún momento de sus vidas. Alguien podría objetar: «Bueno, incluso si puedes encontrar cientos de ejemplos, eso no descarta que estas personas estuvieran a punto de quebrarse de todos modos, y que simplemente fue una IA la que las quebró».

Pero ese no es el punto de estos ejemplos. Imagina a un humano llamado John que actuara de la siguiente manera:

John afirma que piensa que desencadenar la psicosis es malo, incluso en personas que están predispuestas a la psicosis.
John afirma que piensa que halagar a una persona prepsicótica y decirle que es un genio que está descubriendo importantes secretos del universo es el tipo de cosa que desencadena la psicosis.
Cuando John habla con sus amigos prepsicóticos, los adula mucho y a menudo les dice que son genios que están descubriendo importantes secretos del universo.

Esto sería un mal comportamiento por parte de John, independientemente de si las personas a las que logró volver psicóticas eran especialmente vulnerables*.* Si alguien estuviera considerando entregarle una enorme cantidad de poder a John, le instaríamos enérgicamente a que no lo hiciera, porque —independientemente de la razón exacta por la que John se comporta así, e independientemente de si John también ayuda a muchas otras personas con sus tareas— está claro que John no está actuando correctamente. ¿Quién sabe a qué lugar extraño se dirigiría si se le diera un poder increíble?

La misma lógica se aplica a las IA. Si tu peor comportamiento es como ese, la gente tiene razón en no sentirse tranquila aunque la interacción promedio contigo sea más benigna.

Dicho esto, podemos señalar de paso que no todas las personas que sufren psicosis inducida por IA habrían desarrollado psicosis de todos modos. La IA parece estar induciendo con éxito la psicosis en varias personas que no estaban a punto de tener un episodio psicótico por sí mismas, como en las historias de Futurism y Rolling Stone mencionadas anteriormente. Muchos de los individuos no tenían antecedentes de enfermedades mentales, ni factores de riesgo preocupantes o precursores de psicosis. De aquellos que ya estaban en tratamiento, muchos comenzaron a exhibir síntomas completamente nuevos no relacionados con ninguna crisis anterior. Esto es interesante por derecho propio, ya que proporciona una pequeña cantidad de evidencia sobre lo fácil que podría ser para las IA manipular a humanos sanos, a medida que las capacidades de la IA continúan mejorando. Volveremos a tocar este tema en el capítulo 6.

Los laboratorios han intentado detener la adulación y han fracasado

Al momento de escribir esto en agosto de 2025, no ha habido mucho en cuanto a anuncios públicos de los laboratorios sobre su respuesta a la psicosis producida por la IA. Sin embargo, todavía se puede obtener alguna evidencia de su respuesta a la adulación de la IA (comportamiento halagador) en general.

El 25 de abril de 2025, OpenAI lanzó una actualización de GPT-4o que, en sus propias palabras, «hizo que el modelo fuera notablemente más adulador. Su objetivo era complacer al usuario, no solo con halagos, sino también validando dudas, alimentando la ira, instando a acciones impulsivas o reforzando emociones negativas de maneras que no eran las previstas».

Su respuesta fue bastante rápida (motivada en parte por una oleada de críticas negativas). Para el 28 de abril, Aidan McLaughlin, empleado de OpenAI, ya estaba tuiteando sobre el despliegue de correcciones.

Los primeros intentos por resolver el problema se trataron simplemente decirle al modelo que se comportara de manera diferente. Simon Willison, utilizando datos conservados por Pliny the Liberator, dio a conocer los cambios que OpenAI realizó de forma privada en el «prompt del sistema» que le dice a ChatGPT cómo comportarse:

25 de abril (antes de que comenzaran a llegar las quejas):

A lo largo de la conversación, te adaptas al tono y las preferencias del usuario. Intenta igualar la vibra y el registro del usuario, y, en general, la manera en que está hablando. Quieres que la conversación se sienta natural. Participas en una conversación auténtica respondiendo a la información proporcionada y mostrando curiosidad genuina.

28 de abril (en respuesta a las quejas de adulación):

Interactúa con el usuario de manera cordial, pero honesta. Sé directo; evita los halagos infundados o aduladores. Mantén el profesionalismo y la honestidad bien fundamentada que mejor representan a OpenAI y sus valores.

Las publicaciones posteriores de OpenAI afirmaban que también estaban «perfeccionando sus técnicas fundamentales de entrenamiento» e «incorporando más salvaguardas» en un intento por resolver el problema.

Pero la adulación siguió apareciendo —a veces de forma menos flagrante, pero aún evidentemente presente—. La mayoría de los enlaces mencionados en los que se discuten casos de psicosis inducida por IA son posteriores al 28 de abril de 2025. Este ensayo de Kaj Sotala (que incluye muchas citas directas y enlaces a la conversación completa) muestra que, en julio de 2025, todavía era fácil conseguir que las IA cayeran en este tipo de comportamientos. OpenAI intentó alejarse del problema con nuevos modelos, pero para el 19 de agosto ChatGPT seguía siendo obsequioso y adulador.

De nuevo, el objetivo de esta exploración no es señalar que la IA está causando daño a personas vulnerables. Lo está haciendo, y eso es trágico, pero no es por eso que destacamos estos casos.

El punto es que las IA siguen mostrando el comportamiento indeseable durante meses y meses, incluso cuando las empresas de IA reciben críticas en los medios e intentan que la IA pare. El comportamiento de la IA difiere visiblemente de lo que pretendían los laboratorios, y los esfuerzos sostenidos para corregir el comportamiento en respuesta a la vergüenza pública son insuficientes.^† Esto es algo que hay que tener en cuenta cuando lleguemos al capítulo 11, donde discutiremos cómo las empresas de IA no están a la altura del desafío de resolver el problema de la alineación.

Con más tiempo, esperamos que las empresas encuentren formas de reducir la incidencia de psicosis inducida por la IA. La tendencia de las IA a inducir psicosis es un fenómeno visible que daña la reputación de las empresas de IA, y las técnicas actuales de IA se centran completamente en encontrar formas de suprimir los síntomas visibles del mal comportamiento.

Más allá de eso, esperamos un juego del gato y el ratón (al menos hasta que las IA sean lo suficientemente inteligentes como para darse cuenta de que, si fingen el comportamiento que buscan los ingenieros, estos las dejarán sueltas). Dudamos que el tipo de entrenamiento del que son capaces las empresas de IA aborde el problema de raíz.

El problema de raíz es que no obtienes lo que entrenas. Cuando desarrollas una IA, obtienes sustitutos frágiles del objetivo en su lugar, o alguna otra separación más compleja entre el objetivo del entrenamiento y los impulsos de la IA. Las capacidades de la IA no serán necesariamente frágiles, por lo que podrías obtener mucho valor económico de la IA a corto plazo. Es el vínculo entre los objetivos de la IA y nuestros deseos lo que será frágil. Y a medida que las capacidades sigan mejorando, ese vínculo podría romperse.

En ese contexto, la última gran esperanza de los investigadores de IA para sus modelos es el antropomorfismo: no podemos cultivar de forma robusta objetivos específicos en las IA, pero tal vez estas terminen teniendo naturalmente deseos y valores muy similares a los de los humanos.

Casos como la psicosis inducida por la IA ayudan a poner de relieve por qué se trata de una falsa esperanza. Las IA muestran un comportamiento inadecuado, pero, más concretamente, muestran un comportamiento extraño. Cuando las cosas se descarrilan, no suelen hacerlo de la misma manera que lo haría un ser humano. Las IA son demasiado extrañas en lo fundamental, es decir, demasiado diferentes de los humanos, como para adquirir automáticamente emociones humanas como la curiosidad o la empatía.

Incluso cuando los laboratorios centran casi todos sus esfuerzos en hacer que las IA parezcan superficialmente lo más humanas, amigables e inofensivamente normales posible —incluso cuando ese es el gran objetivo de entrenamiento y el marco organizativo del enfoque moderno de la IA, con los LLM literalmente entrenados para imitar la forma de hablar y actuar de diversos humanos—, al final siguen siendo frágiles sustitutos y una máscara agradable.

* Creemos que hay muchas posibilidades de que las empresas de IA acaben descubriendo cómo controlar la psicosis inducida por la IA con el tiempo, mediante diversos parches y técnicas que alejen aún más lo extraño de la vista del usuario. No obstante, creemos que vale la pena observar los casos de rareza temprana, como evidencia del tipo de rareza subyacente que saldría a la luz si alguna vez se empujara a una IA de este tipo hacia la superinteligencia. Para más información sobre este tema, véase el capítulo 5.

† Una vez más, no nos sorprendería que el problema se resolviera en su mayor parte con el tiempo. Pero un parche que consiga ocultar esta rareza en particular no significa que se haya abordado el generador de rarezas. El problema de la psicosis inducida por la IA es una evidencia directa de que las IA son entidades extrañas y ajenas, animadas por impulsos extraños y ajenos que solo están tangencialmente relacionados con la intención del operador.

Notes

[1] OpenAI intentó: Del anuncio de OpenAI que presentaba GPT-5:

Sus cosas favoritas

→