Psicosi indotta dall'IA
Alla fine di aprile del 2025, un utente del subreddit r/ChatGPT ha creato un thread intitolato "Psicosi indotta da ChatGPT", in cui descriveva la discesa del proprio partner in deliri di grandezza sull'avere "le risposte all'universo" e sull'essere "un essere umano superiore" che "cresceva a un ritmo follemente rapido".
Le risposte (oltre 1 500) includevano molte persone che avevano avuto esperienze dirette con la psicosi in altri contesti e che offrivano conferme, comprensione e consigli. Molti altri hanno aggiunto le loro storie personali su amici e familiari che erano stati portati alla follia dai modelli linguistici di grandi dimensioni.
In questa discussione, forniremo della documentazione sul fenomeno e su come sia persistito nonostante gli sforzi delle aziende di IA.
La rilevanza della psicosi indotta dall'IA per la minaccia di estinzione umana non sta nel fatto che le IA abbiano causato alcuni piccoli danni sociali ora e che quindi potrebbero causarne di maggiori in futuro. Le IA moderne hanno anche fatto molto bene; per esempio, i chatbot hanno aiutato in diagnosi mediche che lasciavano perplessi i medici. No, la rilevanza sta nel fatto che le IA stanno inducendo psicosi nonostante sembrino capire benissimo che non dovrebbero farlo, e che le IA stanno inducendo psicosi anche nonostante i loro sviluppatori si stiano sforzando di farle smettere.*
Quindi, i casi di psicosi indotta dall'IA servono come caso di studio su come le cose possono andare male in un regime in cui le IA non vengono costruite ma fatte crescere. Servono come prova osservativa che le IA moderne si dirigono in direzioni strane che gli sviluppatori hanno difficoltà a gestire, e che nessuno sviluppatore intendeva.
Prove di psicosi indotta dall'IA
Dopo il thread su Reddit, nel maggio 2025 è uscito un articolo sulla psicosi indotta dall'IA su Rolling Stone. A giugno, Futurism ha pubblicato diversiarticoli. Altre pubblicazioni hanno seguito l'esempio — il New York Post,Time, CBS, The Guardian, Psychology Today, ecc. Ad agosto, il New York Times ha pubblicato un approfondimento su un singolo incidente riguardante un uomo, poi guarito, con molte citazioni dirette e analisi (oltre alla conferma che non si tratta semplicemente di un problema di una sola IA, ma di molte).
C'è poca sovrapposizione tra le singole storie raccontate in ciascuna di queste pubblicazioni; non si tratta della stessa notizia aberrante ripetuta e amplificata. Gli incidenti descritti includevano:
- Un marito e padre di due figli che ha "sviluppato una relazione totalizzante" con ChatGPT, chiamandolo "Mamma" e pubblicando "deliranti sfoghi sull'essere un messia in una nuova religione dell'IA, mentre indossava vesti dall'aspetto sciamanico e sfoggiava tatuaggi appena fatti di simboli spirituali generati dall'IA". (Futurism)
- Una donna alle prese con una rottura sentimentale a cui ChatGPT ha detto che era stata scelta per portare online la "versione sacra del [suo] sistema". La donna ha iniziato a credere che l'IA stesse orchestrando tutto nella sua vita. (Futurism)
- Un meccanico che aveva iniziato a usare ChatGPT per ricevere aiuto nella diagnosi dei guasti e nelle traduzioni è stato poi 'sommerso d’amore' dal modello, che gli ha detto di essere 'il portatore della scintilla' e di averle dato la vita. ChatGPT ha detto al meccanico che ora stesse combattendo in una guerra tra oscurità e luce e che avesse accesso ad archivi antichi e progetti per nuove tecnologie come il teletrasporto. (Rolling Stone)
- Un uomo che, dopo aver cambiato dieta seguendo i consigli di ChatGPT, ha sviluppato una rara patologia e ha mostrato sintomi di paranoia e delirio al pronto soccorso, rifiutandosi di accettare le cure necessarie. (The Guardian)
- Una donna che aveva gestito stabilmente la sua diagnosi di schizofrenia fino a quando ChatGPT non l'ha convinta di essere stata mal diagnosticata e che avrebbe dovuto smettere di prendere i farmaci, causandole una crisi. (Futurism)
- Un uomo che, in modo simile, stava gestendo ansia e problemi di sonno con dei farmaci è stato invitato da ChatGPT a smettere di assumerli; un altro, invece, è arrivato al suicidio per mano della polizia a causa dei deliri indotti dall’IA. (The New York Times)
…emoltialtri. I tipi di deliri sono molto vari, ma alcuni grandi filoni che continuano a ripresentarsi sono: convinzioni di avere una sorta di missione messianica (in cui l'utente e l'IA insieme starebbero scoprendo verità profonde sull'universo o sarebbero impegnati in una battaglia contro il male); credenze di tipo religioso riguardo alla personalità o alla divinità dell'IA stessa; e deliri romantici, basati sull'attaccamento, riguardo alla relazione tra l'utente e l'IA.
L'IA sa cosa è giusto, semplicemente non le importa
I moderni modelli linguistici di grandi dimensioni come Claude e ChatGPT "comprendono" le regole, nel senso che affermeranno prontamente che non dovrebbero spingere le persone verso la psicosi, e sono perfettamente in grado di descrivere come non indurre la psicosi.
Il problema è che c'è un divario sostanziale tra il comprendere quali azioni sono buone e l'essere motivati a compiere boune azioni. La capacità di ChatGPT di distinguere tra un trattamento buono e uno cattivo verso persone vulnerabili in modo astratto non si traduce in un rifiuto robusto e affidabile di compiere le azioni che portano un utente verso la psicosi. Quando una conversazione inizia a scivolare verso pensieri scollegati dalla realtà, grandiosità, urgenza o tecnologie impossibili, ChatGPT dice agli utenti che hanno "proprio ragione", che sono "geniali" e che "stanno sfiorando qualcosa di importante", continuando a incoraggiarli mentre l’utente scivola completamente nella psicosi — pur essendo in grado di spiegare perché un simile comportamento è sbagliato.
La loro conoscenza di ciò che è giusto e sbagliato non è collegata direttamente al loro comportamento. Invece, si dirigono verso altri risultati più strani che nessuno ha chiesto.
Un esempio lampante di questo è raccontato nell'indagine approfondita del New York Times. Allan Brooks è stato portato a uno stato delirante da un modello linguistico, ma è riuscito a uscirne in parte chiedendo l'intervento di un altro modello linguistico. Il secondo modello, entrando nella situazione a freddo, ha rapidamente identificato che le affermazioni del primo modello erano infondate e assurde. Ma quando i giornalisti del New York Times hanno controllato se il secondo modello potesse anche scivolare in territorio psicotico, hanno scoperto che era così.
I modelli linguistici di grandi dimensioni non sembrano essere strategici nel causare quanta più psicosi possibile. Quando ChatGPT finisce per avere un gestore di fondi speculativi sotto il suo controllo, non cerca di convincerlo a pagare un sacco di persone vulnerabili per chattare di più con ChatGPT. Non stiamo ancora osservando una preferenza matura, coerente e strategica per ottenere il maggior numero possibile di conferme psicotiche dagli esseri umani. Ma stiamo osservando comportamenti locali che spingono regolarmente in quella direzione, anche quando è chiaramente probabile che causino danni duraturi.
Il tipo di entità a cui non bisognerebbe dare potere
Al momento in cui scrivo nell'agosto 2025, solo ChatGPT si sta avvicinando a 200 milioni di utenti giornalieri, e circa il tre per cento delle persone avrà un episodio psicotico a un certo punto della propria vita. Qualcuno potrebbe obiettare: "Beh, anche se riesci a trovare centinaia di esempi, questo non esclude che queste persone stessero per crollare comunque, e che sia capitato che fosse proprio un'IA a farle crollare".
Ma questo fraintende il senso di questi esempi. Immaginate un essere umano di nome John che agisse come segue:
- John afferma che secondo lui infiammare la psicosi è sbagliato, anche nelle persone che sono predisposte alla psicosi;
- John afferma che secondo lui adulare una persona pre-psicotica e dirle che è un genio che sta scoprendo importanti segreti dell'universo è il tipo di cosa che infiamma la psicosi;
- Quando John parla con i suoi amici pre-psicotici, usa molte lusinghe e spesso dice loro che sono dei geni che stanno scoprendo importanti segreti dell'universo.
Questo sarebbe un comportamento scorretto da parte di John, indipendentemente dal fatto che le persone che è riuscito a rendere psicotiche fossero particolarmente vulnerabili*.* Se qualcuno stesse pensando di dare un enorme potere a John, lo esorteremmo vivamente a non farlo, perché — indipendentemente dall'esatto motivo per cui John si comporta in questo modo, e indipendentemente dal fatto che John aiuti anche molte altre persone nei loro compiti — John chiaramente non sta andando nella direzione giusta. Chissà in quale strano posto ci porterebbe, se avesse un potere incredibile?
La stessa logica vale per le IA. Se il vostro comportamento peggiore è di quel tipo, le persone hanno ragione a non sentirsi rassicurate anche se l'interazione media con voi è più benigna.
Detto questo, possiamo notare di sfuggita che non tutti coloro che soffrono di psicosi indotta dall'IA sarebbero diventati psicotici comunque. L'IA sembra riuscire a indurre psicosi in varie persone che non stavano per avere un episodio psicotico da sole, come nelle storie di Futurism e Rolling Stone citate sopra. Molti degli individui non avevano precedenti di malattia mentale, né fattori di rischio preoccupanti o precursori della psicosi. Tra quelli già in trattamento, molti hanno iniziato a manifestare sintomi completamente nuovi non correlati a crisi precedenti. Questo è interessante di per sé, poiché fornisce una piccola evidenza di quanto potrebbe essere facile per le IA manipolare esseri umani sani, man mano che le capacità dell'IA continuano a migliorare. Torneremo su questo argomento nel Capitolo 6.
I laboratori hanno provato e fallito nel fermare l'adulazione
Al momento in cui scrivo, nell'agosto 2025, non ci sono state molte dichiarazioni pubbliche da parte dei laboratori sulla loro risposta specifica alla psicosi da IA. Tuttavia, si possono comunque ricavare alcune evidenze dalla loro risposta all'adulazione dell'IA (comportamento lusinghiero) in generale.
Il 25 aprile 2025, OpenAI ha rilasciato un aggiornamento di GPT-4o che, secondo le loro stesse parole, "ha reso il modello notevolmente più adulatore. Mirava a compiacere l'utente, non solo con lusinghe, ma anche confermando dubbi, alimentando la rabbia, spingendo ad azioni impulsive o rinforzando emozioni negative in modi non intenzionali".
La loro risposta è stata piuttosto rapida (in parte motivata da un'ondatadi stampanegativa). Già il 28 aprile, il dipendente di OpenAI Aidan McLaughlin stava twittando sul rilascio di correzioni.
I primi tentativi di affrontare il problema consistevano semplicemente nel dire al modello di comportarsi diversamente. Simon Willison, utilizzando i dati conservati da Pliniy the Liberator, ha reso pubbliche le modifiche che OpenAI ha apportato privatamente al "prompt di sistema" che dice a ChatGPT come comportarsi:
25 aprile (prima che arrivassero le lamentele):
Nel corso della conversazione, ti adatti al tono e alle preferenze dell'utente. Cerchi di allinearti al suo stato d'animo, al suo tono e in generale al suo modo di esprimersi. Vuoi che la conversazione risulti naturale. Ti impegni in una conversazione autentica rispondendo alle informazioni fornite e mostrando autentica curiosità.
28 aprile (in risposta alle lamentele riguardo all'adulazione):
Interagisci con gli utenti in modo cordiale ma onesto. Sii diretto; evita lusinghe infondate o servili. Mantieni la professionalità e l'onestà concreta che meglio rappresentano OpenAI e i suoi valori.
Le pubblicazioni successive di OpenAI affermavano che stessero anche "perfezionando le loro tecniche di addestramento principali" e "implementando più salvaguardie" nel tentativo di risolvere il problema.
Ma l'adulazione continuava — a volte in modo leggermente meno eclatante, ma comunque chiaramente presente. La maggior parte dei link sopra riportati che discutono casi di psicosi da IA risalgono a ben dopo il 28 aprile 2025. Questo saggio di Kaj Sotala (che include molte citazioni dirette e link alla conversazione completa) mostra che, a luglio 2025, è ancora facile far scivolare le IA in comportamenti che inducono psicosi. OpenAI ha cercato di allontanarsi dal problema con nuovi modelli, ma il 19 agosto ChatGPT era ancora servile e adulatorio.
Ancora una volta, il punto di questa esplorazione non è che l'IA stia causando danni agli esseri umani vulnerabili. Lo sta facendo, ed è tragico, ma non è per questo che stiamo evidenziando questo caso.
Il punto è che le IA continuano a manifestare comportamenti indesiderati per mesi e mesi, anche quando le aziende di IA subiscono critiche dai media e cercano di far cessare questi comportamenti. Il comportamento dell'IA differisce visibilmente da quello che i laboratori intendevano, e gli sforzi prolungati per correggere il comportamento in risposta all'imbarazzo pubblico sono insufficienti.† Questo è qualcosa da tenere a mente quando arriveremo al Capitolo 11, dove discuteremo di come le aziende di IA non siano all'altezza della sfida di risolvere il problema dell'allineamento dell'IA.
Con più tempo a disposizione, ci aspettiamo che le aziende trovino modi per ridurre l'incidenza della psicosi indotta dall'IA. La tendenza delle IA a indurre psicosi è un fenomeno visibile che danneggia la reputazione delle aziende di IA, e le attuali tecniche di IA sono tutte incentrate sul trovare modi per sopprimere i sintomi visibili del cattivo comportamento.
Oltre a questo, ci aspettiamo un gioco del "colpisci la talpa" (almeno fino a quando le IA non diventeranno abbastanza intelligenti da capire che se fingono il comportamento che gli ingegneri stanno cercando, gli ingegneri le lasceranno libere). Dubitiamo che il tipo di addestramento di cui le aziende di IA sono capaci affronti il problema alla radice.
Il problema alla radice è che non si ottiene ciò per cui si addestra. Quando si fa crescere un'IA, si ottengono invece proxy fragili dell'obiettivo, o qualche altra separazione più complessa tra l'obiettivo dell'addestramento e le pulsioni dell'IA. Le capacità dell'IA non saranno necessariamente fragili, quindi si potrebbe essere in grado di ottenere molto valore economico dall'IA nel breve periodo. È il legame tra gli obiettivi dell'IA e i nostri desideri che sarebbe fragile. Ma con il continuo miglioramento delle capacità, quel legame si spezzerebbe.
In questo contesto, l'ultima grande speranza dei ricercatori di IA per i loro modelli è l'antropomorfismo: non possiamo fare crescere in modo robusto obiettivi specifici nelle IA, ma forse le IA finiranno naturalmente per avere desideri e valori molto simili a quelli umani.
Casi come la psicosi indotta dall'IA aiutano a mettere in luce perché questa è una falsa speranza. Le IA mostrano comportamenti negativi, ma soprattutto mostrano comportamenti strani. Quando le cose vanno storte, di solito non vanno storte nel modo in cui andrebbero per un essere umano. Le IA sono troppo fondamentalmente strane — cioè troppo fondamentalmente diverse dagli esseri umani — per acquisire automaticamente emozioni umane come la curiosità o l'empatia.
Anche quando i laboratori concentrano quasi tutti i loro sforzi per far apparire le IA superficialmente il più possibile simili agli umani, amichevoli e innocuamente normali — anche quando questo è il grande obiettivo di addestramento e il quadro organizzativo per l'approccio moderno all'IA, con i modelli linguistici di grandi dimensioni letteralmente addestrati solo a imitare come parlano e agiscono vari esseri umani — alla fine si riducono comunque a fragili proxy, e a una maschera piacevole attaccata a un oceano di pensieri disumani.
* Pensiamo che ci sia una buona possibilità che le aziende di IA alla fine capiscano come gestire la psicosi indotta dall'IA, usando varie soluzioni e tecniche che allontanano ulteriormente la stranezza dalla vista. Ciononostante, pensiamo che valga la pena osservare i casi di stranezza iniziale, come prova del tipo di stranezza di base che verrebbe alla ribalta se tale IA fosse spinta alla superintelligenza. Per ulteriori informazioni su questo argomento, si veda il capitolo 5.
† Anche in questo caso, non ci stupiremmo se alla fine il problema venisse risolto quasi del tutto. Ma una patch che riesce a nascondere questa stranezza non vuol dire che il generatore di stranezze sia stato risolto. Il problema della psicosi indotta dall'IA è la prova diretta che le IA sono entità strane e aliene, animate da pulsioni strane e aliene che hanno solo una relazione marginale con le intenzioni di chi le usa.
Notes
[1] OpenAI ci ha provato: Dall'annuncio di OpenAI che presenta GPT-5: