Le allucinazioni non dimostrano che le IA moderne sono deboli?

Le allucinazioni rivelano sia un limite che un disallineamento.

I moderni modelli linguistici di grandi dimensioni (mentre scriviamo siamo a metà del 2025) sono soggetti ad "allucinazioni", in cui inventano risposte alle domande con un tono apparentemente sicuro. Se si chiede loro di redigere una memoria legale, per esempio, a volte inventano casi giudiziari fittizi come precedenti.

Questo ha senso se si comprende come vengono addestrate le IA. Un'IA produce parole che sembrano molto simili a quelle che produrrebbe un vero avvocato umano e, se un vero avvocato umano stesse redigendo una memoria legale, includerebbe casi giudiziari reali. Per esempio, un vero avvocato umano potrebbe scrivere qualcosa del tipo:

Nell'applicare il test di bilanciamento in Graham, la corte ha ritenuto che l'interesse del governo ad arrestare un sospettato per un reato minore sia minimo. Cfr. Jones v. Parmley, 465 F.3d 46 (2d Cir. 2006) (la giuria potrebbe ragionevolmente ritenere che prendere a calci e pugni manifestanti pacifici in violazione dell'ordinanza locale sia eccessivo); Thomas v. Roach, 165 F.3d 137 (2d Cir. 1999) (le minacce verbali sono un reato troppo poco importante per creare un forte interesse del governo nell'arresto).

Un vero avvocato non scriverebbe mai semplicemente "Non conosco la giurisprudenza pertinente, mi dispiace" in una memoria legale. Quindi, quando un'intelligenza artificiale cerca di sembrare un avvocato, in un caso in cui l'intelligenza artificiale non conosce effettivamente i precedenti, inventarne alcuni è il meglio che può fare. È il massimo che può fare. Gli impulsi e gli istinti all'interno dell'IA che producono testi che sembrano sicuri di sé in quel tipo di situazione vengono sempre rafforzati dalla discesa del gradiente.

Questo comportamento allucinatorio persiste anche se si chiede all'IA di dire "Non lo so" nei casi in cui non lo sa. In tal caso, l'IA sta facendo qualcosa di simile a interpretare il ruolo di un avvocato che direbbe "Non conosco il precedente in questo caso" se non conoscesse il precedente. Ma questo non ha importanza, purché l'IA stia (più o meno) interpretando il ruolo di un avvocato che conosce il precedente, il che significa che il personaggio interpretato dall'IA non ha mai l'opportunità di dire "Non lo so". L'IA potrebbe produrre un testo del tipo:

Secondo il quadro di bilanciamento di Graham, i tribunali hanno sempre riconosciuto che l'interesse del governo nell'effettuare arresti per violazioni minori è minimo. Vedi Carson v. Haddonfield, 115 F.3d 64 (8th Cir. 2005) (che ha riscontrato un uso eccessivo della forza da parte degli agenti che hanno usato spray al peperoncino contro sospetti che attraversavano la strada fuori dalle strisce pedonali e non opponevano resistenza); Walburg v. Jones, 212 F.3d 146 (2nd Cir. 2012) (ritenendo che la citazione per condotta disordinata non fosse sufficiente a giustificare tecniche di contenimento fisico).

Questo è il massimo che l'IA possa fare per avvicinarsi al testo reale. Il testo "Non conosco il precedente" è più lontano dal testo reale in termini di previsione del testo;^* sarebbe molto meno simile al primo paragrafo del testo sopra, anche se è più simile a quello che l'utente voleva.

Questo è un esempio della differenza tra quello che le IA cercano di fare (ad esempio, sembrare un avvocato sicuro di sé) e quello che gli utenti vogliono che facciano (ad esempio, redigere una memoria legale utilizzabile). Questi due diversi scopi possono a volte sovrapporsi (ad esempio, quando l'IA cerca di sembrare amichevole e l'essere umano desidera un ascoltatore amichevole), ma quelle differenze che ora sembrano piccole avrebbero conseguenze enormi se le IA diventassero più intelligenti, come discuteremo più in dettaglio nel capitolo 4.^†

Non è chiaro quanto sarà difficile eliminare le allucinazioni, né quanto questo aumenterà le capacità dell'IA.

A prescindere dal motivo per cui si verificano le allucinazioni, è vero che, nella pratica, limitano le capacità effettive dei modelli linguistici di grandi dimensioni (MLGD). Costruire un razzo lunare richiede lunghe catene di ragionamenti con un tasso di errore molto basso. Il fatto che le IA inventino cose (e non sempre se ne accorgano o non sempre se ne preoccupino) è un grosso ostacolo all'affidabilità di cui avrebbero bisogno per fare grandi scoperte scientifiche e tecnologiche.

Ma questa è un'arma a doppio taglio. Le allucinazioni e altri problemi di affidabilità potrebbero frenare l'IA per anni. Oppure potrebbe essere che i problemi di affidabilità siano l'ultimo tassello del puzzle e che, nel momento in cui qualcuno avrà un'idea brillante per risolverli, le IA supereranno una certa soglia critica. Non lo sappiamo.

Non sappiamo se le allucinazioni saranno facili da risolvere con il paradigma attuale: se qualcuno troverà un trucco ingegnoso che renderà i modelli di ragionamento molto più robusti, o se ci vorrà un'idea rivoluzionaria come l'architettura dei trasformatori che ha dato origine agli MLGD.

Notiamo, però, che risolvere il problema delle allucinazioni sarebbe piuttosto redditizio. Molte persone ci stanno lavorando. Questo potrebbe significare che probabilmente troveranno presto una qualche intuizione ingegnosa o soluzione architettonica. Oppure potrebbe essere un segno del fatto che il problema è particolarmente insidioso e destinato a persistere, dato che esiste già da alcuni anni.

In ogni caso, questo non cambia molto la nostra argomentazione. Quello che conta è che alla fine verranno create IA più affidabili, sia attraverso versioni leggermente modificate degli MLGD, sia attraverso un'architettura completamente nuova e rivoluzionaria.

Potete dare un'occhiata anche alla nostra discussione su come questo settore sia bravo a superare gli ostacoli.

* Non stiamo dicendo che l'IA abbia necessariamente delle allucinazioni perché è motivata internamente a produrre un output il più possibile simile a quello che direbbe un vero avvocato. Piuttosto, notiamo che un'IA addestrata sulla previsione del testo viene rinforzata molto di più per i paragrafi di testo che sono più vicini a quello che direbbe un vero avvocato, e quindi il rinforzo è più forte per paragrafi con citazioni allucinate rispetto a paragrafi che dicono "Non lo so". Il meccanismo specifico all'interno dell'IA che è stato plasmato da questi rinforzi è pura congettura.

† Le IA moderne non sono addestrate solo sulla previsione del testo e, in teoria, gli altri tipi di addestramento potrebbero correggere le allucinazioni. In pratica, le altre forme di addestramento mirate alla soddisfazione dell'utente non correggono le allucinazioni, ma piuttosto inducono le IA a lusingare gli utenti fino al punto di psicosi, pur continuando ad allucinare. (Crediamo che ci sia una lezione da imparare.)

Ma non finiremo i dati prima che l'IA raggiunga il suo obiettivo? O l'energia elettrica? O i finanziamenti?

→