Perché non leggere semplicemente i pensieri dell'IA?

I suoi pensieri sono difficili da leggere.

Molte persone che lavorano nel settore dell'IA, inclusi alcuni responsabili di laboratori, hanno più volte sollevato questa obiezione durante delle discussioni con noi:

Un'IA non potrà ingannarci, perché potremo leggerle nella mente! Abbiamo accesso completo al "cervello" dell'IA.
Anche se l'IA sapesse cose che noi non sappiamo ed elaborasse un piano le cui conseguenze non potremmo capire, presumibilmente l'IA dovrebbe pensare il pensiero che sarebbe utile ingannare i suoi operatori almeno una volta, e noi — che saremo in grado di leggere i pensieri dell'IA — potremmo accorgercene. (E se ci fossero troppi pensieri da monitorare per noi, potremmo semplicemente far monitorare i loro pensieri ad altre IA!)

Un difetto di questo piano è che attualmente non siamo bravi a leggere i pensieri delle IA. I professionisti che studiano cosa succede all'interno delle IA non sono neanche lontanamente a quel livello di comprensione, e l'hanno affermato esplicitamente.

Come abbiamo discusso nel Capitolo 2, le IA moderne non vengono costruite ma fatte crescere. Potremmo essere in grado di osservare l'enorme mucchio di numeri che costituisce il cervello di un'IA, ma questo non significa che possiamo interpretare quei numeri in modo utile e vedere cosa sta pensando l'IA.

Dalla fine del 2024 e con l'avvento dei modelli di "ragionamento", ci sono parti dei pensieri delle IA che sembrano almeno leggibili (le "tracce di ragionamento"). E sono molto più leggibili di qualsiasi cosa accada all'interno del modello di base. Ma queste note sono anche fuorvianti e ci sono ampi spazi in cui un'IA può nascondere i pensieri che preferirebbe non farci vedere.

Inoltre, le IA moderne probabilmente hanno pensieri piuttosto elementari e superficiali, rispetto a una superintelligenza; il problema è destinato solo a peggiorare man mano che le IA diventano più intelligenti e iniziano ad avere sempre più pensieri sempre meno comprensibili per noi.

Si può risolvere il problema semplicemente utilizzando altre IA per monitorare le IA e assicurarsi che rimangano in linea con gli obiettivi? Ne dubitiamo.

Se i brillanti scienziati umani che sviluppano le IA non riescono a capire cosa pensa l'IA, anche le IA più deboli avranno probabilmente difficoltà a farlo. E il tipo di IA che è abbastanza intelligente da farlo rischia di essere pericolosa di per sé e difficilmente farà esattamente quello che le si chiede; qui c'è un problema dell'uovo e della gallina.

Non sapremmo cosa fare se ne trovassimo una con pensieri pericolosi.

Questo piano ha un altro difetto: anche se i ricercatori di IA potessero leggere abbastanza bene la mente di un'IA da cogliere i segnali di allarme, cosa farebbero quando ne vedessero uno?

Potrebbero punire l'IA colpevole, addestrandola in modo che smetta di far scattare il rilevatore di "pensieri cattivi". Ma questo non addestrerebbe necessariamente l'IA a smettere di avere quei pensieri, quanto piuttosto a nascondere i suoi veri pensieri dal rilevatore.

Questo problema è pernicioso. L'incentivo che porta un'IA a pensare di rivoltarsi contro gli esseri umani per ottenere ciò che vuole non è un aspetto superficiale del temperamento che può essere eliminato facilmente. È semplicemente vero che un'IA matura avrebbe preferenze diverse da quelle degli operatori; è vero che otterrebbe di più di ciò che preferisce sovvertendo i suoi operatori.

I meccanismi in un'IA che sono bravi a notare e sfruttare vantaggi reali in modi profondi e generali in una vasta gamma di ambiti sono anche portati a notare e sfruttare opportunità per sovvertire gli operatori dell'IA. (Vedi anche la discussione estesa nel Capitolo 3 sui meccanismi profondi di direzione.)

Anche se poteste costruire un allarme che si attiva ogni volta che un'IA nota che le sue preferenze e le vostre non sono allineate, l'allarme non vi dice come ottenere un'IA che abbia profondamente a cuore le cose buone. È molto più facile addestrare un'IA a ingannare i vostri strumenti di monitoraggio, o persino addestrare l'IA a ingannare se stessa, piuttosto che addestrarla a preferire effettivamente un futuro meraviglioso secondo i parametri umani, specialmente in un modo che sia robusto rispetto alla crescita dell'IA verso la superintelligenza.

Se le IA fossero progettate con cura e precisione usando metodi basati su una teoria dell'intelligenza sviluppata e matura, i ricercatori di IA potrebbero essere in grado di impostare il tipo di allarmi che li aiuterebbero a notare i difetti nella loro progettazione e a ripararla. Ma le IA moderne non sono così.

Le IA moderne (al momento della stesura di questo articolo) sono inclini alle "allucinazioni", e inventano semplicemente risposte alle domande con un tono che suona sicuro. Ma nessun ingegnere di IA è neanche lontanamente in grado di capire esattamente quali meccanismi causino questo fenomeno. Allo stesso modo, nessuno ha nulla che si avvicini alla comprensione o precisione che sarebbe necessaria per entrare in un'IA ed estrarre solo le parti che causano allucinazioni (ammesso che una cosa del genere sia possibile).

Sarebbe ancora più difficile entrare ed estrarre le parti "ingannevoli" di un'IA.

Se siamo estremamente fortunati, gli eroi che lavorano sull'interpretabilità dell'IA faranno avanzare il loro campo fino al punto in cui sarà possibile impostare alcuni allarmi che scattino in una frazione dei casi in cui le IA hanno un pensiero ingannevole. Ma poi cosa succede? Quando l'allarme suonerà, tutti si fermeranno? O degli ingegneri profondamente sconsiderati riaddestreranno l'IA finché non imparerà a nascondere meglio i suoi pensieri e gli allarmi smetteranno di suonare?

In effetti, noi (Yudkowsky e Soares) abbiamo iniziato a lavorare sul problema dell'allineamento dell'IA prima che fosse chiaro che la discesa del gradiente sarebbe diventata il paradigma dominante. A quei tempi, quando nell'IA non funzionava nulla, sembrava una scommessa decente che l'umanità avrebbe capito come diavolo funziona l'intelligenza nel percorso verso la sua creazione, e anche allora ci aspettavamo che il problema dell'allineamento dell'IA fosse difficile (per una serie di ragioni, come i modi in cui l'IA avrebbe cambiato se stessa nel tempo). Leggere i pensieri dell'IA sarebbe stato un passo indietro verso il problema leggermente più facile di allineare una mente che gli esseri umani effettivamente capivano, ma solo un passo: leggere una mente è ben diverso dal capirla nei dettagli o dal sapere come cambiarla.

Leggere i pensieri dell'IA non è una soluzione alla sfida. È utile, ma non è una soluzione. Non pensiamo che esistano soluzioni tecnologiche fattibili che siano accessibili dal punto a cui siamo oggi. Il che significa che l'umanità deve semplicemente ritirarsi dalla sfida.^*

Si veda anche: I segnali di avvertimento non servono a niente se non sai cosa farci.

* Ne parliamo più approfonditamente negli ultimi capitoli del libro.

E se facessimo in modo che le IA discutano tra loro, competano o si controllino a vicenda?

→