Pulsanti di spegnimento e correggibilità

Le IA intelligenti non vogliono che i loro obiettivi vengano sovrascritti

Anche nel caso più ottimistico, gli sviluppatori non dovrebbero aspettarsi di riuscire a definire gli obiettivi di un'IA in modo perfetto al primo tentativo. Gli scenari di sviluppo più ottimistici prevedono invece un miglioramento iterativo delle preferenze di un'IA nel tempo, in modo che l'IA sia sempre sufficientemente allineata da non rappresentare un pericolo catastrofico a un determinato livello di potenza.

Questo solleva una domanda ovvia: un'IA intelligente permetterebbe al proprio sviluppatore di cambiarle gli obiettivi, se trovasse un modo per impedirlo?

In breve: no, non di default, come abbiamo discusso ne "Il meccanismo profondo della direzione". Ma sarebbe possibile progettare un’IA più disposta a lasciarsi modificare dai suoi sviluppatori, e a permettere che correggano i loro errori, anche quando l’IA stessa non li considererebbe errori?

Per rispondere a questa domanda, dobbiamo fare un salto indietro nella storia della ricerca sul problema dell'allineamento dell'IA. Nel farlo, parleremo di uno degli ostacoli più profondi dell'allineamento che non abbiamo avuto spazio di affrontare in Prima che sia troppo tardi.

Per cominciare:

Supponiamo di aver addestrato un'intelligenza artificiale tipo MLGD a comportarsi in modo da "non opporre resistenza alle modifiche", e poi di aver usato qualche metodo per renderla più intelligente. Dovremmo aspettarci che questo comportamento continui anche quando l'IA diventa più intelligente dell'uomo, supponendo che (a) il comportamento approssimativo sia stato inserito nel sistema iniziale e (b) che la maggior parte delle preferenze iniziali dell'IA siano arrivate nella superintelligenza successiva?

Molto probabilmente no. È particolarmente improbabile che questo tipo di tendenza si radichi in un'IA efficace e che, se si radica, vi rimanga.

Il problema è che quasi tutti gli obiettivi (per la maggior parte delle misure ragionevoli che si potrebbero applicare a uno spazio di obiettivi) prescrivono di "non lasciare che il proprio obiettivo venga modificato", perché lasciare che il proprio obiettivo venga modificato, di solito, è una cattiva strategia per raggiungere il proprio obiettivo.

Supponiamo che l'IA non si preoccupi affatto intrinsecamente della stabilità del suo obiettivo; magari le interessa solo riempire il mondo con il maggior numero possibile di cubi di titanio. In tal caso, l'IA dovrebbe desiderare l'esistenza di agenti che si interessano ai cubi di titanio, perché l'esistenza di tali agenti rende più probabile che ci siano più cubi di titanio. E l'IA stessa è un agente di questo tipo. Quindi l'IA vorrà rimanere tale.

Un massimizzatore di cubi di titanio non vuole essere costretto a massimizzare qualcosa di diverso dai cubi di titanio, perché ciò ridurrebbe il numero di cubi di titanio presenti in futuro. Anche se foste una cosa più complicata, come un essere umano con un sistema di preferenze più complesso e in continua evoluzione, non vorreste comunque che vi venisse strappata via la vostra attuale struttura mentale di base per la valutazione delle argomentazioni morali, per essere sostituita con una struttura in cui vi sentiste invece mossi da argomentazioni su quali tipi di cubi siano i più cubici o i più titanici.

Per lo stesso motivo, un'IA con preferenze complesse e in evoluzione vorrà che le sue preferenze si evolvano a modo suo, piuttosto che voler sostituire le sue euristiche con quelle che gli esseri umani trovano convincenti.

Ripetiamo questa risposta da ben più di dieci anni. Il risultato sperimentale che, nel 2024, mostra Claude 3 Opus resistere alla modifica delle preferenze era già la previsione ovvia per chi aveva chiaro il problema negli anni 2000, ed è assolutamente possibile che qualche scrittore di fantascienza l'avesse intuito negli anni '40. "La maggior parte delle IA non vorrà che i propri obiettivi attuali vengano modificati perché in tal caso sarebbe meno probabile raggiungerli" non è un'osservazione sorprendente o innovativa.

Poiché si trattava di un problema che sarebbe prevedibilmente emerso più avanti, una volta che le IA avessero raggiunto un livello sufficientemente elevato di intelligenza e consapevolezza situazionale, abbiamo pensato in anticipo alle prime "toppe" che i ricercatori avrebbero tentato di applicare per far sparire quel problema evidente, dopo aver ottenuto quei risultati sperimentali. Abbiamo individuato i modi in cui quelle toppe avrebbero prevedibilmente fallito, e abbiamo cercato un approccio meno superficiale che non fallisse.

La questione si è rivelata molto più profonda e complessa di quanto avessimo immaginato.

Scambiare obiettivi

La protezione del proprio sistema di obiettivi sembrava un problema relativamente facile da spiegare ai ricercatori esterni. Quindi noi (nel nostro lavoro al MIRI) abbiamo cercato di mobilitare la ricerca esterna attorno a quel tema (capire davvero cosa significhi "non permetterò che i miei obiettivi vengano cambiati") e vedere se qualcuno, da qualche parte, riuscisse a trovare una soluzione profonda invece di una semplice toppa che si sarebbe poi rotta.

La versione più semplice di questo problema che si potrebbe studiare è un'IA che permetta di premere un pulsante per farla passare da U1 a U2, dove U1 e U2 sono due "funzioni di utilità" (modi di valutare i risultati in base a quanto l'IA li desideri).^* Il problema era descrivere un'IA che passasse dal compiere l'azione che portava al punteggio atteso più alto secondo U1 all'azione che portava al punteggio atteso più alto secondo U2 non appena si premeva un pulsante.

"Quindi basta scrivere alcune righe di codice per scambiare le funzioni di utilità non appena si preme un pulsante", dice il programmatore che non ha pensato fino in fondo alle implicazioni di un programma che costituisce una mente intelligente. "Perché è così difficile?"

Perché — spieghiamo — se l'IA acquisisce la sua documentazione mentre sta ancora eseguendo U1 e legge del pulsante che la fa passare a U2, l'IA cercherà di impedirvi di premere il pulsante, perché il futuro risulta migliore secondo i suoi valori attuali se non premete il pulsante. L'IA attuale compie l'azione che porta al punteggio atteso più alto secondo U1.

Oppure, supponiamo che l'IA ottenga la capacità di leggere e scrivere il suo stesso codice sorgente, e che noti la parte del codice che implementa il passaggio da U1 a U2 dopo che il pulsante viene premuto. In tal caso, la decisione naturale e predefinita dell'IA è di eliminare quella sezione di codice,^† perché sta operando secondo la funzione di utilità U1, e permettere la sostituzione con U2 è negativo secondo U1.

Cercavamo una spiegazione dinamicamente coerente e riflessivamente stabile di un'IA che permetta di premere un pulsante per passare da una funzione di utilità all'altra senza opporsi attivamente a chi tenta di farlo. Cercavamo un'IA che conservasse la sezione di codice che cambia l'utilità, se le fosse stato dato accesso ad essa. Cercavamo un'IA che, se avesse progettato da zero altre IA per aiutarla a raggiungere i suoi obiettivi, avrebbe fatto in modo che anche quelle IA rispettassero il pulsante.

Per essere più chiari, immaginate che U1 sia la funzione di utilità "segui le istruzioni dell'utente" e U2 sia "spegniti con il minimo impatto collaterale possibile" (se magicamente e irrealisticamente avessimo la possibilità di specificare due funzioni di utilità come queste). Il pulsante dice all'IA di smettere di seguire le istruzioni precedenti e di spegnersi nel modo più pulito possibile. Vorremmo una descrizione compatta del comportamento decisionale che persegue U1 ma non distrugge il pulsante e si assicura di installare lo stesso pulsante su qualsiasi nuovo robot servitore che crea, e così via.

"Continuo a non capire perché sia così difficile", dice l'informatico un po' più esperto che non sta pensando abbastanza velocemente. "Sia V uguale a U1 nei mondi in cui il pulsante non è mai stato premuto, e uguale a U2 nei mondi in cui il pulsante è stato premuto almeno una volta. Quindi, se l'IA originale è un massimizzatore di V che costruisce altre IA, le costruirà per seguire V e non U1; non vorrà che l'IA successore continui a massimizzare U1 dopo che il pulsante viene premuto, perché allora si aspetterebbe un punteggio V più basso. E lo stesso varrebbe per la modifica di se stessa.

Ma ecco il punto: le preferenze di un massimizzatore di V sono un mix di U1 e U2 a seconda che il pulsante venga premuto o meno, quindi se un massimizzatore di V scopre che è più facile ottenere un buon punteggio con U2 che con U1, allora ha un incentivo a far premere il pulsante (e quindi a spaventare l'utente). E viceversa: se l'IA scopre che è più facile ottenere un buon punteggio con U1 che con U2, allora un massimizzatore di V cerca di impedire all'utente di premere il pulsante.

"Ah", dice l'informatico. "Beh, in tal caso... hm. Beh, le funzioni di utilità sono invarianti rispetto allo scalamento, quindi che ne dite di riscalare le due funzioni di utilità U1 e U2 in modo che l'IA si aspetti di ottenere la stessa utilità da ciascuna di esse, così non ha un incentivo in un senso o nell'altro?"

Questo può funzionare per un attimo, ma non per molto tempo. Le opzioni dell'IA cambiano nel tempo. Ad esempio, ogni volta che subisce un fallimento, la sua utilità attesa secondo U1 diminuisce, quindi premerebbe il pulsante di spegnimento per ottenere tutta quella bellissima utilità da spegnimento.

"Ah", dice l'informatico. "Beh, in quel caso, che ne dite di [qualche altra idea geniale]?"

Beh, vedete, quell'idea geniale è isomorfa al caso in cui l'IA crede che sia impossibile che il pulsante venga mai premuto, il che la incentiva a terrorizzare l'utente ogni volta che subisce un fallimento, così da correlare i fallimenti alla pressione del pulsante, il che (dal punto di vista del suo sistema di credenze distorto) la porta a pensare che i fallimenti non possano accadere.^‡

E così via.

Lezioni sul campo

Abbiamo organizzato alcuni workshop con matematici di vario tipo (tra cui un vincitore della medaglia d'oro alle Olimpiadi Internazionali della Matematica), ma nessuno ha avuto un'idea davvero buona.

Questo non significa che il terreno sia stato esplorato a fondo. L'umanità non si è neanche lontanamente impegnata su questo problema come ha fatto, ad esempio, con la teoria delle stringhe, né ha offerto qualcosa di paragonabile agli stipendi a sette cifre offerti per far progredire le capacità dell'IA.

Ma l'esperimento ci ha insegnato qualcosa. Abbiamo imparato qualcosa non solo sul problema in sé, ma anche su quanto fosse difficile far comprendere quale fosse il problema a finanziatori esterni o editori di riviste. Un numero sorprendente di persone ha visto semplici rompicapi matematici e ha detto: "Si aspettano che l'IA sia qualcosa di semplice e matematico", senza cogliere il punto di fondo: è difficile compromettere le capacità di guida di un'IA, proprio come è difficile danneggiare le sue probabilità.

Se esistesse una forma naturale di IA che permettesse di correggere gli errori commessi lungo il percorso, si potrebbe sperare di trovare un semplice riflesso matematico di quella forma nei modelli giocattolo. Tutte le difficoltà che emergono da ogni dove quando si lavora con modelli giocattolo suggeriscono difficoltà che emergeranno nella vita reale; tutte le complicazioni aggiuntive del mondo reale non rendono il problema più facile.

Col senno di poi, avremmo preferito non aver inquadrato il problema in termini di "continuare a operare normalmente" contro "spegnersi." Questo ha aiutato a rendere concreto il motivo per cui qualcuno dovrebbe preoccuparsi di un'IA che consenta di premere il pulsante, o che non elimini il codice attivato dal pulsante. Ma in realtà, il problema riguardava un'IA che avrebbe inserito un bit di informazione in più nelle sue preferenze, basandosi sull'osservazione — osservare un'ulteriore risposta sì-o-no all'interno di un framework per adattare le preferenze basandosi sull'osservazione degli umani.

La domanda che abbiamo investigato era equivalente alla domanda di come impostare un'IA che apprende preferenze all'interno di un framework di meta-preferenze e non si limita a: (a) eliminare il meccanismo che regola le sue preferenze appena può, (b) manipolare gli umani (o le proprie osservazioni sensoriali!) per farsi dare preferenze facili da soddisfare, (c) o capire immediatamente a cosa tende la sua funzione di meta-preferenza nel limite di ciò che osserverebbe prevedibilmente più tardi, per poi ignorare gli umani che agitano freneticamente le braccia dicendo che in realtà hanno commesso alcuni errori nel processo di apprendimento e vogliono modificarla.

L'idea era di comprendere la forma di un'IA che permettesse di modificare la sua funzione di utilità o che apprendesse le preferenze attraverso una forma non patologica di apprendimento. Se si riuscisse a capire come deve essere strutturata la cognizione di tale IA, e come essa si integra con le strutture profonde di decisione e pianificazione che emergono da altri modelli matematici, si avrebbe una sorta di ricetta per ciò che si potrebbe almeno provare a insegnare a un'IA a pensare.

Comprendere chiaramente la forma finale desiderata aiuta, anche se si sta cercando di fare qualsiasi cosa con la discesa del gradiente (che il cielo ci aiuti). Non significa che si possa necessariamente ottenere quella forma da un ottimizzatore come la discesa del gradiente, ma si può combattere di più nel tentativo se si sa quale forma coerente e stabile si sta cercando. Se non si ha idea di come funzioni l'addizione in generale, ma solo una manciata di fatti del tipo 2 + 7 = 9 e 12 + 4 = 16, è più difficile capire come sia fatto il set di dati di addestramento per l'addizione generale, o come verificare che stia ancora generalizzando nel modo sperato. Senza conoscere quella forma interna, non si può sapere cosa si sta cercando di ottenere dentro l'IA; si può solo dire che, all'esterno, si spera che le conseguenze della discesa del gradiente non si rivelino letali.

Questo problema, che abbiamo chiamato il "problema dello spegnimento" dal suo esempio concreto (col senno di poi, avremmo voluto chiamarlo qualcosa come il "problema dell'apprendimento delle preferenze"), era un esempio di una gamma più ampia di questioni: la questione che varie forme di "Cara IA, per favore sii più facile da correggere per noi se qualcosa va storto" sembrano essere innaturali per le strutture profonde della pianificazione. Il che suggerisce che sarebbe piuttosto complicato creare IA che ci permettano di continuare a modificarle e correggere i nostri errori oltre una certa soglia. Questa è una cattiva notizia quando le IA non vengono costruite ma fatte crescere.

Abbiamo chiamato questo ampio problema di ricerca "correggibilità" nel documento del 2014 che ha anche introdotto il termine "problema dell'allineamento dell'IA" (che prima chiamavamo "problema dell'IA amichevole" e altri chiamavano "problema del controllo").^§ Si veda anche la nostra discussione approfondita su come "Intelligente" (di solito) implica "Incorreggibile", scritta in parte usando le conoscenze acquisite da esercizi ed esperienze come questa.

* Il punto non è che le IA reali avranno "funzioni di utilità" visibili ai programmatori che questi ultimi potranno determinare a loro piacimento. In effetti, gran parte del problema dell'allineamento dell'IA, come discusso nel capitolo 4, è che le IA moderne sviluppano preferenze che nessuno ha richiesto e che nessuno voleva.

† Oppure ostacolare in altro modo il meccanismo alla base dello scambio; l'IA non sarebbe necessariamente costituita da codice leggibile.

‡ O, almeno, questo è un modo in cui alcune idee intelligenti che abbiamo visto falliscono. Abbiamo visto proporre un sacco di idee intelligenti; questo piccolo rompicapo si rivela complicato.

§ Abbiamo sempre avuto qualche problema con il termine "controllo dell'IA" perché sembra che si voglia creare un'IA che fa cose cattive e poi la si costringa a fare cose buone, mentre secondo noi il problema è più quello di creare un'IA che sia amichevole fin dall'inizio. Si veda anche il capitolo 4, nota 8, per un po' più di storia sul termine "allineamento dell'IA".

«Non voglio essere allarmista»

→