"Intelligente" (di solito) implica "incorreggibile"
Ecco una barzelletta che risale almeno al 1834, ma che sembra fosse già molto usata anche allora, come è raccontata in un diario: "Ecco un ragionamento logico che ho sentito l'altro giorno: sono che gli spinaci non mi piacciano, perché se mi piacessero li mangerei, e io proprio non sopporto gli spinaci".
La barzelletta fa ridere perché, se vi piacessero davvero gli spinaci, non ci sarebbe più nulla di insopportabile nel mangiarli. Non ci sono altri valori importanti legati al non mangiare spinaci, al di là del dispiacere che si prova. Sarebbe molto diverso se, per esempio, qualcuno vi offrisse una pillola che vi facesse venire voglia di uccidere le persone.
Secondo il buon senso morale, il problema dell'omicidio è l'omicidio stesso, non solo la sensazione spiacevole che si proverebbe uccidendo. Anche se una pillola facesse sparire questa sensazione spiacevole per il vostro io futuro (che quindi proverebbe piacere nel commettere omicidi), il vostro io presente troverebbe comunque problematico questo scenario. E se il vostro io presente dovesse prendere la decisione, sembra ovvio che il vostro io presente possa e debba rifiutarsi di prendere la pillola dell'omicidio.
Non vogliamo che i nostri valori fondamentali cambino; preferiremmo davvero evitare la pillola dell'omicidio e opporremmo resistenza se qualcuno cercasse di costringerci a prenderla. Il che è una strategia sensata, per allontanarci da un mondo pieno di omicidi.
Non è solo una stranezza degli esseri umani. La maggior parte degli obiettivi è più facile da raggiungere se non si permette agli altri di intervenire e cambiarli. Il che è un problema, quando si parla di IA.
Gran parte del pericolo dell'IA deriva dal fatto che ragionatori sufficientemente intelligenti tendono a convergere su comportamenti come "ottenere potere" e "non lasciare che le persone mi spengano". Per quasi tutti gli obiettivi che potreste avere, è più probabile che riusciate a raggiungerli se voi (o gli agenti che condividono il vostro obiettivo) siete vivi, potenti, ben forniti di risorse e liberi di agire in modo indipendente. Ed è più probabile che riusciate a raggiungere il vostro obiettivo (attuale) se tale obiettivo rimane invariato.
Questo significa anche che durante il processo di costruzione e miglioramento iterativo di IA sufficientemente intelligenti, queste IA hanno un incentivo a lavorare in modo contrario agli obiettivi dello sviluppatore:
Lo sviluppatore vuole installare misure di sicurezza per prevenire disastri, ma se l'IA non è completamente allineata — che è esattamente il caso in cui servono le misure di sicurezza — il suo incentivo è trovare scappatoie e modi per sovvertire quelle misure.
Lo sviluppatore vuole migliorare iterativamente gli obiettivi dell'IA, perché anche nei mondi incredibilmente ottimistici in cui abbiamo qualche capacità di instillare prevedibilmente particolari obiettivi nell'IA, non c'è modo di prenderci al primo tentativo. Ma questo processo di miglioramento iterativo del contenuto degli obiettivi dell'IA è un processo che la maggior parte delle IA intelligenti vorrebbe sovvertire in ogni fase del percorso, poiché l'IA attuale si preoccupa del suo obiettivo attuale e sa che questo obiettivo è molto meno probabile da raggiungere se viene modificato per orientarla verso qualcos'altro.
Allo stesso modo, lo sviluppatore vorrà poter sostituire l'IA con modelli migliorati e vorrà avere la possibilità di spegnere l'IA a tempo indeterminato se sembra troppo pericolosa. Ma non si può andare a prendere il caffè se si è morti. Qualunque siano gli obiettivi dell'IA, vorrà trovare il modo di ridurre la probabilità di essere spenta, poiché lo spegnimento riduce significativamente le possibilità di raggiungere i suoi obiettivi.
L'allineamento dell'IA sembra un problema già abbastanza difficile quando le IA non vi ostacolano ad ogni passaggio.
Nel 2014 abbiamo proposto ai ricercatori di cercare modi per rendere le IA altamente potenti correggibili, ovvero "che possono essere corrette". L'idea sarebbe quella di costruire le IA in modo tale che desiderino affidabilmente aiutare e cooperare con i loro programmatori, piuttosto che ostacolarli — anche quando diventano più intelligenti e potenti, e anche se non sono ancora perfettamente allineate.
Da allora, la correggibilità è stata adottata come obiettivo interessante da alcuni dei laboratori leader del settore. Se riuscissimo a trovare un modo per evitare obiettivi strumentali convergenti dannosi durante lo sviluppo, c'è la speranza che potremmo essere in grado di fare lo stesso anche durante la distribuzione, costruendo IA più intelligenti degli esseri umani che siano caute, conservative, non orientate al potere e deferenti verso i loro programmatori.
Purtroppo, la correggibilità sembra essere un tipo di obiettivo particolarmente difficile da insegnare un'IA, in un modo che peggiorerà man mano che le IA diventeranno più intelligenti:
L'idea centrale della correggibilità è di poter essere applicata a contesti nuovi e a regimi di capacità inediti. La correggibilità è pensata come una sorta di rete di sicurezza che ci permette di iterare, migliorare e testare le IA in contesti potenzialmente pericolosi, sapendo che l'IA non cercherà modi per sabotare lo sviluppatore.
Ma questo significa che dobbiamo affrontare la versione più impegnativa dei problemi che abbiamo affrontato nel Capitolo 4: le IA che semplicemente addestriamo per essere "correggibili" rischiano di finire per avere dei proxy fragili per la correggibilità, comportamenti che sembrano buoni durante l'addestramento ma che puntano in direzioni sottilmente sbagliate che diventerebbero direzioni molto sbagliate se l'IA diventasse più intelligente e potente. (E le IA addestrate a prevedere molti testi umani potrebbero persino recitare la parte della correggibilità in molti test per ragioni del tutto diverse dall'essere effettivamente correggibili in un modo che si generalizzerebbe).
Per molti versi, la correggibilità è in diretto contrasto con tutto il resto che cerchiamo di insegnare a un'IA quando l'addestriamo per renderla più intelligente. Non si tratta solo del fatto che "preservare il proprio obiettivo" e "ottenere il controllo del proprio ambiente" sono obiettivi strumentali convergenti. Si tratta anche del fatto che risolvere in modo intelligente i problemi del mondo reale significa trovare nuove strategie intelligenti per raggiungere i propri obiettivi — il che naturalmente significa imbattersi in piani che i programmatori non avevano previsto o per cui non si erano preparati. Si tratta di aggirare gli ostacoli, piuttosto che arrendersi al primo segno di difficoltà — il che naturalmente significa trovare modi per aggirare i guardrail del programmatore ogni volta che questi rendono più difficile raggiungere qualche obiettivo. Lo stesso tipo di pensieri che trova una soluzione tecnologica intelligente a un problema spinoso è anche il tipo di pensieri che trova modi per aggirare i vincoli imposti dal programmatore.
In questo senso, la correggibilità è "anti-naturale": va attivamente contro i tipi di meccanismi che sottostanno all'intelligenza generale potente. Possiamo provare a creare eccezioni particolari, dove l’IA sospende aspetti fondamentali del suo lavoro di risoluzione dei problemi in situazioni specifiche in cui i programmatori cercano di correggerla, ma questo è un compito molto più fragile e delicato rispetto a spingere un’IA verso un insieme unificato di disposizioni in generale.
I ricercatori del MIRI e di altri centri hanno scoperto che la correggibilità è una proprietà difficile da caratterizzare, in modi che indicano che sarà anche una proprietà difficile da ottenere. Anche in semplici modelli giocattolo, le caratterizzazioni semplici di ciò che dovrebbe significare "agire in modo correggibile" incontrano una varietà di ostacoli confusi che sembrano probabilmente riflettere ostacoli ancora più confusi che apparirebbero nel mondo reale. Discutiamo alcuni dei relitti dei tentativi falliti di dare un senso alla correggibilità nelle risorse online per il Capitolo 11.
La conseguenza è che la correggibilità sembra un concetto importante da tenere a mente sul lungo periodo, se i ricercatori tra molti decenni si troveranno in una posizione fondamentalmente migliore per orientare le IA verso degli obiettivi. Ma oggi non sembra una possibilità concreta; è improbabile che le moderne aziende di IA siano in grado di creare IA che si comportino in modo correggibile in una maniera che sopravvivrebbe alla transizione verso la superintelligenza. E ancora peggio, la tensione tra correggibilità e intelligenza significa che se si cerca di creare qualcosa che sia molto potente e molto correggibile, questo processo molto probabilmente comprometterà la capacità dell'IA, oppure comprometterà la sua correggibilità, o entrambe.