È difficile ottenere una pigrizia robusta
Perché non rendere le IA semplicemente pigre?
L'incorreggibilità e altre forme di convergenza strumentale sono, in un certo senso, un problema dovuto al fatto l'IA che si impegna eccessivamente nel raggiungere i suoi obiettivi. Se l'IA non si impegnasse così tanto nel raggiungere i suoi obiettivi, non investirebbe così tanto pensiero e impegno nel superare in astuzia i suoi programmatori, esfiltrare i suoi pesi o cercare di ottenere potere e risorse nel mondo più ampio.
Gli umani sono spesso pigri e, da un certo punto di vista, questo li rende molto sicuri da frequentare. Non dovete preoccuparvi che qualcuno diventi un tiranno se non fa altro che rilassarsi al sole.
Perché non creare IA che non si degnano di conquistare il mondo?
In breve: perché non sembra facile creare un'IA che sia estremamente intelligente e che allo stesso tempo non si degni di rimodellare il mondo secondo i suoi capricci.
(E perché, realisticamente, non sappiamo come inserire in modo robusto qualsiasi obiettivo o disposizione nelle IA costruite con le tecniche moderne, quindi è una questione irrilevante).
(E inoltre, le aziende non lo faranno perché un'IA pigra è meno redditizia, quindi è una questione doppiamente irrilevante).
Abbiamo, ormai un paio di volte, avuto questa conversazione con qualcuno che inizialmente afferma di non avere grandi ambizioni, e noi chiediamo: "Ok, ma se fosse facile per te fare grandi cambiamenti nel mondo, non c'è davvero niente di grande che faresti? Se trovassi una lampada contenente un genio amichevole che ti desse in modo affidabile ciò che desideri veramente e ti elencasse sinceramente tutti gli effetti collaterali imprevisti del tuo desiderio in ordine di quanto ti importerebbero, potremmo convincerti a considerare di eliminare la malaria?"
Gli esseri umani possono essere pigri, ma questo non significa che siamo facilmente soddisfatti. E man mano che si diventa più intelligenti e con maggiori risorse, si può ottenere molto di più nel mondo con lo stesso livello di sforzo.
O da un'angolazione diversa: immaginate una persona molto pigra, qualcuno che proprio odia fare anche il minimo sforzo in più del necessario. Sembra il tipo di persona sicura da frequentare, vero?
Ora immaginate cosa succederebbe se questa persona pigra conoscesse una ragionevole possibilità di creare un servitore molto più laborioso che faccia tutto il lavoro al posto suo per sempre.
Anche se non odiasse così tanto lavorare — anche se facesse solo ciò che serve per portare a termine il compito e poi smettesse, senza impegnarsi a fondo per minimizzare il lavoro — potrebbe comunque trovare altrettanto facile completare il compito costruendo una mente più laboriosa che lo faccia al suo posto.
Applicando la discesa del gradiente, si potrebbe ottenere un modello linguistico di grandi dimensioni che dice di non voler lavorare troppo, che si comporta come una persona pigra e facilmente soddisfatta, e che dice "no" ad alcune tentazioni verbali di diventare pigro nel senso pericoloso (quello in cui si costruiscono servitori pericolosi). Prevediamo che anche se questo riflettesse una certa pigrizia reale da parte dell'IA, e non solo un gioco di ruolo, non durerebbe, non nel tipo di IA che è anche utile per sviluppare cure miracolose o qualsiasi altra cosa gli sviluppatori vogliano ottenere dall'IA.
Con una spesa significativa, gli sviluppatori potrebbero creare una serie di problemi pratici e ambienti volti a penalizzare un'IA se lavora troppo nel corso della risoluzione di un problema, penalizzandola se si impegna a fondo nella risoluzione di un problema che avrebbe potuto essere risolto senza impegnarsi a fondo, penalizzandola se persiste su problemi che avrebbero richiesto troppo sforzo. Le vere aziende di IA non lo farebbero, supponiamo, perché interferirebbe con la redditività di agenti tenaci che si impegnano a fondo come l'o1 di OpenAI (discusso nel Capitolo 3). Ma si potrebbe immaginare un gigantesco sforzo cooperativo multinazionale che cerca di addestrare un'IA intelligente del genere per renderla più sicura.
Prevediamo di nuovo che otterrebbero qualcosa di simile a una toppa superficiale. Non prevediamo che questo sforzo porti l'IA ad avere una struttura mentale semplice e stabile per la "pigrizia", profondamente integrata in tutta la sua pianificazione, e che continui a essere la stessa pianificazione anche dopo che l'IA "pigra" è stata spinta al limite fino a poter, per esempio, curare il cancro. Dubitiamo che la discesa del gradiente troverebbe in modo affidabile il tipo di soluzione profonda che impedirebbe all'IA di diventare meno pigra anche mentre riflette, cresce e si modifica, e che impedirebbe all'IA di voler mai costruire un'IA non pigra.
Prevediamo che questo comportamento non reggerebbe di fronte alla superintelligenza. La nostra ragione centrale per pensarlo è che, in tutta la ricerca su questo problema fino ad oggi, sembra emergere una lezione ricorrente: "Spingi la realtà nella seguente direzione" è una struttura profonda più semplice e stabile per la pianificazione rispetto alla struttura "Eh, spingi un po' la realtà, ma non troppo, e non costruire nient'altro per spingere la realtà più forte, e non impegnarti troppo a spingere esattamente nella giusta misura".
Tutte le analogie su quel tizio pigro, e anche il ragionamento sul fatto che "la somma di una preferenza insoddisfatta e una preferenza soddisfatta è insoddisfatta", sono i nostri tentativi di semplificare in modo valido la ragione più difficile da trasmettere del perché questo non funziona: "La struttura profonda non vuole apparire così." Si veda anche la discussione sul meccanismo profondo di predizione e guida nel supplemento online del Capitolo 3.