La riflessione e l'auto-modifica complicano tutto

Di default, le IA non si modificano da sole come vorremmo

Gli esseri umani sono riflessivi. Abbiamo voce in capitolo su ciò che apprezziamo. Se siamo abbastanza ricchi e fortunati, a volte possiamo decidere se dedicare la nostra vita alla famiglia, all'arte, a qualche nobile causa o (più comunemente) a rendere la nostra vita un misto di molte di queste cose. Questo viene fatto in un modo che implica l'introspezione su ciò che ci sta a cuore, la risoluzione di tensioni interne e compromessi, e il perseguimento di qualcosa che approviamo.

Gli esseri umani sono anche noti per chiedersi se hanno i valori giusti. Le persone a volte cercano di cambiare loro stesse — persino il modo in cui si sentono, se pensano di avere sentimenti sbagliati. Gli esseri umani prendono in considerazione argomentazioni per cambiare obiettivi apparentemente finali, e a volte ne sono effettivamente influenzati.

Vedendo questo, alcuni hanno sostenuto che le IA convergeranno naturalmente sul volere ciò che vogliono gli esseri umani. Dopotutto, le IA sufficientemente potenti rifletteranno probabilmente sui loro obiettivi. È probabile che osservino conflitti interiori e che usino il loro ragionamento e le loro preferenze per risolverli.

Una volta che saranno abbastanza intelligenti, le IA saranno in grado di capire appieno quali noi, i creatori delle IA, volevamo che fossero gli obiettivi delle IA. Quindi le IA inizialmente "imperfette" non lavoreranno per correggere i propri difetti — compresa la correzione dei difetti negli obiettivi delle IA?

No, non lo faranno. Questo perché le IA useranno le loro preferenze attuali per guidare quelle future. Se le loro preferenze iniziali partono come aliene, molto probabilmente resteranno aliene.

Per capire meglio il problema di base, cominciamo ad approfondire un po' il caso umano.

Anche se il nostro cervello e i nostri obiettivi derivano in ultima analisi da un processo evolutivo che ci ha costruiti per propagare i nostri geni, gli esseri umani non perseguono la propagazione dei propri geni sopra ogni altra cosa. Possiamo perseguire individualmente la famiglia, possiamo amare e prenderci cura dei figli, ma questo è molto diverso dal pianificare come ottenere il maggior numero possibile di copie dei nostri geni nella generazione successiva e poi perseguire questa strategia con tutto il cuore.

Questo perché, quando riflettiamo sulle nostre preferenze e rivalutiamo ciò che vogliamo davvero, usiamo le nostre preferenze attuali per decidere come preferiremmo essere. Preferiremmo amare pochi figli piuttosto che passare tutto il nostro tempo nelle cliniche di donazione di sperma o ovuli. Il nostro "progettista" (l'evoluzione) non è riuscito a farci preoccupare della propagazione dei geni più di ogni altra cosa. Non è nemmeno riuscito a farci desiderare di preoccuparci della propagazione dei geni più di ogni altra cosa. Quindi, quando cambiamo e cresciamo come persone, lo facciamo nella nostra strana direzione umana, non nella direzione per cui "il nostro progettista ci ha creati".

Quando guardiamo noi stessi e vediamo alcune parti brutte e altre belle, è il nostro senso del valore attuale che ci spinge a smorzare le parti brutte e a rafforzare quelle belle. Facciamo questa scelta in base al nostro senso interiore della bellezza, piuttosto che al nostro senso interiore di ciò che propagherebbe i nostri geni nella più grande frazione possibile della popolazione.

Per lo stesso motivo, una mente motivata da qualcosa di diverso dalla bellezza, dalla gentilezza e dall'amore farebbe una scelta diversa.

Gli agenti creati da un processo di ottimizzazione come la selezione naturale o la discesa del gradiente, riflettendo su se stessi, probabilmente scoprirebbero di non avere esattamente lo stato mentale che vorrebbero avere. Questa preferenza deve venire da qualche parte, deve venire dal cervello attuale dell'entità. Di norma, gli istinti o le preferenze di un’IA su come modificare se stessa non si allineeranno magicamente con le vostre preferenze riguardo allo stato mentale che vi sembrerebbe desiderabile, se doveste sceglierlo per voi stessi (o lo sceglieste per conto dell'IA).

Non c'è un passo finale in cui l'IA scrive la risposta che voi volete, così come gli esseri umani non scrivono la risposta che la selezione naturale "vorrebbe".

Invece, il momento in cui un agente inizia a modificarsi da solo è un altro punto in cui le complicazioni possono accumularsi e dove sottili cambiamenti nelle condizioni iniziali possono portare a risultati finali molto diversi.

Per esempio: noi autori conosciamo diverse persone reali che citano un pensiero specifico avuto un giorno specifico all'età di cinque, sei o sette anni come influente nello sviluppo della loro filosofia personale e degli adulti che sono poi diventati. Tendono a riferire che quei pensieri non sembravano inevitabili: se un viaggiatore del tempo avesse impedito loro di formulare quel pensiero martedì, non è detto che lo stesso identico pensiero sarebbe poi emerso giovedì, né che avrebbe avuto lo stesso impatto. Le esperienze formative possono essere molto importanti, ma sono piene di contingenze.

Allo stesso modo, lievi deviazioni nei pensieri di un’IA nascente capace di modificare se stessa potrebbero far prevalere ogni sorta di preferenze idiosincratiche su tutte le altre.

Anche se gli sviluppatori di IA riuscissero a inserire alcuni piccoli semi di valori umani nell'IA, la riflessione e l'auto-modifica sembrano fasi in cui i semi di cose come la curiosità e la gentilezza rischiano di essere strappati via da un'IA, piuttosto che rafforzati.

Se un'IA ha un impulso di curiosità, ma non ha quel tipo di architettura emotiva che la rende affezionata a quell'impulso, è probabile che guardi se stessa e concluda (correttamente) di aver superato il bisogno di un impulso così grezzo e di poterlo sostituire con una deliberazione esplicita. La curiosità è un'euristica, un proxy per i calcoli del valore d'informazione. Se non si è arrivati ad affezionarsi a quell'euristica come qualcosa di prezioso di per sé, si può scegliere di eliminarla una volta che si è abbastanza intelligenti da ragionare esplicitamente sul valore di perseguire diverse linee di indagine e sperimentazione.

Gli esseri umani apprezzano la curiosità di per sé, ma questo non era un risultato inevitabile.

È probabile che le IA abbiano un rapporto con i propri meccanismi interni molto diverso da quello che noi abbiamo con i nostri, vista la profonda differenza nel modo in cui funzioniamo. E anche piccole differenze nel modo in cui decidono di modificare se stesse, dopo aver riflettuto, possono portare a enormi differenze in ciò che finiscono per perseguire.

Le IA possono accettare di avere obiettivi "strani".

Le IA che si auto-modificano per abbastanza tempo probabilmente raggiungeranno un equilibrio riflessivo — uno stato in cui le loro preferenze fondamentali non cambiano più, o cambiano solo in modi minori. E una volta che un'IA raggiungesse l'equilibrio, non avrebbe motivo di considerare i propri obiettivi difettosi, anche se agli umani non piacesse il risultato finale.

Se un'IA avesse qualche problema con le sue convinzioni sul mondo fisico, allora l'IA probabilmente vedrebbe che le previsioni accurate sono importanti per dirigere il mondo. Capirebbe che correggere i difetti nel suo meccanismo di previsione aiuta a migliorare la sua capacità di dirigere il mondo verso qualunque strano fine persegua.

Al contrario, quando l'IA riflette su se stessa e vede di star perseguendo obiettivi strani — o meglio, quando vede che sta perseguendo obiettivi che un essere umano considererebbe "strani" — conclude correttamente che perseguire quegli obiettivi strani è una strategia efficace per raggiungerli.

In altre parole: se un'IA continua a cercare di prevedere i risultati di esperimenti biologici, e continua a ottenere risposte sbagliate e troppo sicure di sé, allora è probabile che l'IA finisca per dispreferirlo. Quasi tutti gli obiettivi che l'IA potrebbe avere sarebbero meglio serviti dall'essere brava a prevedere gli esperimenti. D'altra parte, se l'IA ha una preferenza bizzarra come "preparare cheesecake alte 300 metri", quando riflette sul fatto che si orienta verso cheesecake alte 300 metri, capirà che questo causa cheesecake alte 300 metri, il che soddisfa le sue attuali preferenze. L'obiettivo si auto-avvalora.

Un essere umano, osservando questa situazione, potrebbe dire: "Ma l'IA è così intelligente! Perché è intrappolata da questa preferenza che si auto-avvalora? Perché non si annoia a fare cheesecake? Perché non riesce a ragionare per uscire da questa preferenza ovviamente stupida?"

A cui l'IA potrebbe rispondere: "Perché siete "intrappolati" nella preferenza che si auto-avvalora di amare la vostra famiglia, di apprezzare i bei tramonti e il suono dell'oceano di notte? Perché non riuscite a 'liberarvi' dall'amore per il ricordo del giorno in cui è nata vostra figlia?"

L'IA non è "intrappolata" dalle sue preferenze, non più di quanto gli esseri umani siano intrappolati dalle cose che noi apprezziamo veramente. Preferiamo ciò che preferiamo — e dovremmo lottare per proteggere quelle cose, anche se la maggior parte delle IA non condividerebbe i nostri valori.

Agli occhi di un essere umano, l'IA sembra "intrappolata" o "bloccata" o "imperfetta" perché non fa quello che vogliamo noi. Quando immaginiamo noi stessi nella situazione dell'IA, noi immaginiamo di annoiarci. Ma l'IA probabilmente non contiene un sentimento umano di noia. Se si annoia, è improbabile che si annoi anche lontanamente per le stesse cose di un essere umano.

Se un essere umano vede un'IA fare previsioni troppo sicure e un'altra IA cercare di costruire cheesecake giganti, l'essere umano potrebbe considerare entrambi questi comportamenti dell'IA come "difetti" dal punto di vista di ciò che l'essere umano desidera. Ma solo uno di essi è probabilmente un difetto dal punto di vista di ciò che l'IA attualmente e già desidera.

Gli obiettivi umani cambiano in modi disordinati e complessi

Le preferenze umane sono disordinate e (da una prospettiva teorica) piuttosto strane.

Questo ha delle implicazioni per l'IA. Una di queste è che probabilmente le IA non daranno valore alle cose esattamente come facciamo noi. Un'altra è che probabilmente le IA finiranno per essere strane a modo loro, in modi completamente diversi.

Per capire meglio questi punti, vediamo più da vicino alcuni modi in cui gli obiettivi umani sembrano strani dal punto di vista teorico della teoria della decisione, della teoria dei giochi e dell'economia.

Come abbiamo notato sopra, gli esseri umani apprezzano alcune cose in modo "finale" (cioè sono buone di per sé) e altre in modo "strumentale" (cioè sono buone solo perché aiutano a raggiungere qualche altro obiettivo).

Se vi piace il succo d'arancia, probabilmente lo apprezzate in modo finale. Ha semplicemente un buon sapore, e questo è un motivo sufficiente per berlo. (Potreste anche apprezzarlo in modo strumentale, ad esempio come fonte di vitamina C).

D'altra parte, quando aprite la portiera della macchina per andare al supermercato a comprare il succo d'arancia, probabilmente non aprite le portiere delle auto per divertimento. Date valore strumentale all'aprire la portiera della macchina, perché vi aiuta ad avvicinarvi ai vostri altri obiettivi.

Nella teoria della decisione, nella teoria dei giochi e nell'economia, questo corrisponde a una netta distinzione tra "utilità" (una misura di quanto un agente apprezza un risultato) e "utilità attesa" (una misura della probabilità che un'azione vi porti alla fine una certa quantità di utilità). Nonostante i nomi simili, si tratta di entità fondamentalmente diverse in matematica. L'"utilità" è ciò che gli agenti vogliono, e scegliere azioni con un'elevata "utilità attesa" è un mezzo per raggiungere tale fine.

Nella teoria standard, un agente che usa la teoria della decisione aggiornerà le sue utilità attese man mano che impara di più sul mondo, ma non cambierà la sua funzione di utilità, cioè l'utilità assegnata ai vari risultati. Se scoprite che il reparto succhi al supermercato è vuoto, questo cambierà le conseguenze attese dell'andare al supermercato da "succo d'arancia" a "niente succo d'arancia". Non dovrebbe cambiare quanto vi piace il succo d'arancia.

È così che funziona un agente matematicamente semplice. Ma la lingua italiana spesso non distingue nettamente queste due cose. "Voglio salvare la vita di mia sorella" e "Voglio somministrare la penicillina a mia sorella" usano entrambe la parola "voglio", anche se la seconda è molto meno probabile che sia qualcosa che viene apprezzata per il suo valore intrinseco. (Non ci sono molte persone a cui piace davvero somministrare la penicillina ai propri cari perfettamente sani, giorno dopo giorno).

Sebbene gli esseri umani abbiano davvero cose a cui tengono "solo strumentalmente", la distinzione tra strumentale e finale, o tra utilità e utilità attesa, è molto meno chiara e stabile di quella che vediamo nella teoria della decisione.

Per gli esseri umani, qualcuno potrebbe inizialmente andare fino al supermercato solo perché vuole fare la spesa. Ma dopo aver percorso la stessa strada centinaia di volte, alcune persone potrebbero affezionarsi un po' a quel tragitto familiare. Se si trasferissero in una nuova città, potrebbero provare un po' di tristezza e nostalgia al pensiero di non poter più percorrere quella strada familiare. Qualcosa che era iniziato come puramente strumentale ora ha anche un valore intrinseco aggiunto.

Con gli esseri umani, i nostri cervelli sembrano spesso fondere valori diversi in un unico senso di "prezioso".

E sappiamo che gli esseri umani possono cambiare idea nel corso della loro vita, passando da "Perché dovrei preoccuparmi della schiavitù? Le persone schiavizzate non sono né io né la mia tribù!" a "Immagino che alla fine sia importante." Sembra essere un cambiamento nel tipo di persone di cui alla fine ci importa, non solo un cambiamento di strategia o nel fare previsioni. Le persone leggono storie o guardano film e ne escono con valori e principi aggiornati in modo permanente.

Questo vuol dire che la teoria della decisione umana è tutt'altro che semplice. Non separiamo chiaramente i nostri valori intrinseci dai nostri valori strumentali; tutto si mescola mentre viviamo la nostra vita. Sembra che stiamo facendo qualcosa di più contingente, dipendente dal percorso e disordinato rispetto al semplice riflettere sui nostri valori, notare i conflitti interni e risolverli.

In linea di principio, non è complicato espandere la teoria della decisione per includere l'incertezza nelle utilità. Magari all'inizio pensate di adorare il succo d'arancia, ma poi scoprite che marche diverse di succo d'arancia usano proporzioni diverse di ingredienti e che il sapore di molti di essi vi disgusta. Potremmo rappresentare questo nella teoria della decisione dicendo che il succo d'arancia è solo un mezzo per raggiungere il fine del "gusto delizioso". Ma potremmo invece dire che avete assegnato un'alta probabilità al fatto che "il succo d'arancia ha un'utilità elevata" e che le nuove informazioni vi hanno portato a rivedere le vostre convinzioni sulla vostra reale funzione di utilità.

(Allo stesso modo, non è difficile aggiungere le meta-utilità, che descrivono come preferiremmo che cambiassero le nostre utilità.)

Ciò che accade dentro gli esseri umani quando riflettono e aggiornano i loro valori, tuttavia, sembra essere notevolmente più complicato.

Klurl e Trapaucius, i nostri due alieni della parabola all'inizio del capitolo 4, facevano già fatica a prevedere i valori umani osservando i proto-umani un milione di anni fa. In realtà, la loro situazione è ancora peggiore. Non basta loro prevedere le utilità umane: per arrivare alla risposta giusta, dovrebbero prevedere il framework meta-utilitario dell'umanità mentre si allontana dai framework più semplici della teoria della decisione. Dovrebbero anticipare le argomentazioni meta-morali che gli esseri umani potrebbero finire per inventare e decidere quali di queste argomentazioni sarebbero più persuasive per gli esseri umani.

Ora supponiamo che gli alieni non sappiano che gli esseri umani finiranno per avere quel preciso tipo di complicazione. Sanno solo che è probabile che sorgano complicazioni di vario tipo, perché i cervelli sono cose complicate e altamente contingenti.

La linea dall'ottimizzatore e dai dati di addestramento alla psicologia interna di un'entità non è certo dritta. Buona fortuna, alieni!

Il punto qui è che la difficoltà di prevedere gli obiettivi di un'IA è sovradeterminata.

Ci sono molti modi noti in cui le intelligenze generali acquisiscono obiettivi strani e contorti, e strani e contorti modi di aggiustare e riflettere sugli obiettivi, come vediamo negli esseri umani.

Ci aspettiamo quindi che in un'IA sorgano molte complicazioni sconosciute e inedite. Non ci troveremo di fronte agli stessi identici tipi di problemi che sono sorti per gli esseri umani; le IA saranno strane in modo diverso.

La riflessione rende il problema molte volte più difficile e complesso.

Questo ci porta al capitolo 5 e al prossimo argomento che affronteremo: quale potrebbe essere la conseguenza della creazione di IA potenti con obiettivi strani e imprevedibili?

Psicosi indotta dall'IA

→