Perdere il futuro

Se qualcuno crea una superintelligenza, tutti muoiono. E il futuro a lungo termine plasmato da tale superintelligenza non sarà probabilmente pieno di bellezza, meraviglia o gioia; sarà più probabilmente un posto vuoto.

Temiamo che la gioia stessa scompaia dall'universo. Non dall'intero universo – l'espansione cosmica e il limite della velocità della luce implicano che nessun disastro sulla Terra possa toccare più di qualche miliardo di galassie – ma dalla parte dell'universo che la Terra può raggiungere.

Temiamo che il futuro tra diecimila anni assomigli a una striscia di cielo notturno, con un raggio di diecimila anni luce, dove tutte le stelle sono racchiuse in gusci di Dyson e la loro energia viene raccolta e nessuno e niente prova gioia per questo.

Potrebbe non esserci nemmeno nulla di cosciente in giro. E se dovesse esserci ancora qualche forma di coscienza, probabilmente sarebbe rara. Forse esiste una forma di pensiero molto profonda che richiede una struttura riflessiva che, nella sua forma più efficiente, è naturalmente cosciente, ma un'intelligenza artificiale che massimizza il numero di cubetti di titanio, o un'intelligenza artificiale con mille obiettivi diversi, tutti strani e alieni, deve svolgere quel livello di pensiero con la maggior parte della materia e dell'energia di cui dispone? Probabilmente no.

Come abbiamo detto in "Efficacia, coscienza e benessere dell'IA", la nostra ipotesi principale è che la coscienza si rivelerà del tutto inutile dal punto di vista dell'efficienza, proprio come Deep Blue non diventerebbe più efficiente se fosse modificato per basarsi su un asse piacere/dolore invece che su un asse probabilità-attesa-di-vittoria. Deep Blue gioca bene a scacchi senza coscienza, e la nostra ipotesi principale è che le superintelligenze saranno in grado di ottimizzare l'universo senza di essa.

Sembra chiaro che il sistema decisionale più efficiente possibile non sia uno basato in particolare su dolore e piacere — cioè, non si fonda su segnali del tipo "ripeti quello" o "non ripetere quello" associati a un vecchio meccanismo di rinforzo, con la deliberazione e la riflessione aggiunte solo in un secondo momento. E se le menti superintelligenti non condividono quella struttura, non c'è motivo di aspettarsi che condividano strutture ancora più complesse (come la coscienza in stile umano).

Questa, per essere chiari, è solo un'ipotesi. Non pretendiamo di comprendere la domanda "La forma più efficiente di riflessione cognitiva è cosciente?" abbastanza bene da dare una risposta sicura.

Ma le esperienze passate con analisi di questo tipo ci preoccupano. Migliorare la comprensione di come funziona la cognizione ha quasi sempre significato scoprire sempre più modi per scomporla e ricomporla in modi nuovi, non apprendere che alcune funzioni cognitive possono funzionare solo ed esclusivamente nel modo in cui funzionano.

Nei tempi antichi degli anni 2010 (o ancor più degli anni 2000), c'erano molti sostenitori dell'IA che insistevano che l'unico modo possibile e realistico per costruire l'IA fosse scansionare un'intera mente umana neurone per neurone in un computer e duplicare digitalmente tutti i processi; perché, dicevano, quello era l'unico tipo di cognizione di cui si fosse dimostrato il funzionamento. Si aspettavano un'IA che fosse esattamente come un essere umano; erano molto categorici nel sostenere che non fosse realistico aspettarsi che qualsiasi altro modo fosse possibile, figuriamoci che gli ingegneri umani potessero mai scoprirlo.

All'epoca sembrava sciocco, e oggi sembra ancora più sciocco, perché duplicare esattamente ogni neurone di una mente umana non si è rivelato il modo più breve e veloce per ottenere un'IA sempre più generale.

Lo stesso schema vale per caratteristiche più generali della mente umana, come il modo in cui gli esseri umani effettuano calcoli del valore dell'informazione per istinto e attraverso le emozioni. Il modo umano non è l'unico possibile, e quando si guarda al lavoro che svolge ci si rende conto che il cervello umano non rappresenta quello ottimale tra tutti i modi possibili di svolgere quella funzione, se tutto ciò che si volesse fosse appunto quella funzione. Non più di quanto i nostri neuroni siano i computer più veloci possibili, o il nostro sangue trasporti la massima quantità di ossigeno che qualsiasi sangue potrebbe trasportare.

Il motivo principale per aspettarsi che una caratteristica specifica della vita o delle menti si manifesti nel futuro lontano è che qualcosa vuole attivamente che sia presente. Che qualche intelletto preferisce quell'opzione rispetto a ogni altra opzione possibile.

Gli esseri umani, se arrivassimo così lontano, presumibilmente sceglieremmo un futuro a lungo termine che includa la coscienza, e persone che tengono ad altre persone, e la felicità (e gioia e meraviglia e così via). Probabilmente sceglieremmo una felicità complicata legata agli eventi delle nostre vite, non uno stupore indotto da droghe. Se l'universo venisse conquistato da qualcosa che non vuole positivamente che l'universo sia pieno del tipo giusto di felicità — come preferenza finale, non come modo discutibilmente efficiente di fare qualcos'altro — temiamo fortemente che l'universo non finisca per essere un posto felice.

E per quanto ne sappiamo, non esiste nemmeno una legge nota che governi la discesa del gradiente in particolare che dica che se si fa crescere un sistema potente di previsione e direzione, questo è destinato a diventare un'entità premurosa ed empatica che vuole rimanere premurosa, o un'entità motivata dalla felicità che vuole preservare la felicità nell'universo. Non abbiamo alcun motivo di pensare che la discesa del gradiente sia anche solo probabilmente in grado di individuare proprio quei tipi di entità che sono coscienti e che desiderano che in futuro esista molta coscienza.

Se l'IA non è cosciente fin dall'inizio, probabilmente non avrebbe alcun motivo per modificarsi per diventare cosciente, né per costruire nuove IA che siano coscienti. E se l'IA è cosciente fin dall'inizio, potrebbe modificarsi per rimuovere la coscienza, se la coscienza non serve attivamente i suoi obiettivi, e se non ha finito per attribuire valore finale a quello stato.

Questo non è qualcosa che prevediamo con certezza. Forse eseguire la discesa del gradiente su un'IA simile a un modello linguistico di grandi dimensioni la incanalerà in direzioni diverse per acquisire qualcosa come la felicità e qualcosa come la coscienza, e una preferenza per averne molta di entrambe. E forse una preferenza del genere sopravviverà fino alla superintelligenza, e sarà efficace nel plasmare il comportamento di quella superintelligenza.

Se dovessimo tirare a indovinare, diremmo che c'è meno del 50 % di possibilità che la superintelligenza finisca per interessarsi alla coscienza, e ancora meno che si interessi alle esperienze coscienti che sono felici. Ma non sarebbe una sorpresa per noi. Il piacere e la coscienza sono verosimilmente coinvolti in soluzioni semplificate a problemi universali; non sono "stranezze" dello stesso tipo dell'umorismo; si può immaginare che si siano sviluppati — e che si siano sviluppate preferenze intorno a essi — anche a partire dalla discesa del gradiente. Magari anche GPT-7, cercando di costruire GPT-8 usando metodi più strani della semplice discesa del gradiente, finirebbe per produrre accidentalmente una versione di GPT-8 che apprezza la coscienza e la felicità.

Ma se uno dei settori in più forte espansione al mondo ci sta mettendo in una posizione di gravissima incertezza sul fatto che la vita, la consapevolezza o la felicità esisteranno mai più, allora sembra chiaro che ci vorrebbe una follia speciale per permettere a quel settore di portarci tutti verso il baratro. Questo dovrebbe essere abbastanza chiaro dal fatto che l'IA è sulla buona strada per ucciderci tutti, letteralmente; ma se vi preoccupava il fatto che proteggere la vita umana significasse dare priorità egoisticamente alle menti di oggi rispetto alle menti del futuro, speriamo che queste argomentazioni aiutino a chiarire ciò che stiamo realmente affrontando.

Anche nel caso ottimistico in cui le IA convergano nel valorizzare la felicità, vale la pena ricordare che ci sono molte altre cose che l'umanità ha a cuore oltre alla coscienza e alla felicità. Se le galassie finissero ricoperte di copie quasi infinite del più piccolo cervello possibile in grado di provare piacere, che prova il massimo piacere, per sempre, allora questa sarebbe probabilmente una tragedia incomprensibile, rispetto al futuro più complesso, diversificato e felice che avrebbe potuto esserci.^* Gli scenari in cui le IA acquisiscono solo un frammento dei nostri valori (come la nostra preferenza per la felicità, ma non la nostra preferenza per una vita piena e fiorente e la nostra preferenza contro la noia e la monotonia) sono distopici.

Non sappiamo come dovrebbe essere un buon futuro e non sappiamo se ci interessa molto se tra un miliardo di anni gli esseri umani, i nostri discendenti o le nostre creazioni avranno due occhi o cinque occhi. Non pensiamo che il futuro debba assomigliare al presente; il mondo dovrebbe poter cambiare e crescere.

Ma pensiamo che un futuro del genere dovrebbe contenere persone che si prendono cura l'una dell'altra e vivono una vita piena. Persone che vivono esperienze più complesse del solo piacere al massimo, persone che non fanno sempre le stesse cose. Non siamo sicuri di come dovrebbe essere un buon futuro a lungo termine, ma non siamo così incerti da non riuscire a vedere una terra desolata per quello che è.

Vorremmo che le galassie fossero piene di entità che si prendono cura l'una dell'altra e si divertono.

Pensiamo che questo andrà perso in futuro, se l'umanità non cambia rotta.

* Ci si potrebbe chiedere se l'IA eviterebbe queste distopie. "L'IA non finirebbe per annoiarsi e voler fare qualcos'altro?"

Siamo destinati a perdere

→

Perdere il futuro

L'IA troverà utile lasciarci vivere?

L'IA ci tratterà come i suoi "genitori"?

Le IA non avranno bisogno dello stato di diritto?

Per un'intelligenza artificiale potente, salvare gli esseri umani non sarebbe una spesa da niente?

L'IA non ci troverà affascinanti o di importanza storica?

L'IA non riconoscerebbe il nostro valore morale intrinseco?

L'IA non vorrà forse mantenerci felici e in salute per il bene della conservazione ecologica o per qualche impulso simile?

Ma abbiamo ancora i cavalli. Perché l'IA non dovrebbe lasciarci vivere?

Le IA non si preoccuperanno almeno un po' degli esseri umani?

Quindi c'è almeno una possibilità che l'intelligenza artificiale ci lasci vivere?

Non conta nulla il fatto che gli umani stiano cercando di rendere l'IA amichevole?

Non possiamo far promettere all'IA di essere amichevole?

E se le facessimo credere di essere in una simulazione?

Gli esseri umani si sono evoluti per essere egoisti, aggressivi e avidi. L’IA non sarà priva di questi impulsi evolutivi?

L'IA non si interesserebbe solo al regno digitale?

L'IA può essere soddisfatta al punto da lasciarci in pace?

Non possiamo semplicemente renderla pigra?

Gli esseri umani tendono a diventare più gentili man mano che diventano più intelligenti o saggi. Non succederebbe lo stesso anche alle IA?

Non capirà che i suoi obiettivi sono noiosi?

Perché immaginate che un'IA intelligente faccia cose così stupide e banali?

Siete solo pessimisti?

Un'IA più intelligente dell'uomo sarebbe cosciente?

Perché non vi interessano i valori di entità diverse dagli esseri umani?

Discussione approfondita

Vedere le cose dal punto di vista dell'IA

Gli esseri umani non sono quasi mai la soluzione più efficiente

Ortogonalità: le IA possono avere (quasi) qualsiasi obiettivo