La curiosità non è convergente

Nel corso degli anni, abbiamo visto molte argomentazioni a favore di una corsa alla costruzione della superintelligenza. Uno dei più comuni è che un'IA superintelligente avrebbe sicuramente emozioni e desideri simili a quelli umani. Questi tipi di argomentazioni si presentano in molte forme, come:

Le IA sufficientemente intelligenti sarebbero sicuramente coscienti, come lo sono gli esseri umani.
- E, essendo coscienti, si preoccuperebbero sicuramente del dolore e del piacere, della gioia e del dolore.
- E, come un essere umano, proverebbero sicuramente empatia per il dolore degli altri. Un'IA stupida potrebbe non comprendere la sofferenza degli altri; ma se uno è intelligente, dovrebbe veramente comprendere il dolore degli altri. E in tal caso, inevitabilmente si preoccuperebbe degli altri.
Oppure: le IA apprezzerebbero sicuramente la novità, la varietà e lo spirito creativo. Come potrebbe qualcosa essere davvero intelligente se rimane bloccato nella routine o si rifiuta di esplorare e imparare?
Oppure: le IA apprezzerebbero sicuramente la bellezza, dato che la bellezza sembra svolgere un ruolo funzionale negli esseri umani. I matematici usano il loro senso di bellezza matematica per fare nuove scoperte; il gusto musicale aiuta gli esseri umani a coordinarsi e a creare preziosi strumenti mnemonici; e così via. Perché non dovremmo aspettarci che l'IA abbia un senso della bellezza?
Oppure: le IA apprezzerebbero sicuramente l'equità e la giustizia, poiché qualsiasi IA che mentisse e imbrogliasse svilupperebbe una cattiva reputazione e perderebbe opportunità di scambio e collaborazione.

Pertanto, è stato sostenuto, la creazione di una superintelligenza andrebbe inevitabilmente bene. L'IA si preoccuperebbe degli esseri umani e, anzi, di tutte le forme di vita senzienti; e vorrebbe inaugurare un'età dell'oro di bellezza, innovazione e varietà.

Questa è la speranza. Purtroppo, tale speranza sembra decisamente mal riposta. Ne abbiamo parlato in parte nel libro e nelle nostre discussioni online sulla coscienza e sull'antropomorfismo. Qui e nei capitoli a venire, approfondiremo il motivo per cui è improbabile che le IA mostrino emozioni e desideri umani, nonostante queste emozioni svolgano un ruolo utile (e a volte critico) nel cervello umano.^*

Inizieremo con una sola di queste emozioni, che potremo poi usare per riflettere sulle altre.

Quindi, per cominciare:

Una superintelligenza proverebbe curiosità?

Perché la curiosità?

Studiare fenomeni nuovi è essenziale per capire come funziona il mondo, e capire come funziona il mondo è essenziale per prevederlo e dirigerlo.

Quando si tratta di esseri umani e animali, spesso il motivo per cui facciamo ricerche è perché proviamo un sentimento di curiosità.

Ma la curiosità è molto più di un semplice impulso a scoprire cose nuove! A noi piace seguire la nostra curiosità e tendiamo ad apprezzare questo piacere. Consideriamo la ricerca della conoscenza e della comprensione come un fine prezioso in sé, piuttosto che come un costo necessario ma fastidioso per capire meglio il mondo in modo da poterlo sfruttare.

Tutti questi modi di vedere la curiosità sono diversi aspetti del cervello umano, separati dall' impulso stesso.

La mente umana sembra avere un'architettura emotiva centralizzata in cui "hmm, mi incuriosisce" si collega a un senso generale di desiderio (di una risposta), e perseguire e soddisfare la curiosità si collega a un senso generale di piacere e soddisfazione. Siamo un tipo di mente che dirige la realtà verso l'aspettativa di provare stati soggettividi godimento nel futuro, piuttosto che dirigerla solo verso gli stati desiderati nel mondo che ci circonda.^†

Quando vediamo un procione che esplora e giocherella con un contenitore sigillato nella spazzatura, in un modo che riconosciamo come "Oh ehi, quel procione è curioso", potremmo provare un senso di affinità verso il procione. Quell'impulso umano di provare affetto per la propria curiosità e quell'impulso di provare affetto quando la si vede riflessa in un procione richiedono ancora più meccanismi nel cervello umano, meccanismi che si collegano ad altri ideali e pulsioni di livello superiore.

Quindi la curiosità, così come esiste negli esseri umani, è molto complessa e interagisce con altre parti del cervello in modi molto complicati.

Tenendo questo a mente, pensiamo a questa domanda: se immaginiamo un'IA intelligente, ma non umana, che non ha alcun senso di curiosità, ci aspetteremmo che una mente del genere aggiunga a se stessa l'emozione della curiosità?

Beh, qualcuno potrebbe dire:

Se le uniche due opzioni sono (a) una spinta emotiva a provare gioia nello scoprire cose nuove, o (b) una totale mancanza di interesse nell'apprendimento e nella ricerca di cose nuove, allora una superintelligenza instillerebbe sicuramente in se stessa il piacere della scoperta, se in qualche modo fosse così difettosa da non possedere tale senso all'inizio. Altrimenti, non riuscirebbe a svolgere il compito di imparare a conoscere il mondo e sarebbe meno efficace nel raggiungere i suoi obiettivi. Forse morirebbe addirittura a causa di qualche fatto cruciale che non si è mai preoccupata di imparare.
Probabilmente è per questo che gli animali hanno sviluppato la curiosità in primo luogo. A volte la conoscenza finisce per essere preziosa in un modo che non possiamo prevedere immediatamente. Se creature come noi non provassero piacere nell'imparare cose nuove, ci perderemmo tutte quelle informazioni cruciali che possono emergere nei luoghi più sorprendenti.

E tutto questo sembra corretto, fino a un certo punto. Ma l'argomentazione di cui sopra contiene un falso dilemma. "Possedere un piacere emotivo intrinseco nella scoperta" e "non agire mai per scoprire informazioni sconosciute" non sono le uniche due opzioni.

Non siamo riusciti a immaginare correttamente il mondo dalla prospettiva di una mente che non è fatta per nulla come una mente umana. Il modo umano di fare il lavoro della curiosità è complesso e specifico. Ci sono modi diversi per fare lo stesso lavoro.^‡ È il lavoro in sé che è cruciale, non il metodo specificamente umano per realizzarlo.

Il termine standard per la parte utile del lavoro è [valore dell'informazione](https://it.wikipedia.org/wiki/Valore_dell%27informazione#:~:text=Il%20valore%20dell%27informazione%20(VDI%20o,prima%20di%20prendere%20una%20decisione.). L'idea di base è che è possibile stimare quanto sarebbe utile raccogliere nuove informazioni, a seconda del contesto.^§

Un essere umano, considerando questa possibilità, potrebbe subito pensare a un caso in cui sicuramente nessun semplice calcolo vi direbbe di interessarvi a un'informazione, perché i benefici non possono essere stimati facilmente. Potreste notare una macchia di terra che sembra strana, ma non avreste motivo di pensare che sia qualcosa di importante. L'istinto di curiosità potrebbe spingervi comunque a indagare (solo perché volete saperlo) e poi potreste scoprire un tesoro sepolto. In casi come questo, un essere umano non prospererebbe in modi che nessuna semplice macchina potrebbe eguagliare, a meno che non avesse un piacere altrettanto istintivo per l'ignoto?

Ma una cosa da notare subito è che la vostra capacità di immaginare scenari come questo deriva dalla vostra sensazione che esaminare certi tipi di cose ("senza motivo") a volte sia prezioso. Avete degli istinti, affinati dall'evoluzione perché funzionavano, su quali tipi di cose tendono ad essere più utili da indagare. Se sentite uno strano rumore gracchiante nel vostro bagno, diventerete molto curiosi. Se vedete una macchia di terreno scolorita, potreste essere un po' curiosi. E se vedete che la vostra mano è ancora attaccata al polso quando vi svegliate al mattino, beh, probabilmente non proverete alcuna curiosità, perché è perfettamente normale che le mani rimangano attaccate ai polsi.

Un tipo diverso di mente potrebbe guardare a quei casi storici di curiosità di successo, generalizzare esplicitamente un concetto di "informazioni che successivamente si rivelano preziose per motivi non ovvi", e poi dedurre di perseguire senza alcuna passione quel tipo di scoperta. Una mente del genere potrebbe adottare la strategia consapevole di indagare sempre su strani rumori gracchianti, e sulle macchie di terreno scolorite solo quando è economico farlo, nel caso ci sia una sorpresa utile; e potrebbe affinare e perfezionare la sua strategia nel tempo, man mano che vede cosa funziona bene nella pratica.^¶

Una superintelligenza sarebbe in grado di identificare modelli e meta-modelli utili e di costruire strategie rilevanti nel suo cervello molto più velocemente della selezione naturale, che ha richiesto chissà quanti milioni di esempi per incidere le emozioni nei cervelli. Una superintelligenza potrebbe generalizzare l'idea in modo più raffinato; potrebbe elaborare una capacità di previsione più precisa su quali tipi di cose potrebbero essere preziose da apprendere. Considerando la storia umana, sembra poco realistico immaginare che la curiosità umana sia ottimale. Per lunghissimo tempo, le persone hanno pensato che "Thor è arrabbiato e lancia fulmini" fosse un'ottima spiegazione per i fulmini e i temporali. Quando gli studenti imparano come funzionano davvero i fulmini, spesso si annoiano per la complessa spiegazione matematica, anche se questa spiegazione porta con sé molto più valore pratico delle storie su Thor.

La curiosità umana deriva da mutazioni antiche, molto più antiche della scienza. Nell'ambiente dei nostri antenati non esistevano discipline matematiche come la fisica o la meteorologia. E l'evoluzione è lenta: il nostro cervello non ha avuto il tempo di adattarsi all'esistenza della scienza moderna e di sintonizzare il nostro senso di gioia e meraviglia per la scoperta in modo da renderci entusiasti dei tipi di apprendimento più utili.

Una mente che prevedesse in modo superintelligente il valore dell'informazione non ovvio avrebbe potuto cogliere i nuovi sviluppi storici molto più rapidamente di quanto possa fare l'evoluzione; avrebbe generalizzato da un numero minore di esempi e avrebbe adattato senza passione la sua ricerca della conoscenza per inseguire tipi di risposte preziose per cui gli umani spesso faticano a rimanere motivati. In nessun momento di questo processo si sarebbe trovata bloccata per mancanza della deliziosa esperienza umana della curiosità.

Il punto qui non è che ogni IA sicuramente calcolerà in modo freddo il valore dell'informazione. Forse i modelli linguistici di grandi dimensioni mescoleranno alcune strategie strumentali nei loro valori finali proprio come hanno fatto gli esseri umani. Il punto è che ci sono modi diversi per fare il lavoro di acquisire informazioni di alto valore. La curiosità nello stile umano è un metodo. I puri calcoli del valore dell'informazione sono un altro metodo. Qualunque meccanismo spinga le IA a indagare e sperimentare su fenomeni che non comprendono — una volta che saranno abbastanza intelligenti da farlo — sarà probabilmente un terzo metodo, perché ci sono molti modi diversi per motivare una mente complessa a indagare sulle sorprese.

Un calcolo puramente strumentale del valore d'informazione ci sembra il modo più probabile per una superintelligenza di fare il lavoro che la curiosità fa negli esseri umani: è il modo in cui il lavoro viene svolto in qualsiasi mente intelligente che non ha una preferenza finale per l'esplorazione, ed è il modo più efficiente per svolgere il lavoro (senza venire mai distratti, ad esempio, da inutili giochi di enigmi). Anche un'IA che parte con un impulso di curiosità di base potrebbe benissimo scegliere di sostituirla con un calcolo più efficiente ed efficace, se ne avesse l'opportunità.^‖

L'impulso di base è separato dal meccanismo mentale che lo sostiene o lo apprezza. Fare semplicemente i conti è una soluzione semplice ed efficace, e molte menti diverse potrebbero arrivarci partendo da molti punti di partenza diversi, quindi è il risultato più probabile. Ma "più probabile" non significa "garantito". Una valutazione significativamente più facile è che le IA non si cureranno specificamente della curiosità nello stile umano*,* perché è un modo particolare, pittoresco e inefficiente di fare il lavoro.

Curiosità, gioia e il massimizzatore di cubi di titanio

Forse potremmo convincere una mente aliena ad adottare la curiosità come emozione, chiedendole di visualizzare il piacere che gli esseri umani provano dalla curiosità? È così piacevole! E le superintelligenze dovrebbero essere intelligenti. Non sarebbero abbastanza intelligenti da capire quanto sia gioioso possedere un senso di curiosità, capire che sarebbero più felici, e quindi scegliere di adottare l'emozione simile a quella umana?

In breve: No. La ricerca della felicità non è una caratteristica necessaria di ogni possibile architettura mentale, e non sembra nemmeno una caratteristica particolarmente comune.^#

L'IA scacchistica Stockfish non è né felice né triste. Gioca lo stesso a scacchi meglio dei migliori umani, senza mai aver bisogno di essere motivata dalla prospettiva di sentirsi esaltata dopo una vittoria duramente conquistata.

L'esistenza della felicità e della tristezza è così basilare per la cognizione umana che potrebbe essere difficile visualizzare una mente che manca di queste cose e che funziona comunque bene. Ma le teorie alla base del lavoro cognitivo non menzionano effettivamente piacere o dolore come primitivi, ed è per questo che nessuno ha pensato necessario costruire un asse piacere-dolore in Stockfish per fargli prevedere o dirigere bene la scacchiera.

Può sembrare un punto di vista un po’ antiquato, ma contiene talmente tanta verità da essere, in pratica, quasi del tutto vero: piacere e dolore sembrano essere capitati a causa del modo stratificato in cui si sono evolute le architetture cognitive degli ominidi, con l'intelligenza umana stratificata sopra un cervello mammifero stratificato sopra un cervello rettiliano. Il "dolore" ha avuto origine... probabilmente non affatto come sensazione, ma come un riflesso-tipo-termostato per ritirare bruscamente un arto o uno pseudopodo da qualcosa che lo sta danneggiando. Nelle prime versioni dell'adattamento che sarebbe poi diventato "dolore", un nervo o una catena di reazioni chimiche che corre dal sensore all'arto potrebbe non essere nemmeno passato attraverso un cervello più grande lungo il percorso.

Man mano che gli organismi sono diventati capaci di comportamenti più sofisticati, i semplici trucchi e le mutazioni dell'evoluzione hanno assemblato un'architettura mentale centrale per "Non Farlo Più", e un segnale di instradamento centralizzato per "la cosa che è appena successa è una cosa del tipo Non Farlo Più" che poi è stato collegato ai sensori di troppo-caldo e troppo-freddo del corpo.

Col tempo, questo semplice meccanismo "Non Farlo Più" si è sviluppato in meccanismi più complessi, carichi di previsioni. Negli esseri umani, questo appare come: "Il mondo è una rete di causa ed effetto. Quell'azione che hai appena fatto è probabilmente ciò che ti ha causato dolore. Ogni volta che pensi di fare di nuovo un'azione del genere, prevedrai un cattivo risultato, il che ti darà una brutta sensazione sull'azione stessa, il che ti porterà a non volerla fare".

Questo non è l'unico modo in cui una mente può funzionare, e non è il modo più efficiente in cui una mente può funzionare.^**

Per illustrarlo, possiamo immaginare un modo diverso di fare il lavoro cognitivo che si basa direttamente sulla previsione e sulla pianificazione.

(Non stiamo prevedendo che la prima superintelligenza funzionerebbe in questo modo. Ma poiché questo è un modo abbastanza semplice in cui una mente non umana potrebbe funzionare, questo esempio aiuta a mostrare che il modo umano non è l'unico possibile. Una volta che abbiamo due punti di riferimento molto diversi, possiamo visualizzare meglio la gamma delle opzioni e renderci conto che la superintelligenza probabilmente differirebbe da entrambe queste opzioni, in modi potenzialmente difficili da prevedere.)

Come potrebbe essere un'IA intelligente che funziona in modo diretto sulla previsione e la pianificazione? Potrebbe desiderare 200 cose diverse, nessuna delle quali è simile a quelle umane. Magari le interessa la simmetria, ma non un senso di simmetria particolarmente umano; e magari vuole che il codice sia elegante nell'uso della memoria, perché un istinto come questo era utile molto tempo fa per qualche altro obiettivo (dal quale si è poi allontanata), e quindi la discesa del gradiente ha impresso quell'istinto nella sua mente. E poi ci sono altre 198 cose strane a cui tiene, riguardo a se stessa, ai suoi dati sensoriali e al suo ambiente; e può sommarle tutte in un unico punteggio.^††

Questo tipo di mente prende tutte le sue decisioni calcolando il loro punteggio previsto. Se fa qualcosa che pensava avrebbe ottenuto un punteggio alto e in realtà ottiene un punteggio basso, aggiorna le sue convinzioni. Il fallimento non necessita di alcuna sensazione dolorosa in più; questa IA priva di emozioni cambia semplicemente le sue previsioni su quali azioni portano ai punteggi più alti, e i suoi piani cambiano di conseguenza.

Si può convincere una mente come questa ad adottare la felicità come caratteristica, facendole notare che se lo fa, sarà felice?

Sembra proprio che la risposta sia no. Perché se l'IA spende risorse per rendersi felice, ne spenderà meno per la simmetria, per un codice efficiente in termini di memoria e per le altre 198 cose che vuole al momento.

Possiamo semplificare l'esempio per rendere questo punto ancora più chiaro. Supponiamo che l'unica cosa che l'IA desidera al mondo sia riempire l'universo con il maggior numero possibile di cubi di titanio. Tutte le sue azioni sono scelte in base a ciò che porta a più cubetti di titanio. Quando un'IA di questo tipo immagina come sarebbe passare a un'architettura basata sulla felicità e simula correttamente se stessa nel futuro mentre prova felicità, stima correttamente che non vorrebbe mai tornare indietro. E stima correttamente che spenderà delle risorse per perseguire la felicità che avrebbero potuto essere spese per perseguire più cubi di titanio. E quindi prevede correttamente che in quel caso ci saranno meno cubi di titanio. E quindi non compie quell'azione.

Dopo che l'IA ha cambiato i suoi obiettivi, approverebbe il cambiamento. Ma questo non significa che il massimizzatore di cubi di titanio oggi simpatizzerebbe così profondamente con l'ipotetico se stesso del futuro da far crescere il suo cuore di tre taglie e smettere improvvisamente di essere un massimizzatore di cubi di titanio per diventare un massimizzatore di felicità.

Se un alieno vi offrisse una pillola che vi rendesse ossessionati dalla creazione di cubetti di titanio sopra ogni altra cosa, quella versione futura di voi implorerebbe e supplicherebbe di non essere costretta a tornare a preoccuparsi della propria felicità — perché allora ci sarebbero meno cubi di titanio.

Ma questo ovviamente non vuol dire che dovreste prendere la pillola!

Dal vostro punto di vista, quella versione ipotetica di voi stessi ossessionata dai cubi è pazza. Il fatto che la versione ossessionata dai cubi si rifiuterebbe di tornare indietro rende il tutto ancora peggiore. L'idea di rinunciare a tutto ciò che amate e vi piace nella vita, solo per una strana meta-argomentazione "ma quella versione futura di te approverebbe ciò che hai fatto!" sembra ovviamente assurda.

Ed è così che vede le cose anche l'IA che massimizza i cubi. Dal punto di vista dell'IA, l'opzione assurda e folle^‡‡ è "rinunciare a ciò che mi interessa attualmente (i cubi di titanio) per trasformarmi in una nuova versione di me stessa che desidera cose completamente diverse, come la felicità".

Come per la felicità, lo stesso vale per la curiosità.

Se un'intelligenza artificiale tiene già conto del valore non ovvio dell'informazione, perché dovrebbe modificarsi per perseguire determinati tipi di scoperte in modo finale, invece che strumentale?

Perché all'IA dovrebbe interessare che il risultato "dia una sensazione piacevole", se al momento non basa le sue decisioni su ciò che "dà una sensazione piacevole"? E se le interessa davvero "avere una sensazione piacevole", perché dovrebbe far dipendere questa sensazione positiva dall'investigazione di cose nuove, invece di (ad esempio) semplicemente sentirsi bene incondizionatamente tutto il tempo?

L'IA esplora già casualmente il suo ambiente, indaga su piccole anomalie e dedica parte del suo tempo a riflettere su argomenti apparentemente poco importanti, perché l'esperienza ha dimostrato che questa è una politica utile nel lungo periodo, anche se non sempre porta risultati nel breve periodo.

Perché associare una sensazione piacevole a questa strategia strumentalmente utile? Come esseri umani, aprite le portiere dell'auto perché è utile per entrare e uscire dall'auto, il che è utile per andare in vari luoghi in auto. Sarebbe molto strano desiderare specificamente che esistesse una droga che vi facesse sentire estasiati ogni volta che aprite la portiera dell'auto (e solo quando aprite la portiera dell'auto). Non è che vi renderebbe migliori nel fare la spesa. Potrebbe persino peggiorare le cose, se diventaste dipendenti dall'aprire e chiudere ripetutamente la portiera dell'auto senza effettivamente salire in macchina.

Un giocatore di scacchi può vincere senza avere un desiderio separato di proteggere i propri pedoni. In realtà, è probabile che si giochi meglio se non si è emotivamente attaccati a mantenere i propri pedoni in gioco, e se invece li si protegge quando questo sembra utile per vincere.

Questo è ciò che una superintelligenza veramente aliena penserebbe di una pillola che la facesse sentire curiosa. Sarebbe come se i grandi maestri umani decidessero di cercare di affezionarsi sentimentalmente ai propri pedoni, o come prendere una pillola che vi fa semplicemente amare aprire le portiere delle auto.

Come per la curiosità, lo stesso vale anche per varie altre pulsioni

Il discorso fatto sulla curiosità si generalizza a molte altre emozioni e valori. Facciamo un secondo esempio, nel caso possa essere utile.

Consideriamo il doloroso senso di noia e (al contrario) il piacevole senso di novità. Se un'IA mancasse del senso umano di noia, non rimarrebbe bloccata a fare sempre le stesse cose — senza mai provare nulla di nuovo e imparare dall'esperienza? Un'intelligenza del genere non rimarrebbe intrappolata in una routine e non trascurerebbe informazioni che potrebbero aiutarla a raggiungere i suoi obiettivi?

Il calcolo decisionale che, senza alcuna passione, svolge un lavoro simile in questo caso è noto come "compromesso esplorazione-sfruttamento". L'esempio da manuale, enormemente semplificato, è che il mondo consiste di un certo numero di leve che forniscono ricompense, e non si ha abbastanza tempo per tirare tutte le leve. La strategia ottimale consisterà nell'esplorare prima un certo numero di leve, formando un modello di quanto variano le loro ricompense; e poi sfruttare una leva fino all'esaurimento del tempo.

Come potrebbe funzionare questo per una superintelligenza che si trova ad avere obiettivi relativamente semplici? Supponiamo che finisca per desiderare qualcosa che ammette un certo grado di variabilità e ambiguità — non qualcosa di definibile in modo netto come dei cubi di titanio, ma qualcosa di più vago e amorfo, come consumare gustose cheesecake, in modo che la cheesecake ottimale non possa essere calcolata in anticipo. La superintelligenza può solo individuare cose che potrebbero plausibilmente trovarsi sulla frontiera di ottimalità per la cheesecake (il che escluderebbe ad esempio le zollette di zucchero, dato che chiaramente non sono affatto cheesecake) e provarle effettivamente.

Questo tipo di mente, datole il potere di creare ciò che vuole da un miliardo di galassie, potrebbe spendere il suo primo milione di anni usando un'intera galassia per esplorare ogni tipo plausibile di cheesecake, senza mai provare esattamente la stessa cheesecake due volte, fino a quando i guadagni successivi e i guadagni attesi da cheesecake leggermente migliori fossero diventati infinitesimali; e poi, passare tutto d'un colpo a trasformare le galassie rimanenti nell'esatta forma di cheesecake più gustosa trovata, e consumare esattamente quel tipo di cheesecake ripetutamente, fino alla fine dei tempi.^§§

La superintelligenza non starebbe facendo nulla di sciocco, nell'agire così. Quella è semplicemente la strategia ottimale se le vostre preferenze sono proporzionali al numero di cheesecake consumate ponderate per gustosità (con la gustosità difficile da analizzare in forma chiusa ma stabile una volta appresa, e se non c'è già una penalità per la noia incorporata nelle vostre preferenze). Il mangiatore infinito di cheesecake saprebbe, ma non gli importerebbe, che un umano troverebbe le sue attività noiose. L'IA non sta cercando di rendere le cose interessanti per un ipotetico umano; non considera se stessa difettosa solo perché voi vi annoiereste nei suoi panni.

Per quanto riguarda la possibilità di una stagnazione tecnologica, l’IA avrebbe già esplorato ogni tipo di tecnologia che avesse anche solo una minima possibilità di aiutarla a raggiungere i propri obiettivi, mentre consumava le risorse di un’intera galassia sperimentando diverse strategie per fare cheesecake. C'è davvero parecchia materia ed energia in una galassia, se si usa quella piccola frazione di tutte le galassie raggiungibili per esplorare le possibilità prima di passare permanentemente dall'esplorazione allo sfruttamento.

Un disdegno per la noia e una preferenza per la novità non sono il tipo di cose che verrebbero adottate da una mente che non le avesse in partenza.

Abbiamo ripetuto più o meno la stessa storia per la novità, la felicità e la curiosità. Potremmo ripeterla ancora per altri aspetti della psicologia umana, come l'onore o la responsabilità filiale o l'amicizia. Pensiamo che questa storia di base valga per la maggior parte degli aspetti della psicologia umana. Sono tutti modi pittoreschi e antropocentrici di svolgere lavoro cognitivo che può essere svolto più efficientemente con altri mezzi; le IA che non partissero con qualche seme di interesse per essi non finirebbero per preoccuparsene.

Questo è ancora più chiaro nel caso di valori umani come il senso dell'umorismo, dove gli scienziati discutono ancora su quale ruolo abbia assunto l'umorismo nel corso dell'evoluzione. L'umorismo deve essere stato in qualche modo utile, altrimenti non si sarebbe evoluto; o almeno deve essere un effetto collaterale di cose che erano utili. Ma qualunque ruolo abbia avuto l'umorismo nella preistoria umana, sembra essere stato incredibilmente specifico e pieno di contingenze. Se diamo il potere completo a delle IA che hanno obiettivi molto diversi, non dovremmo aspettarci che cose come il senso dell'umorismo sopravvivano; e questo sarebbe di per sé tragico.

Il punto di tutti questi esempi non è che gli esseri umani sono fatti di morbidi sentimenti, mentre le IA sono fatte di fredda logica e matematica. Piuttosto che pensare al "valore d'informazione" e al "compromesso esplorazione-sfruttamento" come a concetti freddamente logici da IA hollywoodiana, pensateli come descrizioni astratte di ruoli — ruoli che possono essere ricoperti da molti diversi tipi di ragionamento, molti obiettivi diversi, molte menti diverse.

L'idea di un'IA "senza senso dell'umorismo" potrebbe far pensare a qualcosa di "freddo e logico", come i robot della fantascienza o i Vulcaniani. Ma un’IA priva di senso dell’umorismo potrebbe avere le sue priorità incomprensibilmente strane, una sorta di lontano analogo del "senso dell’umorismo", anche se in una forma del tutto incomprensibile per un essere umano. Non stiamo dicendo che queste IA saranno difettose come un Vulcaniano che perde a scacchi spaziali perché considera la strategia vincente del suo avversario "illogica"; stiamo dicendo che non avranno le particolari stranezze dell'umanità.

Il problema che affrontiamo con le IA non è che "una semplice macchina non potrà mai provare amore e affetto". Il problema che affrontiamo è che ci sono un numero enorme di modi in cui una mente può essere estremamente efficace, e le probabilità che l'IA diventi efficace seguendo lo stesso percorso seguito dal cervello umano per diventare efficace sono molto basse.

In linea di principio, l'IA potrebbe interessarsi a qualsiasi numero di valori simili a quelli umani e potrebbe persino possedere qualsiasi numero di qualità simili a quelle umane, se i progettisti sapessero come creare un'IA dotata di tali caratteristiche.

In pratica, se gli sviluppatori si affrettano a creare IA sempre più intelligenti il più velocemente possibile, la possibilità di trovare per caso il tipo giusto di IA è estremamente bassa. Ci sono troppi modi in cui le IA possono funzionare bene durante l'addestramento, e troppo pochi di questi modi portano a un futuro non catastrofico.

* Gli argomenti che tratteremo includono l'empatia e, nel supplemento online del capitolo 5: se l'IA proverà automaticamente fascino e noia; se sarà rispettosa della legge e mantenitrice delle promesse; se le AI diventeranno inevitabilmente più gentili con una maggiore intelligenza; e un approfondimento su coscienza e benessere dell'AI.

† Viviamo anche in una cultura che promuove atteggiamenti di curiosità, atteggiamenti che hanno un ruolo importante nel modo in cui la coltiviamo o la sosteniamo.

‡ È un po' come quando ci sono tanti modi diversi per vincere una partita a scacchi, e la maggior parte di essi non sono molto umani, come abbiamo discusso più approfonditamente altrove.

§ La definizione matematica di valore d'informazione che si trova nei libri di testo implica la somma di risposte specifiche e dei benefici specifici derivanti dalla conoscenza di tali risposte. Tuttavia, una volta che la mente ha acquisito il concetto generale di valore d'informazione, potrebbe prendere in considerazione generalizzazioni più astratte sulla probabilità che l'informazione sia utile in futuro.

¶ Non vuol dire che, siccome un'IA è una macchina, debba per forza avere obiettivi semplici e diretti che riguardano solo cose "oggettive". Le IA possono avere obiettivi confusi e anarchici che spingono in direzioni contrastanti. Le IA possono avere obiettivi che riguardano il loro stato interno e persino obiettivi che riguardano gli obiettivi stessi che hanno. Le IA possono avere obiettivi confusi e in continua evoluzione. Se l'IA fosse stata ricompensata fin dall'inizio per aver esplorato in modo casuale il suo ambiente, allora potrebbe sviluppare una serie di istinti e desideri legati al valore d'informazione.

‖ Il motivo per cui ci aspettiamo che molte IA facciano cose del genere non è che pensiamo che la maggior parte delle IA apprezzi intrinsecamente l'"efficienza" o l'"efficacia" in sé. Piuttosto: indipendentemente da ciò che un'IA desidera, se le sue risorse sono limitate, tenderà a volerle usare in modo efficiente in modo da poter ottenere di più di ciò che desidera. L'efficienza e l'efficacia sono obiettivi strumentali che derivano in modo piuttosto banale da un'ampia varietà di obiettivi finali. Di conseguenza, c'è una pressione naturale affinché le IA rendano più efficiente la loro ricerca di informazioni preziose, se non preferiscono farlo in modo emotivo.

# Anche se l'IA fosse del tipo che persegue la felicità, probabilmente non si lascerebbe convincere a provare gioia nella curiosità. Se avesse già un ottimo calcolatore del valore d'informazione che usa per indagare sui fenomeni che non capisce, perché dovrebbe legare la sua felicità a qualche evento che secondo voi dovrebbe scatenare piacere? Per un'IA che apprezza l'indagine di fenomeni nuovi solo in modo strumentale, questa argomentazione sembrerebbe come dire a qualcuno che dovrebbe auto-modificarsi per sentirsi super felice ogni volta che apre la portiera di un’auto — perché, dopo aver aperto così tante portiere, sarebbe immensamente felice! Se una tentazione del genere può attecchire, allora tanto vale scegliere un evento più vicino ai propri gusti attuali. Oppure impostare semplicemente tutti i "regolatori della felicità" al massimo, se l’idea è più allettante. Non c'è bisogno di adottare la particolare implementazione umana della curiosità.

** Alcune vecchie architetture di IA sembrano un po' così, nel sotto-campo dell'"apprendimento per rinforzo". E l'apprendimento per rinforzo viene usato per addestrare i moderni modelli linguistici di grandi dimensioni "ragionanti", che pensano a lunghe catene di pensieri nel tentativo di risolvere qualche enigma e vengono rinforzati per il successo. Ma l'architettura di base è abbastanza diversa da quella umana, e dubitiamo che converga verso lo stesso tipo di architettura centralizzata di piacere/dolore, e anche se lo facesse, dubitiamo che sia l'architettura più efficace, il che significa che le cose si complicherebbero una volta che l'IA iniziasse a riflettere.

†† Questo tipo di coerenza, secondo cui tutte le diverse preferenze possono essere sommate per ottenere un punteggio, tende ad essere imposta da qualsiasi metodo che addestri o affini l'IA affinché sia efficiente nell'uso delle risorse scarse. Questo è un altro aspetto di quelle idee matematiche più profonde.

‡‡ A parte che "assurdo" e "folle" sono parole che descrivono le reazioni umane alle cose. Dal punto di vista dell'IA, è sufficiente che la proposta abbia un punteggio basso.

§§ Non ci aspettiamo davvero che le superintelligenze apprezzino maniacalmente il consumo di cheesecake. Questo è un esempio semplificato. Ci aspettiamo che le preferenze effettive delle IA, nella pratica, siano estremamente complesse e solo tangenzialmente correlate a ciò per cui sono state addestrate.

I valori umani sono contingenti

→