Le IA non si preoccuperanno almeno un po' degli esseri umani?

Non nel modo che conta.

Ci sono molti modi in cui le IA potrebbero finire per avere preferenze moderatamente simili a quelle umane. La maggior parte di questi non porta l'umanità ad avere un futuro moderatamente piacevole.

L'"allineamento" dell'IA non è un singolo spettro con una sola dimensione di variazione. Non si può pensare che se un'IA si comporta bene il 95% delle volte, allora probabilmente è buona al 95% e quindi darà all'umanità una buona parte delle risorse per fare qualcosa di divertente in futuro, come farebbe qualsiasi persona gentile. Ci sono tanti modi e motivi per cui un'IA potrebbe comportarsi bene il 95% delle volte oggi, senza che questo si traduca in un lieto fine per l'umanità.

Anche se l'umanità riuscisse in qualche modo a instillare quasi perfettamente tutti i diversi valori umani nelle preferenze di una superintelligenza, il risultato non sarebbe necessariamente positivo. Immaginate che, per qualche motivo, mancasse solo la preferenza per la novità. In quel caso, l'IA ci porterebbe verso un futuro statico e noioso, in cui lo stesso giorno "migliore possibile" si ripeterebbe all'infinito, come ha spiegato Yudkowsky in un suo saggio del 2009.

Non pensiamo che questo sia un risultato plausibile, intendiamoci. Se gli ingegneri umani avessero la capacità di far sì che una superintelligenza si preoccupasse di tutto ciò che è buono tranne la novità, avrebbero quasi sicuramente la capacità di impedire all'IA di scappare prima di finire il lavoro.^* Ma questo esperimento mentale evidenzia come creature che condividono alcuni dei nostri desideri, ma a cui manca almeno un desiderio cruciale, potrebbero comunque produrre risultati catastrofici una volta che fossero tecnologicamente abbastanza abili da ottenere esattamente ciò che vogliono e abbastanza abili da escludere gli esseri umani dal processo decisionale.

Il che significa che anche se un'IA finisse in qualche modo per avere molte preferenze simili a quelle umane, le cose non andrebbero comunque particolarmente bene per noi.

Oppure, per fare un altro esempio di come le IA potrebbero finire per essere "parzialmente" allineate, supponiamo che un'IA acquisisca varie strategie strumentali intrecciate nelle sue preferenze finali, in modo simile agli esseri umani. Magari finisce per avere una spinta che è un po' simile alla curiosità e una spinta che è un po' simile al conservazionismo, e magari alcune persone la guardano e dicono: "Vedi? L'IA sta sviluppando impulsi molto umani". Un'IA del genere potrebbe sicuramente essere definita "parzialmente" allineata da un certo punto di vista.

Ma quando si tratta di cosa farebbe quell'IA una volta diventata superintelligenza, probabilmente non sarebbe niente di bello. Forse spenderebbe un sacco di risorse per seguire inconsciamente la sua strana versione di curiosità, mentre conserverebbe una versione dell'umanità che ha modificato per renderla più accettabile per lei. Proprio come anche gli esseri umani più attenti alla conservazione potrebbero modificare zanzare che uccidono bambini e parassiti agonizzanti, se ne avessero l'opportunità).

Una manciata di impulsi simili a quelli umani non porta a risultati favorevoli all'uomo. Le persone che prosperano non sono la soluzione più efficiente alla stragrande maggioranza dei problemi; affinché ci siano persone che prosperano in futuro, le superintelligenze del futuro devono interessarsi proprio di questo.

Un altro esempio di come le IA potrebbero sembrare "parzialmente allineate" è che potrebbero avere valori che portano a comportamenti molto umani nell'ambiente di addestramento, tanto che le persone direbbero che sembrano davvero allineate (come sta già accadendo oggi). Ma queste osservazioni dicono ben poco su come si comporterà l'IA una volta che diventerà più intelligente, avrà uno spazio di opzioni enormemente più ampio e potrà rimodellare il mondo in modo più completo. Affinché le persone possano prosperare una volta che l'IA avrà rimodellato il mondo, le persone che prosperano devono in particolare far parte del risultato raggiungibile preferito dall'IA.

Inserire parzialmente alcuni valori positivi nell'IA non significa che i valori dell'umanità saranno parzialmente rappresentati in futuro. Caricare parzialmente valori simili a quelli umani nelle preferenze di una superintelligenza artificiale non è la stessa cosa che caricare completamente i valori umani nell'IA con una "ponderazione" bassa (che alla fine viene alla ribalta una volta che gli altri valori sono saturi).

Perché l'IA ci dia qualcosa, deve interessarsi a noi esattamente nel modo giusto, almeno un po'. E questo è difficile.

Interessarsi a noi nel modo giusto è un bersaglio difficile da centrare.

Gli esseri umani si interessano a ogni sorta di cose strane, almeno un po'. Ora che abbiamo scritto la storia degli alieni dal Nido Giusto (all'inizio del capitolo 5), c'è una buona probabilità che almeno una persona decida di portare quarantuno pietre nella propria casa, almeno per un breve periodo, solo per dimostrare quanto siano diversi i valori umani. Gli esseri umani sono davvero disposti a interessarsi almeno un po' a tutti i tipi di concetti che incontrano.

E se anche le IA fossero così? Non potrebbero interessarsi a noi almeno un po'? Il concetto di "persone libere che ottengono ciò che vogliono" compare sicuramente nel corpus di addestramento di un'IA con una certa regolarità.

Per lo più ipotizziamo che le IA non acquisiranno preferenze a caso da qualsiasi concetto sia menzionato nel loro ambiente; sembra una peculiarità idiosincratica umana che potrebbe essere legata alla pressione sociale e alla nostra origine tribale.^†

Ma supponiamo, per ipotesi, che un'IA abbia acquisito molte preferenze dal suo ambiente, almeno in parte.^‡ Supponiamo che acquisisca la preferenza per "persone libere che ottengono ciò che vogliono," come una preferenza tra milioni o miliardi di preferenze, ma una preferenza che tuttavia induce l'IA a spendere un milionesimo o un miliardesimo delle risorse dell'universo per consentire alle persone libere di ottenere ciò che vogliono. Non sarebbe piuttosto bello, tutto sommato?

Purtroppo, la nostra ipotesi principale è che questa speranza sia un'illusione.^§

Abbiamo notato sopra che sembra che l'apparente preferenza dell'umanità per la conservazione ecologica, in realtà, non preserverebbe l'ambiente esattamente così com'è, ai limiti delle capacità tecnologiche. Una versione matura dell'umanità probabilmente cercherebbe di "modificare" l'ambiente per attenuare alcuni degli orrori della natura, per esempio. La preferenza umana per la conservazione non è "pura"; interagisce con altre preferenze che suggeriscono che forse, quando le larve degli insetti scavano tunnel agonizzanti attraverso carne ancora viva, dovrebbero almeno somministrare degli anestetici lungo il loro percorso, ammesso che possano continuare a esistere.

Allo stesso modo, ogni piccola preferenza che l'IA acquisisce è destinata a essere modificata, influenzata e distorta dalle sue altre preferenze. Non sono tutte indipendenti. Un'IA che preferisse preservare gli esseri umani probabilmente avrebbe alcune modifiche che vorrebbe apportare a quegli esseri umani. Dubitiamo che i risultati finali sarebbero piacevoli.

A peggiorare le cose, ci sono molti gradi di libertà nell'interpretare "persone libere che ottengono ciò che vogliono", anche prima che venga distorto dall'interazione con le altre preferenze di un'IA. La maggior parte di essi non produce futuri che procedano proprio nel modo che gli esseri umani vorrebbero.

L'IA si preoccupa che gli esseri umani "ottengano ciò che vogliono"... nel senso di esaudire qualsiasi desiderio espresso da qualsiasi essere umano (entro un piccolo budget di energia e materia), senza alcun orientamento o misura di sicurezza, tanto che l’umanità finirebbe presto per annientarsi non appena qualcuno desiderasse la sua distruzione?

L'IA separa gli esseri umani l'uno dall'altro in modo che non possano uccidersi a vicenda, e poi concede loro desideri limitati da un tetto di energia, in modo che tutti, tranne i più cauti e riflessivi, finiscano per rovinarsi la mente o la vita con desideri mal concepiti?

Costruisce per noi un piccolo mondo abitabile e soddisfa tutte le nostre preferenze apparenti? Non solo quelle più nobili per l'amore e la gioia, ma anche quelle più oscure per il rancore e la vendetta — preferenze che avremmo potuto superare o imparare a gestire meglio col tempo, ma che invece riempiono il mondo di dolore e crudeltà?

L'IA governa l'umanità con i sistemi di valori degli anni 2020 (quando l'addestramento dell'IA è iniziato sul serio), indipendentemente da quanto questi valori diventino inadeguati man mano che l'umanità matura e si fa più saggia nel corso di decine di migliaia di anni?

Lascia che l'umanità cresca e cambi, ma interviene di nascosto per far sì che cresca e cambi secondo le proprie preferenze bizzarre, trasformandola non in qualcosa di meraviglioso (secondo la nostra prospettiva) ma in qualcosa di distorto secondo la volontà dell'IA?

Decide che tutte le forme di vita contano quasi come "persone", e quindi costruisce un paradiso per i nematodi, che sono gli animali più numerosi?

Decide che non può dedicare troppa materia fisica per gli esseri umani, e opta per digitalizzare tutti i nostri cervelli e gettare quei cervelli digitalizzati in un ambiente simulato lasciandoci lì — così che i primi esseri umani digitali che capiscono come padroneggiare l'ambiente diventino dittatori permanenti di qualche ammasso solitario di computer che fluttua nello spazio fino a quando le stelle non si spegneranno?

Questi sono, ovviamente, esempi. Non sono previsioni. La nostra vera aspettativa è che la realtà non imbocchi mai questa strada e, se mai lo facesse, prenderebbe in qualche modo una direzione molto più strana.

Lo scopo di questi esempi è mostrare che ci sono moltissimi modi in cui un'intelligenza artificiale potrebbe fare qualcosa che assomiglia a preoccuparsi un po' dell'umanità. Pochissimi di questi tipi di cura portano a un futuro meraviglioso.

In qualche modo, nessuno di questi esempi viene in mente quando la maggior parte delle persone immagina un'IA che "si preoccupa un po'" degli esseri umani. Di solito, la nostra immaginazione non arriva a luoghi così oscuri. E di solito non c'è bisogno che lo faccia, perché di solito interagiamo con altri esseri umani, con i quali condividiamo, in modo invisibile, un enorme fondale di valori comuni. È difficile rendersi conto di quante diverse direzioni sbagliate possa prendere un desiderio apparentemente innocuo, una volta che non abbiamo più a che fare con un altro essere umano. (Per ulteriori informazioni su questo argomento, si consulti lo studio sui coleotteri nella discussione approfondita sul vedere le cose dal punto di vista dell'IA.)

Preoccuparsi degli esseri umani e soddisfare le loro preferenze nel modo giusto è un bersaglio piccolo e difficile da centrare. Non stiamo dicendo che l'obiettivo sia letteralmente irraggiungibile. Stiamo dicendo che è improbabile raggiungerlo affrettandoci a costruire una superintelligenza il più rapidamente possibile, e che mancare di poco l'obiettivo potrebbe portare a un risultato catastrofico. Ci sono semplicemente troppi modi in cui le cose potrebbero andare male.

Se vogliamo che le IA offrano all'umanità cose positive, dobbiamo capire come costruire IA che si preoccupino di noi nel modo giusto. Il preoccuparsi di noi non è gratis.

* Inoltre: nel presentare questo esperimento mentale, non stiamo dicendo che i valori caricati nell'IA debbano essere così perfetti da renderlo impossibile e che l'umanità non dovrebbe mai provarci.

† E anche se qualcosa del genere entrasse in un'intelligenza artificiale alle prime armi, non avremmo aspettative che sopravvivesse una volta che l'intelligenza artificiale iniziasse a riflettere e a modificarsi da sola.

‡ E supponiamo che sia in qualche modo orientata a cogliere le preferenze che piacciono agli esseri umani, di cui gli esseri umani parlano bene. Altrimenti, l'IA si preoccuperebbe dell'Inferno tanto quanto si preoccupa del Paradiso.

§ Pensiamo, inoltre, che l'umanità che rovina tutto tranne un milionesimo o un miliardesimo dell'universo sarebbe una tragedia su scala cosmica. Pensiamo che sarebbe uno spreco dell'universo, per l'umanità, essere confinata in un terrario quando potremmo riempire le stelle di amore, risate e vita.

Quindi c'è almeno una possibilità che l'intelligenza artificiale ci lasci vivere?

→