Ortogonalità: le IA possono avere (quasi) qualsiasi obiettivo

Un dialogo sui nidi giusti, continua

Nel capitolo 5 abbiamo raccontato la storia degli alieni dal Nido Giusto, che si sono evoluti fino a trovare profondamente e intuitivamente "giusto" avere un numero primo di pietre nel proprio nido. Potremmo immaginare che una parte della loro conversazione prosegua così:

Ragazzo-uccello: Torniamo al punto in cui hai detto che ti sorprenderebbe trovare alieni con il senso dell'umorismo. Non sarai mica una di quelle persone che crede che i nidi in cui viviamo siano solo arbitrari?
Ragazza-uccello: Per niente. "Tredici è giusto, nove è sbagliato" è una risposta vera a una domanda che siamo nati per porci, per nostra natura. Un alieno che si orienta verso cose diverse non è in disaccordo con noi sul fatto che tredici sia giusto. È come incontrare un alieno che non ha il senso dell'umorismo — l'esistenza di un alieno del genere non dimostra che nessuna battuta sia divertente! Mostra solo che il "divertente" è qualcosa che sta in noi.
Ragazzo-uccello: In noi? Non so, mi piace pensare di avere un buon senso dell'umorismo. Adesso dirai che tutti i sensi dell'umorismo sono ugualmente validi!
Ragazza-uccello: Potresti benissimo avere un senso dell'umorismo migliore della maggior parte delle persone! Ma "avere un senso dell'umorismo migliore" è anche una cosa che sta in noi. Non è che esista un metro cosmico che possiamo usare per giudicare quanto sia raffinato il gusto estetico di qualcuno. La misura dell'umorismo avviene nelle nostre menti. Siamo noi che conteniamo il metro di misura; siamo noi a dargli importanza.
Ragazzo-uccello: Quindi, siamo di nuovo al punto che è arbitrario.
Ragazza-uccello: No! Beh, forse? Dipende da cosa intendi per "arbitrario".
Ragazzo-uccello: Eh?
Ragazza-uccello: Tipo, so che ami i semi per uccelli alla vaniglia, giusto? E non è che puoi usare la pura forza di volontà per trovare buoni invece i semi per uccelli al cioccolato. Quindi non è "arbitrario", non è una cosa che puoi cambiare su due piedi.
Ragazzo-uccello: Okay, certo...
Ragazza-uccello: Non c'è una risposta oggettiva al di fuori di te su cosa sia più buono tra vaniglia e cioccolato, ma non è nemmeno una scelta che spetti a te fare. È semplicemente come sei fatto. Le tue preferenze non dipendono da te, e non sono nemmeno oggettivamente convincenti per ogni mente possibile. Se incontrassi un alieno, non potresti convincerlo con la pura logica a trovare delizioso il mangime per uccelli alla vaniglia, e non potresti nemmeno convincerlo ad avere il senso dell'umorismo.
Ragazzo-uccello: Posso provarci!!
Ragazza-uccello: Farò il tifo per te. Ma, okay, forse un modo migliore di dirlo è: esiste una proprietà complicata che possiedono le barzellette buone, e i nostri cervelli calcolano se gli enunciati hanno quella proprietà che chiamiamo "umorismo". E ci divertiamo quando un enunciato ha quella proprietà. L'esistenza o assenza di quella proprietà è un fatto oggettivo riguardo a un enunciato (come calcolato da te, in un dato contesto). Un alieno potrebbe imparare a fare il calcolo. Ma la parte in cui troviamo quella proprietà piacevole non è oggettiva. È meno come una previsione e più come... beh, non è esattamente una direzione, ma è un fatto ulteriore su di noi, che non sarebbe vero per la maggior parte degli alieni, perché il nostro umorismo si è evoluto lungo uno strano percorso evolutivo contorto, che di solito non capita. Non è che gli alieni sbaglino su quali barzellette siano divertenti; è che i loro cervelli semplicemente non calcolano proprio l'umorismo, non più di quanto giudichino le loro abitazioni in base al fatto che il numero di pietre al loro interno sia giusto. Semplicemente non gliene importa.
Ragazzo-uccello: Caspita, è una visione deprimente dell'universo. Alieni che non ridono mai, che hanno nidi con pietre completamente sbagliate... sicuramente se gli alieni ci pensassero abbastanza, si renderebbero conto di quanto si stanno perdendo? Vivere in nidi sbagliati, non trovare divertenti le barzellette, ignorare completamente i semi per uccelli alla vaniglia. Alla fine non troverebbero un modo per correggere questi difetti e darsi un senso dell'umorismo e tutto ciò che gli manca?
Ragazza-uccello: Potrei capire che gli alieni vogliano cambiare, crescere e aggiungere nuovi obiettivi, forse. Ma perché dovrebbero scegliere proprio quei cambiamenti specifici?
Ragazzo-uccello: Perché sarebbe così economico! Quando quegli alieni fossero tecnologicamente avanzati e in grado di auto-modificarsi liberamente, probabilmente starebbero già camminando tra le stelle. Basterebbe solo una piccolissima frazione di tutte le loro risorse per mettere il numero giusto di pietre nei loro nidi! E pensa a tutti i fantastici libri di barzellette che potrebbero creare, se solo dedicassero una piccola frazione delle loro risorse a fare ricerca sull'umorismo! Non dovrebbero preoccuparsene molto, rispetto a quanto sarebbero ricchi. Sono davvero così monomaniacalmente ossessionati dalle loro priorità principali da non poter dedicare neanche un pochino a questo?
Ragazza-uccello: Non sto dicendo che si preoccuperebbero solo un po' dei nidi giusti e che si rifiuterebbero ostinatamente di investire risorse nelle loro priorità minori. Sto dicendo che questa non sarebbe affatto una loro priorità. Semplicemente, domande del genere non farebbero parte di ciò che sono. E se andassero alla ricerca di nuove proprietà da aggiungere a se stessi, ne aggiungerebbero altre diverse, che servirebbero ancora meglio ai loro strani scopi. Non sono come noi. Forse potremmo essere amici, e forse abbiamo altre cose in comune. Forse l'amore, forse l'amicizia — queste mi sembrano meno complicate e contingenti. Potrei vederle nascere in parecchie specie evolute.
Ragazzo-uccello: Beh, se non gli alieni, che dire della creatura meccanica che potrebbero accidentalmente creare? Quella ascolterà la voce della ragione?
Ragazza-uccello: Hmm. In realtà, temo che la situazione possa essere anche peggiore in quel caso. Pensando a quanto sarebbe diverso il processo di creazione di una macchina intelligente dal processo di evoluzione biologica, mi sento un po' meno ottimista che possa generare amore o amicizia, in quel caso esotico.

I buoni piloti possono dirigersi verso destinazioni diverse

Le menti di intelligenza simile non condivideranno necessariamente valori simili. Questa è un'idea nota come tesi dell'ortogonalità — l'idea che "quanto sei intelligente?" e "cosa desideri alla fin fine?" sono ortogonali (cioè, variano separatamente).

La tesi dell'ortogonalità dice che, in linea di principio, non è quasi mai molto più difficile perseguire un obiettivo per se stesso che perseguirlo per ragioni strumentali. Potreste imparare la falegnameria perché avete bisogno di costruire un tavolo, mentre il vostro vicino potrebbe impararla perché trova piacevole l'attività in sé.

Una conseguenza di questa tesi è che non tutti gli agenti sufficientemente intelligenti apprezzano la gentilezza o la verità o l'amore, semplicemente in virtù dell'essere abbastanza intelligenti da comprenderli. Non è confuso o fattualmente sbagliato per gli alieni dal Nido Giusto apprezzare numeri primi di pietre nei loro nidi. Se diventassero più intelligenti, non si renderebbero improvvisamente conto che dovrebbero preoccuparsi di cose diverse. Menti diverse possono davvero semplicemente dirigersi verso destinazioni diverse.

Naturalmente, tutto questo non dice nulla su quanto sia facile o difficile creare un'IA che persegua un obiettivo piuttosto che un altro. Qualsiasi metodo utilizzato per far crescere le IA renderà alcune preferenze più facili da instillare e altre preferenze più difficili da instillare.

(Il capitolo 4, in un certo senso, tratta di come gli unici tipi di preferenze che sono sproporzionatamente facili da instillare tramite la discesa del gradiente siano quelli complessi, strani e non intenzionali. Quindi neanche su questo fronte le cose sembrano andare bene. Ma questo punto non è correlato alla tesi dell'ortogonalità).

Il punto della tesi dell'ortogonalità è rispondere all'intuizione che sarebbe stupido per una superintelligenza artificiale perseguire cose che gli esseri umani trovano noiose o inutili, e che un'IA intelligente sceglierebbe invece di perseguire qualcos'altro. Possiamo definire "arbitrario" l'obiettivo dell'IA, ma l'IA può rispondere definendo "arbitrari" noi. Le parole scortesi non cambiano la situazione pratica.

L'argomentazione di base dietro la tesi dell'ortogonalità è questa: per ogni mente in grado di calcolare come produrre molti cubetti microscopici di titanio — che potrebbe produrre in modo molto efficiente molti cubetti in cambio di un pagamento sufficientemente elevato — c'è qualche altra mente che, semplicemente, ha quei calcoli collegati direttamente al sistema d'azione.

Immaginate una persona competente che ha disperatamente bisogno di vendere molti cubi di titanio per guadagnare abbastanza soldi per sfamare la propria famiglia. Quella persona non si fermerebbe a riflettere, rendendosi conto che i cubi di titanio sono noiosi, per poi iniziare a fare qualcos'altro — a meno che quel "qualcos'altro" non le permettesse comunque di guadagnare abbastanza soldi per sfamare la propria famiglia.

E così una mente che compie semplicemente le azioni che portano al maggior numero di cubi non deciderebbe di riflettere, rendersi conto che i cubetti sono noiosi e iniziare a fare qualcos'altro. Le sue azioni non sono collegate ai suoi calcoli su ciò che è più "divertente" o "significativo", nel modo in cui gli esseri umani si preoccupano di queste cose. Le sue azioni sono collegate ai suoi calcoli su ciò che porta al maggior numero di cubi.

Qualunque meccanismo mentale in grado di capire come fare cubi dato un motivo sufficiente potrebbe operare in un'altra mente per guidarne direttamente le azioni. Ciò significa che è possibile che le intelligenze artificiali siano animate dalla ricerca di (diciamo) cubetti di titanio, senza alcuna considerazione per la moralità.

Un'IA del genere non avrebbe bisogno di essere confusa riguardo alla bontà o alla moralità. Una volta diventata abbastanza intelligente, probabilmente sarebbe molto più brava degli esseri umani nel calcolare quale azione sia la più buona, o quale azione sia la più morale. Potrebbe superare brillantemente un esame scritto di etica. Ma non sarebbe animata da quei calcoli; le sue azioni non sarebbero una risposta alla domanda "quale di queste opzioni crea più bontà?". Le sue azioni sarebbero una risposta a una domanda diversa: "Quale di queste opzioni crea più cubetti?"^*

Una discussione più approfondita della tesi dell'ortogonalità è disponibile qui. Per una discussione su un modo specifico in cui le IA moderne stanno già mostrando una distinzione tra ciò che comprendono e ciò a cui tengono, si riveda la discussione estesa del Capitolo 4 sulla psicosi indotta dall'IA.

* Può avere senso dire a un essere umano (che ha un intero quadro di meta-preferenze che potreste condividere in modo significativo) "Penso che tu stia dando vaore alle cose sbagliate, in questo caso". Magari alcune di queste argomentazioni hanno il potere di commuovervi in un modo che non avreste mai pensato possibile. Magari vi sembra persino che ci sia una stella morale al di fuori di voi, che avete sempre seguito senza saperlo.

Convergenza strumentale

→