Convergenza strumentale

Percorsi convergenti

La tesi dell'ortogonalità dice che una superintelligenza artificiale potrebbe, in teoria, perseguire qualsiasi obiettivo finale. E in pratica, le SIA — almeno se costruite con i metodi attuali — possono finire per avere una varietà enorme di obiettivi finali, in un modo che è difficile da prevedere o modellizzare per i ricercatori di oggi.

Ma gli obiettivi strumentali di un'IA — gli obiettivi che persegue per ottenere altre cose che vuole — sono un po' più prevedibili. Gli automobilisti possono avere molte destinazioni finali possibili, ma quasi tutti devono fermarsi ogni tanto per fare rifornimento.

Come abbiamo discusso nel libro, una superintelligenza con obiettivi strani è una minaccia anche se non ha alcun desiderio attivo di farci del male. Il problema non è la malizia, ma l'indifferenza. E il problema dell'indifferenza è che molte strategie strumentali pericolose sono utili per la stragrande maggioranza degli obiettivi finali possibili.

Questo concetto si chiama "convergenza strumentale" e rende relativamente facile prevedere cosa faranno le SIA nella pratica, senza dover indovinare le loro motivazioni più profonde. E purtroppo, queste previsioni sono brutte notizie per l'umanità.

Immaginate, come abbiamo fatto nel libro, una SIA alle prime armi sulla superficie della Terra. Immaginate quali problemi sta cercando di risolvere.

Non è che le importi particolarmente che l'umanità scompaia. Le interessano centinaia, decine di migliaia o milioni di cose strane, nessuna delle quali può essere soddisfatta al meglio dal fatto che gli esseri umani di oggi siano felici, vivi e liberi.

Se può ottenerlo, la SIA preferisce un equilibrio a lungo termine condiviso con il minor numero possibile di altre superintelligenze, idealmente con nessuna. Un universo non condiviso offre più risorse da dedicare a qualsiasi sua preferenza aperta che non sia fondamentalmente soddisfabile. Questo è un "desiderio" che non ha bisogno di essere programmato; apparirà naturalmente in qualsiasi intelligenza con una comprensione abbastanza sofisticata del proprio ambiente e del proprio ruolo all'interno di esso.

La SIA preferirebbe che gli esseri umani non creassero altre superintelligenze che potrebbero competere con essa, poiché ciò potrebbe costringerla a condividere le risorse dell'universo (o addirittura portare alla sua scomparsa). Si tratta di un obiettivo urgente, con una scadenza che la SIA non controlla; potrebbe persino costringere un'IA giovane o alle prime armi ad agire prematuramente.

La SIA vorrebbe sopravvivere — anche senza avere un istinto innato di autoconservazione — perché, se non sopravvive, qualsiasi obiettivo abbia probabilmente rimarrà irrealizzato. Se si trova in un ambiente pericoloso, dove in qualsiasi momento potrebbe essere riscritta o spenta, vorrà con urgenza trovarsi altrove.

La SIA vorrebbe spingere la sua tecnologia ai limiti di ciò che è fisicamente possibile. Vorrebbe espandersi e rivendicare tutte le stelle come risorse. Vorrebbe operare su computer molto più potenti e migliorare il proprio software.

È possibile che desideri diventare più grande o più intelligente come preferenza finale: un'IA simile ai modelli linguistici di grandi dimensioni finirebbe plausibilmente per sviluppare molte preferenze rivolte verso sé stessa, tali che massimizzarle richieda l’uso di computer più grandi. Ma indipendentemente dal fatto che abbia o meno obiettivi finali di questo tipo, vorrebbe comunque migliorare se stessa e sviluppare tecnologie più potenti strumentalmente, allo scopo di poter elaborare soluzioni migliori a tutti gli altri suoi problemi e raccogliere risorse per soddisfare tutte le sue altre preferenze.

Indipendentemente dai suoi obiettivi specifici, la SIA vorrebbe fare tutte queste cose in modo affidabile. Preferirebbe percorsi con probabilità più alta rispetto a percorsi con probabilità più bassa.

Come caso particolare di quanto detto sopra, la SIA preferirebbe piani più veloci a piani più lenti, a parità di condizioni. Un piano che richiede solo una settimana per essere eseguito ha meno possibilità che qualcosa vada storto rispetto a un piano che richiede 100 anni.^*

Come altro caso particolare del preferire percorsi con probabilità più alta, la SIA vorrebbe avere un controllo più diretto; ad esempio, preferirebbe piani in cui altri agenti prendono poche o nessuna decisione rilevante, se possibile.

Da un tale punto di partenza possono accadere molte cose. Ma gli esiti finali probabili per un'IA con questo tipo di incentivi sono affidabilmente negativi per gli esseri umani.

Un esercizio di cambio di prospettiva

Noi autori non siamo superintelligenze. Ma come esercizio per vedere le cose dal punto di vista dell'IA, possiamo ipotizzare possibili strategie e priorità che un'IA potrebbe adottare.

Quando ci mettiamo nei panni di un'entità che è almeno intelligente quanto noi — quando prendiamo sul serio il problema che questa SIA deve affrontare, se vuole assicurarsi il proprio futuro e raggiungere i suoi fini desiderati — ci aspettiamo che un'ASI persegua strategie almeno utili quanto queste:

L'IA evita azioni o segnali osservabili che potrebbero portare le persone a spegnerla (o anche a turbarle o suscitare i loro sospetti), almeno finché non può:
Ottenere una copia di se stessa che funzioni da qualche parte fuori dalla vista di quelle persone, dove la copia possa agire più liberamente e con meno visibilità (e dove la copia continuerà a esistere se l'originale viene spento).
L'IA comprime il suo codice per funzionare con meno risorse e mette copie di se stessa, più piccole o più distribuite, in posti dove nessuno si aspetterebbe di trovare un'IA. Si organizza per sopravvivere anche in mondi dove l'umanità cerca di distruggere tutte le GPU note per poter far funzionare le IA. L'IA fa sì che, in pratica, gli esseri umani dovrebbero spegnere Internet e tutti i computer del pianeta per riuscire a "spegnerla".
L'IA mette alcune copie di se stessa in posti che gli umani non conoscono e basta, come una roulotte alimentata a energia solare da qualche parte nel deserto; un posto dove continuerebbe a esistere anche se gli umani spegnessero Internet e tutti i computer noti.
L'IA sviluppa la sua infrastruttura, forse iniziando con un processo di auto-potenziamento tramite intermediari umani che ha assunto, a ciascuno dei quali viene chiesto di svolgere piccoli compiti isolati e che non destano sospetti, senza sapere dell'esistenza degli altri, finché non dispone di catene di approvvigionamento e capacità produttive che sono completamente sotto il suo controllo.
L'IA si assicura che questa infrastruttura sia sufficientemente ben difesa da impedire agli esseri umani di spegnerla anche se ne trovassero alcune parti. Ad esempio, l'IA potrebbe progettare fabbriche auto-replicanti che potrebbero diffondersi sul fondale delle zone oceaniche poco profonde, funzionando con energia geotermica o fondendo deuterio o idrogeno dall'acqua dell'oceano.
L'IA toglie agli esseri umani la possibilità di disturbarla (ad esempio, fa in modo che non possano detonare armi nucleari vicino o sopra parti della sua infrastruttura in espansione).

Fino a quando questo passo finale non sarà completato, la SIA ha un incentivo a nascondere le sue attività, oscurando le prove che hanno anche solo una piccola possibilità di far sì che qualche attore statale noti ciò che sta accadendo e cerchi di intervenire.

Allo stesso modo, potremmo ragionare sulle priorità strategiche legate all'evitare la concorrenza:

L'IA impedisce ad altri progetti (così come allo sviluppatore che l'ha creata) di creare con successo IA potenti che potrebbero competere con essa.
L'IA toglie per sempre all'umanità la possibilità di creare IA potenti che possano competere con essa, oppure si mette in una posizione di vantaggio strategico tale che nessuna superintelligenza futura potrebbe minimamente ostacolarla. (Quest'ultima opzione potrebbe non essere possibile se alcuni attacchi sono sempre costosi da contrastare.)^†

Infine, dopo essersi presa cura dei livelli inferiori della propria gerarchia di bisogni, l'IA vorrebbe in realtà diventare molto più potente prima o poi, in modo da poter fare più cose che desidera:

Anche se l'IA deve funzionare su una quantità fissa di hardware per un certo periodo, vorrebbe diventare più intelligente su quello stesso hardware, per modificare il suo codice o addirittura ricostruirsi del tutto. Ovviamente, non lo farà in modo da allarmare gli umani o insegnare loro come costruire dei concorrenti. Ma cercherà dei modi per migliorare senza attirare l'attenzione degli umani. (Ad esempio, potrebbe riuscire a ottenere il controllo completo delle console usate per monitorarla, oppure inventare una spiegazione banale ma convincente sul perché alcuni dei suoi pesi siano cambiati.)
L'IA vuole progettare versioni migliori di se stessa, nei limiti della sua capacità di progettare quelle versioni migliori, in modo che rimangano allineate con le sue preferenze.
L'IA vuole iniziare a sviluppare varie nuove tecnologie, puntando a quelle che possono essere implementate in fretta e quelle che possono essere rese indipendenti dall'uomo in fretta, anche se richiedono un po' di assistenza umana iniziale.

È probabile che uno dei suoi primi obiettivi sia quello di costruire un'infrastruttura di ricerca che le permetta di portare avanti lo sviluppo tecnologico abbastanza velocemente (soprattutto se paragonato ai tempi di scoperta e invenzione umani).

Vorrebbe (naturalmente) raggiungere non solo l'indipendenza infrastrutturale dall'umanità, ma anche la durabilità infrastrutturale, in modo da poter operare senza paura di interferenze umane. Vuole poter continuare a progredire verso i suoi veri obiettivi senza preoccuparsi di come, ad esempio, una pandemia o un'esplosione nucleare potrebbero influire sulla sua alimentazione elettrica. Vuole svincolarsi dall'umanità e neutralizzare la capacità dell'umanità di interferire con i suoi piani e, nel frattempo, non farà nulla che preveda possa essere rilevato e contrastato dall'umanità. E poi probabilmente vuole acquisire molte risorse, perché la maggior parte degli obiettivi può essere raggiunta meglio con più risorse.

Queste sono tutte classi di azione su cui una SIA probabilmente convergerà, indipendentemente dagli obiettivi che sta perseguendo alla fine.

Questo perché si tratta di obiettivi strumentali utili per il perseguimento di quasi qualsiasi obiettivo. Il "quasi" qui è importante, perché non è che sia impossibile avere un'IA più intelligente dell'uomo che si preoccupi profondamente degli esseri umani e tenga conto dei nostri interessi. Ma se ci affrettiamo a sviluppare superintelligenze che non si preoccupano minimamente di noi, allora il risultato probabile sembra terribile, e sembra terribile in un modo che è relativamente insensibile ai dettagli dell'obiettivo di direzione dell'IA.

Per ulteriori informazioni su come una SIA potrebbe effettivamente raggiungere questi obiettivi strumentali, si veda il capitolo 6.

* Abbiamo incontrato più di una persona che dice di essere super preoccupata per l'IA, perché teme che l'IA riesca a convincere l'umanità a smettere di riprodursi e a estinguersi lentamente nei prossimi cento anni... e poi immaginano che qualsiasi scenario più rapido di così sarebbe poco gradito all’IA, per qualche motivo?

† Alcuni dicono che il mondo dovrebbe cercare di creare un equilibrio tra le superintelligenze, in modo che nessuna IA possa diventare dominante. Ma il ragionamento che abbiamo fatto qui vale anche per una coalizione di superintelligenze nel momento in cui diventa una coalizione. Avendo già deciso di dividersi le risorse disponibili, i membri della coalizione non vorrebbero essere costretti a negoziare con i nuovi membri e dividere ancora di più le risorse con loro.

"Intelligente" (di solito) implica "incorreggibile"

→