Non ci saranno segnali precoci che i ricercatori potranno usare per individuare i problemi?

I segnali di avvertimento non servono a niente se non si sa cosa farci.

Nelle risorse del Capitolo 2, abbiamo esaminato alcuni problemi legati all'affidarsi ai segnali di avvertimento nelle note di catena di pensiero in inglese presenti in alcuni modelli di ragionamento.

Uno dei problemi di cui parliamo è che le aziende di IA non hanno reagito in modo significativo ai segnali di avvertimento che hanno già ricevuto.

Probabilmente perché c'è una grande differenza tra avere segnali di avvertimento e avere qualcosa che si può fare al riguardo.

Nel 2009, l'uomo d'affari ed esploratore di acque profonde Stockton Rush co-fondò OceanGate, una compagnia di turismo sottomarino. OceanGate ha costruito un sottomarino per cinque persone, il Titan, che ha portato clienti benestanti a vedere il relitto del Titanic alla profondità impressionante di quattro chilometri sotto la superficie.

Una delle misure di sicurezza che OceanGate ha usato era una serie di sensori acustici ed estensimetri per misurare l'integrità dello scafo. L'hanno presentata come una risposta a chi diceva che lo scafo in fibra di carbonio avrebbe ceduto. Hanno ammesso che alla fine avrebbe potuto cedere, ma che sarebbe andato tutto bene perché lo stavano monitorando. Lo stavano controllando. Sarebbero stati in grado di vedere i segnali di avvertimento.

Nel gennaio 2018, il direttore delle operazioni marine di OceanGate, David Lochridge, ha detto ai dirigenti senior che il design del sommergibile non era sicuro, che i ripetuti cicli di pressione potevano danneggiare lo scafo e che il monitoraggio da solo non bastava quando un cedimento catastrofico poteva verificarsi in millisecondi. Lochridge ha rifiutato di autorizzare test con equipaggio fino a quando lo scafo non fosse stato sottoposto a scansione per individuare eventuali difetti.

OceanGate lo ha licenziato.

Due mesi dopo, esperti del settore e oceanografi hanno scritto a OceanGate una lettera estremamente preoccupata in cui avvertivano l'azienda che i suoi esperimenti sconsiderati potevano facilmente portare a una catastrofe.

(Si può fare un parallelo evidente con lo stato attuale della ricerca sull'intelligenza artificiale, in cui i primi avvertimenti vengono ignorati, i dipendenti preoccupati vengono licenziati in circostanze dubbie o si dimettono per la frustrazione, e gli informatori all'interno del settore scrivono lettere aperte per lanciare l'allarme.)

Il 15 luglio 2022, dopo che i passeggeri avevano riferito di aver sentito un forte boato durante la risalita, le misurazioni hanno rilevato un cambiamento permanente nei livelli di deformazione dello scafo. Col senno di poi, probabilmente era un'indicazione che lo scafo in fibra di carbonio stava per cedere.

Nessuno alla OceanGate ha riconosciuto che si trattasse di un'emergenza. Hanno effettuato qualche altra immersione profonda con il sommergibile, che è andata bene. Poi, il 18 giugno 2023, hanno effettuato un'altra immersione. Il sommergibile è imploso, uccidendo Stockton Rush e tutti gli altri a bordo.

I segnali di allarme non servono a molto se non si sa come leggerli.

I segnali di allarme non servono a molto se non si sa cosa farne.

Anche i segnali di allarme che appaiono preoccupanti a qualcuno sono sempre facili da liquidare per un ottimista con una scusa o un'altra.

Se OceanGate avesse avuto una teoria matura degli scafi in fibra di carbonio che indicasse esattamente quali misurazioni e letture fossero pericolose, avrebbe potuto prestare attenzione ai segnali di allarme. Ma stavano lavorando con una tecnologia che nessuno comprendeva davvero a quel livello, quindi le misure accurate delle variazioni dei livelli di deformazione non sono serviti a nulla.

Nel caso della superintelligenza, non abbiamo ancora una teoria abbastanza matura per sfruttare in modo efficace i segnali di avvertimento. Come cambieranno i pensieri di un'IA man mano che diventa più intelligente? Quali forze interne guidano il suo comportamento e come cambieranno questi equilibri man mano che sviluppa la capacità di creare nuove e più estreme opzioni per se stessa? Come valuta se stessa quando ci riflette, e come si modificherebbe una volta che potesse davvero riscriversi?

Se una qualsiasi di queste domande ha risposte preoccupanti, quali sono i segnali di avvertimento? Per esempio, i sistemi di IA attuali a volte possono essere indotti a cercare di uccidere i loro operatori in esperimenti controllati in laboratorio.^*

Se avessimo una teoria matura dell'intelligenza, probabilmente saremmo in grado di osservare le moderne IA e notare ogni sorta di altri segnali di avvertimento che indicano che le loro motivazioni e preferenze cambieranno in modi che non ci piacciono, una volta che diventeranno più intelligenti. Se l'umanità potesse imparare da questo problema usando tentativi ed errori — se potessimo resettare il mondo dopo averlo distrutto e riprovare qualche dozzina di volte — allora potremmo imparare a leggere i segnali. Probabilmente ci sono una miriade di indizi sottili che apparirebbero più chiari col senno di poi, come la deformazione dello scafo rilevata dal sistema di monitoraggio del sommergibile Titan.

Ma non siamo ancora a quel punto. I dirigenti aziendali dell'IA sono come Stockton Rush — gli esperti a bordo campo gridano "Quella nuova tecnologia ucciderà delle persone!" e i dirigenti aziendali rispondono "Non preoccupatevi, la sto misurando!" quando non hanno idea a) di cosa significhino le misurazioni, o b) di cosa fare se quelle misurazioni risultano preoccupanti. Solo che questa volta, l'intera specie umana è a bordo del sottomarino metaforico.

L'IA non è un campo ingegneristico maturo e preparato per questo tipo di problema.

Stockton Rush lavorava nel tipo di campo in cui, dopo l'implosione del suo sottomarino, gli esperti hanno potutoesaminare il relitto e analizzare la causa esatta del guasto.^† Il campo ingegneristico era maturo al punto che gli esperti erano in grado (e lo hanno fatto) di indovinare i problemi tecnici in anticipo, e di risolverli in modo definitivo dopo l'incidente.

Con l'IA non sarebbe lo stesso. Se domani l'umanità si autodistruggesse a causa della superintelligenza e poi, per miracolo, tornasse indietro nel tempo a una settimana prima dell'inizio del disastro, gli esperti non saprebbero ancora cosa passava nella mente dell'IA. Magari potrebbero studiare il fallimento e imparare qualcosa in più su come funziona davvero l'IA. Magari questo sarebbe un passo avanti verso la maturità nella disciplina dell'ingegneria dell'IA, verso un campo che potrebbe avere manuali di sicurezza e una descrizione dettagliata delle pressioni che influenzano un particolare tipo di mente artificiale man mano che diventa più intelligente.

Ma oggi questo campo non è ancora arrivato a quel punto. Non ci è nemmeno vicino.

L'ingegneria umana di solito matura attraverso tentativi ed errori. I sottomarini militari moderni raramente implodono, ma i primi sottomarini (compresi quelli militari) spesso si schiantavano, si allagavano o esplodevano, e questo fa parte del processo tramite il quale il campo è maturato.

L'umanità non ha il lusso di far maturare il campo dell'allineamento dell'IA in questo modo.

Questo ci porta a uno dei punti centrali che abbiamo cercato di sottolineare nel Capitolo 11: la differenza tra un campo agli albori e un campo alla maturità.

L'alchimia era un campo agli albori rispetto alla chimica matura di oggi.

Quando si sente dire che i "ricercatori sulla sicurezza" delle aziende di IA hanno presentato una mezza dozzina di piani per la sopravvivenza, si potrebbe pensare che almeno uno di essi abbia sicuramente una possibilità di funzionare.

Ma quando nel 1100 un gran numero di alchimisti proposero mezza dozzina di piani per trasformare il piombo in oro, nessuno di questi avrebbe funzionato. Se i medici che parlavano dei quattro umori avessero elaborato una serie di piani medicinali per salvarvi dalla rabbia, nessuno di questi avrebbe funzionato.

Gli esperti nel campo maturo della chimica possono capire come trasmutare piccole quantità di piombo in oro, usando le conoscenze della fisica atomica. Gli esperti nel campo maturo della medicina possono facilmente curare la rabbia se intervengono poco dopo che un paziente è stato morso. Ma chi opera in un campo immaturo non ha nessuna possibilità.

L'allineamento dell'IA è ancora in una fase immatura.

In un campo immaturo ha molte persone che dicono: "Beh, sto solo lavorando per misurarlo", perché misurare gli output è molto più facile che sviluppare la teoria di cosa costituisce un segnale di avvertimento e cosa fare se ne vedi uno. Un campo maturo avrebbe esperti che discutono delle dinamiche che governano gli aspetti interni di un'IA e di come queste possano cambiare con l'aumentare dell'intelligenza dell'IA o con il mutare del suo ambiente. Avrebbero teorie su cosa esattamente cambierà man mano che l'IA diventa un po' più intelligente, e confronterebbero teorie diverse con dati osservati specifici. Saprebbero quali parti della cognizione dell'IA devono essere monitorate e capirebbero precisamente cosa significano tutti i segnali.

Un campo ancora immaturo è pieno di persone che dicono: "Lasceremo che siano le IA a capire come fare e a risolvere il problema dell’allineamento."

Forse non potrete entrare nel merito di ogni singolo dibattito su un piano specifico e capire se abbia o meno qualche possibilità di funzionare. Ma speriamo che possiate guardare le cose da una prospettiva più ampia e capire quanto siano vaghi tutti questi "piani", e come siano bloccati nel territorio del "non preoccuparti, lo misureremo", dello "speriamo che sia facile" e del "faremo fare alle IA le parti difficili". Speriamo che, prendendo un po' di distanza, sia chiaro che questo campo non è nella fase delle descrizioni tecniche formali e precise di cosa funziona e cosa no e perché. È ancora nella fase dell'alchimia.

E questo non è un buon segno per l'umanità, in una situazione in cui non possiamo permetterci il lusso di imparare attraverso tentativi ed errori.

* Non è chiaro quanto questi segnali di avvertimento vengano dall'IA che si comporta come pensa che un'IA dovrebbe comportarsi e quanto invece siano il risultato di un ragionamento strategico. Il fatto che non riusciamo a capire quali segnali di avvertimento siano reali non è incoraggiante; significa che gli ingegneri sono molto più propensi ad andare avanti dicendo "eh, quello probabilmente non era reale". Potrebbero anche avere ragione nella maggior parte dei casi, ma la maggior parte dei casi non è sufficiente quando un solo errore può essere fatale.

† Delaminazione dovuta al ciclo di pressione. In parole povere: le sollecitazioni causate da molte immersioni hanno separato gli strati dello scafo, indebolendolo fino a farlo implodere.

Ulteriori considerazioni su alcuni dei piani che abbiamo criticato nel libro

→