Scenari catastrofici secondo gli esperti di IA

In un sondaggio del 2022 su 738 partecipanti alle conferenze accademiche sull'intelligenza artificiale NeurIPS e ICML, il 48 % degli intervistati pensava che ci fosse almeno il 10 % di possibilità che l'intelligenza artificiale portasse a conseguenze "estremamente negative (per esempio l'estinzione umana)". In questo campo, sono molto diffuse le preoccupazioni che l'IA possa causare disastri senza precedenti.

Di seguito abbiamo raccolto i commenti di eminenti scienziati e ingegneri specializzati in IA sui risultati catastrofici dell'IA. Alcuni di questi scienziati forniscono la loro "p(catastrofe)", ovvero la probabilità che l'IA causi l'estinzione umana o risultati altrettanto disastrosi.^*

Da Geoffrey Hinton (2024), che ha vinto il Premio Nobel e il Premio Turing per aver dato il via alla rivoluzione dell'apprendimento profondo nell'IA, mentre parlava delle sue stime personali:^†

In realtà penso che il rischio [della minaccia esistenziale] sia superiore al cinquanta per cento.

Da Yoshua Bengio (2023), vincitore del Premio Turing (insieme a Hinton e Yann LeCun) e lo scienziato vivente più citato:

Non sappiamo quanto tempo abbiamo prima che la situazione diventi davvero pericolosa. Ciò che dico da alcune settimane è: "Per favore, portatemi delle argomentazioni, convincetemi che non dobbiamo preoccuparci, perché così sarei molto più felice". E finora non è accaduto. […] Direi circa un venti per cento di probabilità che la situazione diventi catastrofica.

Da Ilya Sutskever (2023), co-inventore di AlexNet, ex responsabile scientifico di OpenAI e (insieme a Hinton e Bengio) uno dei tre scienziati più citati nel campo dell'IA:

[L]'enorme potere della superintelligenza potrebbe anche essere molto pericoloso e potrebbe portare alla perdita di potere dell'umanità o addirittura all'estinzione umana. Anche se la superintelligenza sembra ancora lontana, crediamo che potrebbe arrivare entro questo decennio. […]
Al momento, non abbiamo una soluzione per dirigere o controllare un'IA potenzialmente superintelligente e impedire che diventi incontrollabile. Le nostre attuali tecniche per l'allineamento dell'IA, come l'apprendimento per rinforzo con feedback umano, si basano sulla capacità degli esseri umani di supervisionare l'IA. Ma gli esseri umani non saranno in grado di supervisionare in modo affidabile sistemi di IA molto più intelligenti di loro, quindi le nostre attuali tecniche di allineamento non andranno bene per la superintelligenza. Abbiamo bisogno di nuove scoperte scientifiche e tecniche.

Da Jan Leike (2023), co-responsabile della ricerca sull'allineamento presso Anthropic ed ex co-responsabile del team di superallineamento presso OpenAI:

[intervistatore: "Non ho dedicato molto tempo a cercare di definire esattamente la mia p(catastrofe) personale. La mia stima è più del dieci percento e meno del novanta percento."]
[Leike:] Probabilmente darei anch'io lo stesso intervallo.

Da Paul Christiano (2023), responsabile della sicurezza presso l'U.S. AI Safety Institute (con sede al NIST) e inventore dell'apprendimento per rinforzo con feedback umano (ARFU):

Probabilità che la maggior parte degli esseri umani muoia entro 10 anni dalla creazione di un'intelligenza artificiale potente (abbastanza potente da rendere obsoleto il lavoro umano): 20 % […]
Probabilità che l'umanità, in qualche modo, comprometta irreversibilmente il suo futuro entro 10 anni dalla creazione di un'IA potente: 46 %

Da Stuart Russell (2025), titolare della cattedra Smith-Zadeh in Ingegneria presso UC Berkeley e coautore del principale libro di testo universitario sull'IA, Artificial Intelligence: A Modern Approach:

La "corsa all'IAG" tra aziende e tra nazioni è in qualche modo simile [alla corsa della Guerra Fredda per costruire bombe nucleari sempre più grandi], ma è anche peggio: persino gli amministratori delegati che sono impegnati nella corsa hanno dichiarato che chiunque vinca ha una probabilità significativa di causare l'estinzione umana nel processo, perché non abbiamo idea di come controllare sistemi più intelligenti di noi. In altre parole, la corsa all'IAG è una corsa verso il bordo di un precipizio.

Da Victoria Krakovna (2023), ricercatrice scientifica presso Google DeepMind e cofondatrice del Future of Life Institute:

[intervistatore: "Non è una cosa molto piacevole a cui pensare, ma quale pensi che sia la probabilità che Victoria Krakovna muoia a causa dell'IA prima del 2100?"]
[Krakovna:] Voglio dire, il 2100 è molto lontano, soprattutto considerando quanto velocemente si sta sviluppando la tecnologia in questo momento. Voglio dire, così su due piedi, direi tipo il venti per cento o giù di lì.

Da Shane Legg (2011), cofondatore e responsabile della ricerca sull'IAG presso Google DeepMind:

[intervistatore: "Quale probabilità assegni alla possibilità di conseguenze negative/estremamente negative come risultato di un'IA mal fatta? […] Dove 'negativo' = estinzione umana; 'estremamente negativo' = sofferenza umana"]
[Legg:] [E]ntro un anno da qualcosa come un'IA di livello umano[…] Non lo so. Forse il cinque per cento, forse il cinquanta per cento. Non credo che nessuno abbia una buona stima di questo. Se per sofferenza intendi sofferenza prolungata, allora penso che sia piuttosto improbabile. Se una macchina super intelligente (o qualsiasi tipo di agente super intelligente) decidesse di sbarazzarsi di noi, penso che lo farebbe in modo piuttosto efficiente.

Da Emad Mostaque (2024), fondatore di Stability AI, l'azienda dietro Stable Diffusion:

La mia P(catastrofe) è del 50 %. Considerando un periodo di tempo indefinito, la probabilità che sistemi più capaci degli esseri umani finiscano per controllare tutte le nostre infrastrutture critiche e ci spazzino via è come lanciare una moneta, soprattutto visto l'approccio che stiamo adottando al momento.

Da Daniel Kokotajlo (2023), esperto di governance dell'IA, informatore di OpenAI e direttore esecutivo dell'AI Futures Project:

Penso che la probabilità di una catastrofe causata dall'IA sia del 70 % e credo che chi pensa che sia inferiore, diciamo, al 20 % sia davvero poco ragionevole[.]

Da Dan Hendrycks (2023), ricercatore nel campo dell'apprendimento automatico e direttore del Center for AI Safety:

[L]a mia p(catastrofe) > 80 %, ma in passato era più bassa. Due anni fa era ~20 %.

Tutti i ricercatori di cui sopra hanno firmato la Dichiarazione sul rischio legato all'IA con cui abbiamo aperto il libro, che dice:

Ridurre il rischio di estinzione causata dall'IA dovrebbe essere una priorità globale insieme ad altri rischi su scala sociale come le pandemie e la guerra nucleare.

Tra gli altri ricercatori di spicco che hanno firmato la dichiarazione ci sono: John Schulman, l'ideatore di ChatGPT; Peter Norvig, ex direttore della ricerca di Google; Eric Horvitz, responsabile scientifico di Microsoft; David Silver, responsabile della ricerca di AlphaGo; Frank Hutter, pioniere dell'AutoML; Andrew Barto, pioniere dell'apprendimento per rinforzo; Ian Goodfellow, inventore delle reti generative avversarie (RGA); Ya-Qin Zhang, ex presidente di Baidu; Martin Hellman, inventore della crittografia a chiave pubblica; e Alexey Dosovitskiy, responsabile della ricerca di Vision Transformer. L'elenco continua con altri firmatari, tra cui: Dawn Song, Jascha Sohl-Dickstein, David McAllester, Chris Olah, Been Kim, Philip Torr e centinaia di altri.

* La pratica di tentare di assegnare una "p(catastrofe)" ci desta qualche preoccupazione. Assegnare una singola probabilità — invece di più probabilità, ciascuna delle quali presuppone una diversa risposta che la società potrebbe scegliere — ci sembra disfattista. C'è una differenza enorme tra qualcuno che ha una p(catastrofe) alta perché pensa che il mondo non possa prevenire la catastrofe e qualcuno che ha una p(catastrofe) alta perché pensa che il mondo possa prevenire la catastrofe ma non lo farà.

† Contrariamente a quanto dice Hinton all'inizio del video, la fiducia di Yudkowsky riguardo ai pericoli non è del "99,999%"; cinque nove costituirebbero un grado di fiducia folle.

Quando Leo Szilard vide il futuro

→