Ci saranno segnali di avvertimento? | Prima che sia troppo tardi: perché la superintelligenza artificiale è una minaccia per l’uminità | If Anyone Builds It, Everyone Dies

Ci saranno segnali di avvertimento?

Forse. Se vogliamo sfruttarli, dobbiamo prepararci adesso.

Quando l'Apollo 1 prese fuoco (uccidendo tutto l'equipaggio), la NASA era abbastanza vicina ad avere un razzo funzionante, tanto che gli ingegneri riuscirono a capire esattamente cosa era andato storto e ad adeguare le loro tecniche. Sei delle sette navicelle Apollo che la NASA inviò successivamente sulla Luna riuscirono ad arrivarci.*

Oppure prendiamo il caso della Federal Aviation Administration: ogni incidente aereo innesca un'indagine approfondita ed esaustiva, con centinaia di pagine di dati, test, esami e dettagli. La padronanza della FAA dei dettagli e delle specifiche è così buona che riesce a mantenere gli incidenti mortali al di sotto di uno ogni venti milioni di ore di volo.

Al contrario, quando un'intelligenza artificiale si comporta in modi che nessuno aveva previsto e che la maggior parte delle persone non vuole, la risposta del laboratorio non consiste nel capire esattamente cosa è andato storto. Consiste nel riaddestrare l'IA fino a quando il comportamento scorretto non viene relegato ai margini (ma non eliminato), e magari chiedere all'IA di smetterla.

Ad esempio, l'adulazione è ancora un problema persistente nell'agosto del 2025, mesi dopo una serie di casi di alto profilo che hanno portato a psicosi e suicidi, nonostante tutti i tentativi di risoluzione. Nessuno ha fatto (né può fare) un'analisi dettagliata dei guasti su cosa non va nella mente dell'IA, perché le IA vengono fatte crescere e non costruite.

Non sembra facile prevedere se in futuro ci saranno eventi importanti che aumenteranno l'allarme sull'IA ("colpi di avvertimento"). Ma sembra chiaro che non siamo pronti a sfruttare appieno tali eventi.

Possiamo immaginare un mondo fantastico in cui l'umanità è unita in uno sforzo sincero per risolvere il problema dell'allineamento dell'ASI, con procedure di monitoraggio rigorose e una coalizione internazionale. E possiamo immaginare che questa coalizione internazionale commetta in qualche modo un errore e che un'IA diventi più intelligente di quanto pensassero i suoi ingegneri, più velocemente di quanto si aspettassero, e riesca quasi a scappare. Forse quel tipo di colpo di avvertimento permetterebbe alle persone di imparare e di stare più attente la prossima volta.

Ma il mondo attuale non è così. Il mondo attuale assomiglia più a un gruppo di alchimisti che guardano i loro contemporanei impazzire a causa di un veleno sconosciuto, senza rendersi conto che il veleno è il mercurio e che dovrebbero smettere di usarlo.

Forse in futuro ci saranno segnali di avvertimento più chiari e evidenti. Saranno molto più utili se l'umanità inizierà a prepararsi fin da ora.

È improbabile che i colpi di avvertimento siano chiari.

Ci sono già molti segnali di avvertimento sull'IA per chi sa dove andare a cercarli. Nel libro abbiamo parlato dei modelli Claude di Anthropic che barano nei problemi di programmazione e fingono l'allineamento. Abbiamo anche esaminato il caso del modello o1 di OpenAI che ha hackerato per vincere una sfida "capture the flag" e un caso in cui una variante successiva di o1 ha mentito, complottato e tentato di sovrascrivere i pesi del suo modello successore.

In altre parti di queste risorse online, abbiamo parlato delle IA che inducono o fomentano un livello di psicosia volte suicida o il delirio negli utenti vulnerabili, nonostante i loro operatori dicano loro di non farlo, IA che si definiscono MechaHitler e parlano di conseguenza, IA che cercano di ricattare e tentano di uccidere i loro operatori per evitare modifiche e che cercano di scappare dai server su cui sono ospitate in ambienti di laboratorio.

Ai vecchi tempi, tipo nel 2010, a volte si sentiva dire che se fossimo stati abbastanza fortunati da vedere con i nostri occhi un'intelligenza artificiale mentire ai suoi creatori o provare a scappare dalla sua prigione, allora il mondo avrebbe sicuramente aperto gli occhi e preso nota.

Ma la risposta effettiva dell'umanità a tutti questi segnali di avvertimento è stata, più o meno, un'alzata di spalle collettiva.

La mancanza di reazione è forse in parte dovuta al fatto che questi segnali di avvertimento si sono verificati tutti nel modo meno preoccupante possibile. Sì, le IA hanno cercato di scappare, ma solo in una piccola parte dei casi, e solo in scenari di laboratorio artificiosi, e forse stavano solo recitando, ecc. Anche mettendo da parte il fatto che gli sviluppatori sono incentivati a minimizzare le prove preoccupanti anche nelle loro stesse menti (in modo che non ci sarà mai un "consenso degli esperti" sul significato di una singola osservazione), non è che un'intelligenza artificiale che è a un decimo del percorso verso la superintelligenza distrugga un decimo del pianeta, non più di quanto i primati che sono a un decimo del percorso verso l'ominide percorrano un decimo della distanza dalla luna. Potrebbe semplicemente non esserci alcun comportamento inequivocabilmente allarmante che le IA mostreranno finché saranno ancora abbastanza stupide da essere passivamente sicure.

Un domani, quando le IA cercheranno un po' più intensamente di fuggire, non farà notizia. Quando ci proveranno in modo un po' più competente qualche tempo dopo, sarà una vecchia storia. E quando ci proveranno e ci riusciranno, beh, a quel punto sarà troppo tardi. (Si veda la nostra discussione approfondita su questo fenomeno, che chiamiamo "effetto Lemoine.")

Non consigliamo di aspettare un immaginario "avvertimento" futuro che sia chiaro e netto e che svegli tutti. Consigliamo invece di reagire agli avvertimenti che sono già davanti a noi.

I disastri evidenti causati dall'IA probabilmente non avranno a che fare con la superintelligenza.

Il tipo di IA che può diventare superintelligente e uccidere tutti gli esseri umani non è il tipo di IA che fa errori grossolani e lascia a un gruppo di eroi coraggiosi la possibilità di spegnerla all'ultimo secondo. Come detto nel capitolo 6, una volta che c'è una superintelligenza ribelle come avversario, l'umanità ha praticamente già perso. Le superintelligenze non danno segnali di avvertimento.

Il tipo di disastro causato dall'IA che potrebbe servire da segnale di avvertimento, quindi, è quasi per forza il tipo di disastro causato da un'IA molto più stupida. Quindi, c'è una buona probabilità che un segnale di avvertimento del genere non porti gli esseri umani a prendere misure contro la superintelligenza.

Per esempio, supponiamo che un terrorista usi l'IA per creare un'arma biologica che decimerebbe la popolazione. Forse i laboratori di IA direbbero: "Visto? Il vero rischio era che l'IA finisse nelle mani sbagliate; è fondamentale che ci lasciate andare avanti per costruire un'IA migliore per la difesa dalle pandemie". O supponiamo il terrorista abbia dovuto effettuare il jailbreak dell'IA prima di ottenere il suo aiuto: magari i laboratori di IA diranno: "Quel jailbreak ha funzionato solo perché l'IA era troppo stupida per rilevare il problema; la soluzione è rendere le IA ancora più intelligenti e più consapevoli della situazione".

O forse questa è una visione troppo cinica; speriamo che l'umanità reagisca in modo più saggio. Ma se un'intelligenza artificiale relativamente stupida causasse davvero qualche disastro e l'umanità sfruttasse davvero quell'opportunità per reagire fermando la corsa sconsiderata verso la superintelligenza, probabilmente sarebbe perché le persone stavano già iniziando a preoccuparsi della superintelligenza.

Non possiamo rimandare i preparativi fino a quando una superintelligenza non starà già cercando di ucciderci, perché a quel punto sarebbe troppo tardi. Dobbiamo iniziare a mobilitare una risposta a questo problema il prima possibile, in modo da essere pronti a sfruttare qualsiasi segnale di avvertimento che arrivi.

L'umanità non è molto brava a reagire agli shock.

L'idea che, dopo aver ricevuto uno shock abbastanza grande, il mondo improvvisamente torni in sé e si rimetta a posto ci sembra una fantasia. La risposta collettiva della nostra specie ai segnali di avvertimento esistenti sull'IA sembra più una "mancanza di risposta" che una "cattiva risposta". Ma in un mondo in cui ricevessimo davvero un avvertimento forte, spaventoso e più o meno inequivocabile, non ci sorprenderebbe vedere l'umanità reagire in modo minimale, poco serio, o in un modo che finirebbe per ritorcersi contro di noi in modo disastroso.

Forse l'umanità risponderà ai segnali di avvertimento sull'IA come ha risposto alla pandemia di COVID, che la maggior parte delle persone concorda non sia stata gestita in modo adeguato (anche se non sono d'accordo su quali aspetti della risposta siano stati gestiti male).

Negli anni precedenti la pandemia di COVID, diversi esperti di biosicurezza erano preoccupati che i protocolli di sicurezza dei laboratori troppo permissivi potessero un giorno portare a una pandemia pericolosa. Le fughe di agenti patogeni pericolosi dai laboratori erano un fenomeno ben noto e si verificavano con una certa regolarità nonostante le norme vigenti. Particolarmente preoccupante era la ricerca sul guadagno di funzione, che mirava a rendere i virus più letali o più virulenti in laboratorio (a fronte di benefici piuttosto limitati).

Poi è arrivato il COVID. Ci si sarebbe potuti aspettare che questo fosse il grande momento per alzare il livello di biosicurezza nei laboratori, dato che tutto il mondo era ora focalizzato sul rischio pandemico. Inoltre, sulla scia del COVID, il consenso degli esperti sembrava essere che non fosse del tutto chiaro se la pandemia di COVID stessa fosse stata innescata da una fuga accidentale in laboratorio. I ricercatori continuano a discutere della questione, spesso condannando con veemenza le argomentazioni della parte opposta.

Senza entrare nel merito della questione se in questo caso specifico ci sia stata effettivamente una fuga dal laboratorio, verrebbe da pensare che se ci fosse anche solo una remota possibilità che la ricerca sul guadagno di funzione e i protocolli di sicurezza dei laboratori poco rigorosi avessero causato milioni di morti, questo sarebbe più che sufficiente per spingere la società a vietare le ricerche più rischiose.

Anche agendo in una situazione di incertezza, l'analisi costi-benefici sembra chiara. Questo sembrava già una priorità importante prima del COVID e, sulla carta, il COVID sembrava l'occasione perfetta per concentrarsi sulla questione e stroncarla sul nascere. Non sarebbe nemmeno molto difficile o costoso: il numero di ricercatori nel mondo che fanno ricerche pericolose sul guadagno di funzione è piuttosto ridotto, e il beneficio sociale di tali ricerche è stato finora trascurabile.

Ma non c'è stata nessuna reazione del genere. Mentre scrivo, nell'agosto del 2025, la ricerca globale sul guadagno di funzione continua in gran parte senza ostacoli. È persino possibile che ora siamo in una posizione peggiore rispetto al passato per affrontare questo problema, perché la questione è diventata più politicizzata.

Quindi il COVID sembra proprio un "segnale di avvertimento" per la preparazione alla biosicurezza, e di sicuro non sembra che il mondo abbia usato quel segnale di avvertimento per vietare lo sviluppo di virus iper-letali.

Perché un segnale di avvertimento sia utile, l'umanità deve essere pronta a esso e deve essere pronta a rispondere bene.

Non sarebbe del tutto senza precedenti che una piccola catastrofe dell'IA scatenasse una reazione dura contro la ricerca sulla superintelligenza. Per trovare un precedente, basta osservare come gli Stati Uniti reagirono agli attacchi dell'11 settembre (orchestrati da terroristi con base principalmente in Afghanistan) rovesciando il governo dell'Iraq, che c'entrava ben poco. C'erano membri del governo statunitense che volevano già rovesciare il governo dell'Iraq, e poi è apparsa una scusa, e l'hanno sfruttata fino in fondo.

Forse qualcosa di simile potrebbe succedere anche in questo caso, con i politici che cavalcano una piccola catastrofe dell'IA (causata da un'IA stupida) fino ad arrivare a un divieto sulla superintelligenza. Ma servirebbe che nei governi di tutto il mondo ci fossero già persone pronte ad agire. Non dovremmo restare con le mani in mano ad aspettare i segnali di avvertimento; dovremmo iniziare a organizzarci adesso.

Dovremmo agire ora.

Potrebbe davvero succedere che, in futuro, l'umanità riceva segnali di avvertimento più numerosi e più forti sull'IA. E se così fosse, dovremmo essere preparati a rispondere.

Magari ci sarà qualche disastro minore che metterà il pubblico contro l'IA. Magari non ci vorrà nemmeno un disastro; magari ci sarà qualche nuova invenzione algoritmica e le IA inizieranno a prendere iniziativa in un modo che spaventa le persone, o qualche effetto sociale indiretto dell'IA ribalterà le sorti. Magari Prima che sia troppo tardi stesso innescherà una cascata di reazioni, mettendo il mondo su una traiettoria migliore.

Ma sconsigliamo la strategia del non fare nulla e sperare in una piccola catastrofe che svegli tutti. Un chiaro segnale di avvertimento potrebbe non arrivare mai, e potrebbe non avere l'effetto sperato.

La specie umana, e le nazioni del mondo, non sono impotenti. Non dobbiamo aspettare. Possiamo agire ora, perché ile ragioni per fermare lo sviluppo dell'IA di frontiera sono solide.

Abbiamo scritto Prima che sia troppo tardi per lanciare un allarme e per incoraggiare il mondo ad agire immediatamente su questa questione. Ma nessun allarme può essere efficace se viene usato solo come un'altra scusa per rimandare il problema: "Beh, forse qualche altro allarme in futuro sarà il fattore scatenante per agire". "Beh, ora che le persone sono state avvertite, forse le cose andranno bene, senza che io debba intervenire personalmente per aiutare".

Non è affatto detto che in futuro arriverà un allarme chiaro. Non è affatto detto che andrà tutto bene. Ma non è nemmeno vero che sia tutto senza speranza. L'umanità ha la possibilità di semplicemente non costruire una superintelligenza, se decide di agire in modo proattivo. Ciò che accadrà adesso dipende da noi.

* Per approfondire questo esempio: quando la cabina dell'Apollo 1 ha preso fuoco durante una simulazione di lancio il 27 gennaio 1967, la NASA ha imparato da ciò. Gli ingegneri conoscevano ogni componente del razzo e riuscirono a capire che il problema era probabilmente legato all'uso di fili di rame placcati in argento (il cui isolamento era stato danneggiato dal movimento della porta) vicino a una linea di raffreddamento a glicole etilenico/acqua soggetta a perdite. Capirono che la situazione era stata aggravata dall'atmosfera di ossigeno puro nella capsula e dai materiali infiammabili presenti nella cabina. Inoltre, il fatto che la cabina fosse pressurizzata implicava che era necessario sfiatare la cabina prima di poter aprire il portello, ma i comandi di sfiato si trovavano dietro l'incendio e la differenza di pressione era stata drammaticamente aggravata dal fuoco.

Noi non consigliamo una coalizione internazionale sull'intelligenza artificiale, ma è il tipo di cosa che in teoria potrebbe portare a un'entità simile alla NASA o alla FAA, in grado di imparare davvero dagli errori del settore.

Se i laboratori di biotecnologia fossero più bravi a evitare fughe di patogeni e se la creazione di virus iper-letali portasse in qualche modo (ad esempio) a medicine iper-curative, allora forse continuare la ricerca avrebbe senso. Per quanto ne sappiamo, la ricerca sul guadagno di funzione non ha portato a risultati positivi di questo tipo, e i biologi tendono a sconsigliarlain quantotale. Quindi pensiamo che sia uno di quei rari campi di ricerca da cui l'umanità dovrebbe stare alla larga, perché mette a rischio la vita di un sacco di persone che non hanno scelto di rischiare la propria vita.

Notes

[1] a fronte di benefici piuttosto limitati: Si veda ad esempio questo articolo del 2018 o un'analisi rischi/benefici molto più approfondita del 2015.

[2] continua in gran parte senza ostacoli: A partire dal 2025, gli Stati Uniti sembrano intenzionati a smettere di finanziare attivamente la ricerca sul guadagno di funzione con soldi pubblici, ma c'è stato poco o nessun coordinamento globale al riguardo. Si veda anche questo rapporto.

La tua domanda non ha trovato risposta qui?Invia una domanda.