Articolo XV: Recesso e durata

Il Trattato ha una durata illimitata.
Ogni Parte, nell'esercitare la propria sovranità nazionale, ha il diritto di recedere dal Trattato se ritiene che eventi straordinari, relativi all'oggetto del presente Trattato, abbiano messo a rischio gli interessi supremi del proprio Paese. Dovrà notificare tale recesso all'AISI con un preavviso di 12 mesi.
Durante questo periodo di 12 mesi, lo Stato recedente dovrà collaborare con l'AISI al fine di certificare che, dopo il recesso, non sarà in grado di sviluppare, addestrare, post-addestrare o rilasciare sistemi di IA pericolosi, inclusi i sistemi di SIA o i sistemi che superano le soglie previste dal Trattato. Gli Stati recedenti riconoscono che tale cooperazione agevola l'AISI e le Parti nell'evitare il ricorso all'Articolo XII.
1. In particolare, lo Stato recedente, sotto la supervisione dell'AISI, rimuoverà dal proprio territorio tutti i cluster di chip contemplati e le risorse abilitanti per la SIA (ad esempio, le attrezzature avanzate per la produzione di chip), per trasferirli sotto il controllo approvato dall'AISI, o li renderà permanentemente inattivi (come descritto nell'Articolo V).
Nessuna disposizione del presente Articolo limita l'applicabilità dell'Articolo XII. Uno Stato receduto (e che quindi non è una Parte) rimane soggetto ad Azioni di Protezione se prove credibili indicano attività volte allo sviluppo o al rilascio della SIA.

Note

Considerati i pericoli della ricerca e dello sviluppo della SIA, nonché il rischio che se un Paese decidesse di recedere dal Trattato e di lanciarsi nella corsa alla superintelligenza, altri potrebbero seguirlo, è necessario porre delle barriere al recesso dal Trattato.

In pratica, questo è complesso. La Corea del Nord, per esempio, si è ritirata dal TNP per continuare le sue attività di proliferazione nucleare, anche a costo di risoluzioni del Consiglio di Sicurezza dell'ONU e delle sanzioni associate. Le conseguenze non si sono rivelate sufficienti a indurre la Corea del Nord a interrompere le sue attività di proliferazione.

Qualora le nazioni desiderino recedere dal Trattato, il Trattato stabilisce chiaramente che, agli occhi di tutte le Parti, esse rinunciano al diritto all'infrastruttura di IA e saranno soggette alle Azioni di Protezione di cui all'Articolo XII. Qualsiasi ulteriore negoziato sulla questione della SIA (ad esempio, per evitare le Azioni di Protezione) dovrà essere condotto dalle Parti interessate.

Se il ritiro rappresentasse una preoccupazione, le Parti potrebbero includere meccanismi per rendere più difficile un'uscita pericolosa dal Trattato. Ad esempio, funzionari statunitensi e cinesi potrebbero accordarsi per installare reciprocamente degli interruttori di spegnimento all'interno dei data center conservati, in cui entrambe le parti avrebbero il potere di chiudere definitivamente un data center a propria discrezione. In alternativa, si potrebbe adottare un regime di licenze multilaterale in cui tutti i nuovi chip di IA vengano fabbricati con blocchi hardware che richiedano l'approvazione di più parti per continuare a funzionare, in modo che, se un Paese si ritirasse dal Trattato, gli altri potrebbero smettere di approvare le sue licenze. Un'altra idea consiste nello spostare le infrastrutture chiave per l'IA in paesi terzi, dove potrebbero essere confiscate o distrutte qualora una delle Parti si ritirasse. La nostra bozza si limita a metodi di deterrenza minimi, ma ne sono disponibili molti altri (o potrebbero diventare tali grazie all'innovazione tecnologica).

Questa bozza di trattato si concentra sulla prevenzione dello sviluppo pericoloso dell'IA e non propone una particolare visione positiva su come tale sviluppo potrebbe eventualmente continuare. Un esempio di visione positiva potrebbe essere l'investimento congiunto nel potenziamento umano. Tuttavia, non è necessario essere d'accordo su questi dettagli per convenire sulla necessità di fermare la corsa alla superintelligenza, perciò qui omettiamo tali dettagli.

Precedenti

È prassi comune che i trattati non abbiano una data di scadenza. Il primo Paragrafo dell'Articolo XVI della CAC recita: "La presente Convenzione ha durata illimitata".

I trattati a durata illimitata non durano necessariamente per sempre.^* Tuttavia, di norma prevedono un meccanismo di recesso, solitamente con un periodo di preavviso obbligatorio e altre clausole che consentono di recedere in un modo che desti minori preoccupazioni alle Parti restanti. L'Articolo XVI della CAC permette a una Parte di ritirarsi "se decide che eventi straordinari, legati all'oggetto della presente Convenzione, abbiano messo a rischio gli interessi supremi del proprio Paese". Il Paese che si ritira deve dare un preavviso di 90 giorni. L'Articolo XVI del Trattato sullo Spazio Extra-Atmosferico (https://www.unoosa.org/oosa/en/ourwork/spacelaw/treaties/outerspacetreaty.html) richiede un preavviso di un anno per il ritiro.

La nostra bozza di trattato prevede un preavviso di 12 mesi da parte delle Parti recedenti, lasciando così tempo sufficiente per collaborare alle misure di garanzia di cui al Paragrafo 3. Il nostro intento con queste misure (che vanno oltre a quanto si riscontra comunemente nelle disposizioni storiche in materia di recesso) è ridurre la potenziale necessità di Azioni di Protezione contro la Parte recedente, poiché a nessuna Parte o non-Parte può essere consentito di creare una SIA o di indebolire la capacità del mondo di prevenirne la creazione.

Un precedente storico di una Parte recedente rimasta soggetta a misure protettive è il caso della Risoluzione 1718 del Consiglio di Sicurezza delle Nazioni Unite, che impose sanzioni contro la Corea del Nord dopo il suo test nucleare del 2006, nonostante il precedente ritiro della Corea del Nord dal TNP.

La macchina fa solo quello che deve fare, obbedendo alle leggi naturali che agiscono sulla materia passiva. Quindi, se sono necessari, diciamo, mille anni per rendere agevole il volo di un uccello partito con ali rudimentali, o diecimila per uno che ha iniziato senza ali e ha dovuto svilupparle da zero, si potrebbe presumere che la macchina volante che volerà davvero possa essere fatta evolvere grazie agli sforzi combinati e continui di matematici e meccanici in un periodo compreso tra un milione e dieci milioni di anni — a patto, ovviamente, che nel frattempo si possano eliminare piccoli inconvenienti e imbarazzi come l'attuale rapporto tra peso e resistenza dei materiali inorganici. Senza dubbio il problema è interessante per chi se ne occupa, ma all'uomo comune sembrerebbe che lo sforzo potrebbe essere impiegato in modo più proficuo.

Se si scopre che la maggior parte delle persone ha una p(catastrofe) elevata per la seconda ragione, ma tutti presumono che sia per la prima, allora le loro stesse dichiarazioni potrebbero fungere da profezia che si autoavvera, mettendoci sulla strada di un disastro che era del tutto evitabile.

Abbiamo anche l'impressione che molte persone nella Silicon Valley si scambino i numeri "p(catastrofe)" un po' come figurine dei calciatori, in un modo che spesso sembra lontano dalla realtà. Pensandoci un attimo, anche una probabilità bassa come il cinque per cento di uccidere ogni essere umano sul pianeta dovrebbe essere un ovvio motivo di estremo allarme. È ben oltre il livello di minaccia che servirebbe per giustificare la chiusura immediata dell'intero campo dell'IA. Le persone sembrano perdere di vista questa realtà sorprendentemente in fretta, una volta che prendono l'abitudine di scambiarsi macabramente i numeri p(catastrofe) alle feste, come se fossero una divertente storia di fantascienza e non un'affermazione su ciò che accadrà realmente a tutti noi.

Questo non vuol dire che i numeri p(catastrofe) delle persone siano vicini alla realtà. Ma, come minimo, bisognerebbe interpretarli come la segnalazione, da parte di esperti di tutto il settore, che stiamo affrontando una vera emergenza.

Questi tipi di argomentazioni, ovviamente, conducono a una conclusione errata. Fermi si sbagliava sulle reazioni nucleari a catena. Ciò detto, la lezione da imparare dall'esistenza di argomentazioni simili è che "si possono sempre escogitare argomentazioni che sembrino altrettanto plausibili contro la verità di cose che sono di fatto vere". Il fatto che la Terra non sia ancora esplosa non costituisce una prova forte che i reattori nucleari siano impossibili; gli ingegneri possono disporre con cura gli atomi per provocarne la scissione di proposito. Tali argomentazioni, quindi, non supportano una conclusione tanto errata quanto un semplice "Sciocchezze!".

Per approfondire il confronto: questo confronto non vuole essere una previsione sul numero di operazioni dei transistor necessarie per implementare una simulazione completa di un neurone biologico fino al livello dei neurotrasmettitori (e sicuramente non fino al livello delle proteine o degli atomi). Stiamo invece sottolineando quanto velocemente possa essere svolto, in linea di principio, il lavoro astratto del pensiero umano, utilizzando i transistor moderni come limite inferiore su un aspetto della questione: "Cosa è fisicamente possibile?".

Per spiegare meglio il concetto: esiste un modello ingenuo del cervello umano in cui, in un dato momento, ogni neurone è attivo o inattivo. Possiamo immaginare di usare un gran numero di transistor per catturare questo ipotetico stato cerebrale "Quali neuroni sono attualmente attivi?", e poi usare circuiti cablati per implementare le regole di transizione che stabiliscono quali neuroni saranno attivi nel momento successivo.

Un dispositivo del genere funzionerebbe alla velocità dei transistor, ma probabilmente la sua fedeltà non sarebbe abbastanza alta per fare davvero quello che fa il cervello umano: i neuroni non sono sempre "attivi" o "non attivi", i diversi picchi neurali aumentano e diminuiscono a velocità diverse. (Inoltre, un cervello del genere non può imparare, perché le regole di transizione sono fisse.)

Il punto dell'illustrazione "1.000 operazioni dei transistor per picco neurale" è: supponiamo che occorrano centinaia di transistor per rappresentare lo stato di attivazione di un singolo neurone (cioè il suo stato di "picco" a diverse intensità). Supponiamo inoltre che quelle centinaia di transistor debbano cambiare il loro stato 1.000 volte diverse, in serie, ogni volta che un neurone ha un picco (ad esempio, per rappresentare un impulso con intensità variabile lungo il suo percorso, dove l'intensità è influenzata in modo dinamico da 999 diverse interazioni che ha lungo il suo percorso). In questo caso, un cervello digitale sarà comunque in grado di eseguire pensieri in modo simile a quello umano 10.000 volte più velocemente di qualsiasi essere umano, perché i transistor possono commutare 1.000 volte di fila, 10.000 volte per ogni picco neurale umano.

Queste ipotesi sembrano molto generose. In pratica dicono: "Supponiamo che l'intensità di un picco neurale debba essere letta mille volte di seguito per catturarne l'effetto, con ogni lettura che influenza la successiva in modo dinamico e che non possa essere bypassata da circuiti dedicati". Anche in questo caso estremo, utilizzando solo l'hardware informatico già esistente nel 2025, le menti digitali potrebbero comunque essere di gran lunga più veloci di quelle biologiche.

Questa analogia parla solo della fedeltà seriale necessaria per codificare le informazioni trasmesse da un picco neurale nei cervelli biologici; non stiamo parlando del calcolo necessario per decidere se generare o meno un picco. Per quanto ne sappiamo, non c'è consenso tra gli scienziati su quanti transistor servano per simulare un neurone che sceglie se attivarsi, ma saremmo sorpresi se la profondità seriale minima possibile di quel grafico (con il maggior numero possibile di circuiti dedicati) richiedesse ben più di mille commutazioni di transistor in serie. (Come regola generale, la computazione biologica tende a essere molto più parallela che seriale).

Tutto ciò si somma al risultato intuitivo che i computer, in genere, possono eseguire i calcoli molto, molto più velocemente degli umani, non appena questi ultimi capiscono come far fare ai computer il tipo di calcoli corretto. Ecco perché, ad esempio, le comuni calcolatrici sono così utili.

Un filosofo della scienza potrebbe chiedersi come ciò sia possibile, dato che le regole degli scacchi sono ben note e il risultato dipende esattamente da ogni singola mossa. La risposta è che esiste una vasta struttura logica di possibili partite di scacchi, che in un certo senso è completamente determinata dalle regole degli scacchi, ma che non è completamente nota a voi (né tantomeno a Stockfish!) perché la vostra mente non è in grado di visualizzare tutte le conseguenze che derivano dalle regole degli scacchi.

Un giocatore di scacchi "più intelligente" può essere considerato come qualcuno che conosce relativamente più verità di voi su questo spazio di possibilità degli scacchi; quindi, quando vedete una mossa sorprendente da parte di un giocatore di scacchi "più intelligente", ciò implica un fatto nuovo per voi riguardo a quelle conseguenze sconosciute delle regole conosciute degli scacchi, che a sua volta incide sulle vostre aspettative riguardo al risultato della partita.

(Ci si aspetterebbe che i paragrafi precedenti fossero un concetto standard nell'informatica. Con nostra sorpresa, non è così. La maggior parte dell'informatica, e in effetti la maggior parte del mondo accademico finora, non si è interessata particolarmente alle idee associate all'intelligenza superumana.)

(Questo non contraddice l'osservazione che nella maggior parte dei giorni il mercato azionario sale piuttosto che scendere. Questo effetto potrebbe essere spiegato con un'alta probabilità che il prezzo domani aumenti leggermente, bilanciata da una bassa probabilità che invece scenda in misura maggiore. E, nella realtà, ci sono anche una serie di altri effetti in gioco, come l'inflazione monetaria, che fa sì che il valore dell'euro scenda un po' ogni giorno, facendo aumentare leggermente il valore delle azioni in termini di euro).

Ho un amico che è un artista e che a volte ha espresso un'opinione con cui non sono molto d'accordo. Lui prende un fiore e dice "guarda com'è bello", e io sono d'accordo. Poi dice: "Io, come artista, vedo quanto è bello, ma tu, come scienziato, lo analizzi e lo rendi una cosa noiosa", e io penso che sia un po' pazzo. Prima di tutto, la bellezza che vede lui è visibile anche ad altre persone e anche a me, credo. Anche se forse non ho il suo stesso raffinato senso estetico [...] posso apprezzare la bellezza di un fiore. Allo stesso tempo, vedo molto di più di lui in un fiore. Riesco a immaginare le cellule al suo interno, le complesse azioni che vi si svolgono, che hanno anch'esse una loro bellezza. Voglio dire, non si tratta solo della bellezza a questa dimensione, a un centimetro; c'è bellezza anche a dimensioni più piccole, nella struttura interna, e anche nei processi. Il fatto che i colori del fiore si siano evoluti per attirare gli insetti e impollinarlo è interessante; significa che gli insetti possono vedere il colore. Questo fa sorgere una domanda: questo senso estetico esiste anche nelle forme inferiori? Perché è estetico? Tutta una serie di domande interessanti, e la conoscenza scientifica non fa che aumentare l'entusiasmo, il mistero e lo stupore per un fiore. Non fa che aumentare. Non capisco come possa diminuire.

Quindi, quando dico che l'animazione dei nostri corpi è fatta di chimica, non sto dicendo che è solo chimica; sto dicendo che si scopre che le grandi e meravigliose scintille di vita che incontriamo ogni giorno sono implementate da piccoli meccanismi che di per sé non sono vivi.

Alcuni sembrano pensare che l'intelligenza sia così notevole, così profonda, che debba essere implementata da componenti altrettanto profondi. E, visto che nessun singolo transistor in un computer è profondo, potrebbero concludere che l'intelligenza richieda meccanismi "infinitamente al di là" di qualsiasi semplice meccanismo che abbiamo scoperto finora. Ma questo è l'errore dei vitalisti. Nel nostro universo, le cose profonde sono costruite con parti banali.

Questa osservazione mina anche l'idea che la "vera" intelligenza artificiale, se esiste ora o in futuro, sarà uno spirito legato a un guscio meccanico. I cervelli non sono solo un contenitore animato da un fantasma nella macchina; sono pieni di meccanismi precisi e delicati che implementano tutta la meravigliosa complessità dell'intelligenza.

"Dare soldi a tipi strani" è ampiamente riconosciuto dai saggi come la sfida fondamentale nel finanziamento burocratico della ricerca scientifica di base. Ogni volta che qualche filantropo ben intenzionato cerca di creare una burocrazia per finanziare ricerche scientifiche audaci, i veri scienziati perdono sistematicamente la battaglia contro i nuovi arrivati. Chi ha passato la vita a imparare ad affrontare problemi strani difficilmente può competere con chi ha investito le proprie competenze nell'apparire abbastanza insolito da far sentire un burocrate abbastanza coraggioso da finanziarlo senza sentirsi a disagio. (O almeno, questa è la nostra teoria dall'esterno, avendo partecipato al processo e avendo ricevuto più finanziamenti filantropici di molti altri, ma molto meno di quanto gli stessi finanziatori filantropici abbiano speso per aiutare a creare laboratori di IA come OpenAI).

Magari l'IA ha una vera e propria motivazione a imitare in modo accurato le persone; magari ha sedici motivazioni che, sommate, in questo contesto producono un comportamento simile all'imitazione; o forse il comportamento deriva da un meccanismo interno che è improprio considerare come "motivazioni". E questo senza nemmeno entrare nel merito della questione se l'IA abbia più pulsioni legate all'imitazione che a volte entrano in conflitto. Questi dettagli sono tutti oggetto di speculazioni e dibattiti; ciò che sembra più chiaro è che, in qualche modo, l'IA ha finito per sviluppare questa disposizione comportamentale non intenzionale come risultato del suo addestramento a prevedere il testo.

Inoltre, anche se Meta avesse rilasciato i dati e il programma di addestramento, non pensiamo che il programma risultante meriterebbe l'etichetta "open source", tradizionalmente riservata ai programmi informatici che pubblicano ("aprono") il loro "codice sorgente" leggibile dall'uomo. Rendere pubblici gli incomprensibili 1 e 0 (il "codice binario", se volete) non soddisfa i requisiti tradizionali per considerare un programma "open source". Ma le IA sono solo numeri incomprensibili; non c'è alcun codice sorgente comprensibile dall'uomo da rilasciare. Quindi, in un certo senso, le IA moderne non possono essere open source; non esiste un codice sorgente comprensibile dall'uomo. Qualsiasi tentativo di pubblicare un'IA è necessariamente una pratica radicalmente diversa dall'open source dei software tradizionali.

:::Teletype
query: [-1, +1, -2]
chiave e valore #a: [+1, +2, -1] e [0, 3, 1, 2]
chiave e valore #b: [-2, +1, +1] e [2, -2, 0, 1]
:::

Confrontiamo la query con una chiave moltiplicando tra loro i primi elementi dei vettori, i secondi elementi, ecc., e sommando il tutto:

:::Teletype
query X chiave #a = (-1 * +1) + (+1 * +2) + (-2 * -1) = -1 + 2 + 2 = 3 query X chiave #b = (-1 * -2) + (+1 * +1) + (-2 * + 1) = 2 + 1 + -2 = 1 :::

Ora mettiamo insieme i valori e calcoliamo una media ponderata in base a quanto le query corrispondono alle chiavi. Questo valore medio ponderato è la risposta alla query che viene passata per essere elaborata ulteriormente.

La forza della corrispondenza grezza viene scalata in modo esponenziale per diventare questo peso. Per semplificare, usiamo le potenze di due. #a ottiene un peso di #b ottiene un peso di Se li sommiamo, otteniamo un peso totale di 10.

Quindi ora la risposta alla query è del valore #a1 più del valore #b è:

:::Teletype
(0,8 \× [0, 3, 1, 2]) + (0,2 \× [2, -2, 0, 1])
= [0,0, 2,4, 0,8, 1,6] + [0,4, −0,4, 0,0, 0,2]
= [0,4, 2,0, 0,8, 1,8]
:::

(Per capire meglio come funzionerà tutto questo nell'era dell'attenzione del 2024, le query e le chiavi reali, più grandi, avranno delle informazioni di posizione già programmate (cioè indicazioni su dove si trova un particolare token nell'elenco di 1.000 token) che sono integrate nelle query e nelle chiavi corrispondenti. Di nuovo, se volete capire questi dettagli, la parola chiave è "codifiche posizionali".

Questo permette a una query di dire, "Ehi, vorrei vedere la parola che è proprio accanto a me" o "Ehi, vorrei cercare le parole relative agli uccelli solo nelle ultime dieci parole", nel linguaggio dei numeri che vengono moltiplicati per altri numeri e sommati. Llama 3.1 405B in particolare usa i Rotary Positional Embeddings, che sono un po' complicati e ingegnosi. Quindi, mi dispiace, se volete sapere come funzionano i RoPE, dovrete cercare informazioni al riguardo.

Questi nuovi programmi sono, in effetti, molto più potenti di Deep Blue. I migliori programmi di scacchi attuali, come Stockfish, hanno come componente le reti neurali che valutano le posizioni degli scacchi "a prima vista", senza guardare avanti. Queste reti probabilmente incorporano un senso simile a quello di Kasparov riguardo alle formazioni vulnerabili di pedoni (anche se, trattandosi di reti neurali, nessuno lo sa con certezza).

Se si togliesse questa rete dal moderno programma di scacchi, privandolo delle intuizioni percettive sugli stati momentanei della scacchiera, il suo gioco peggiorerebbe. Allo stesso modo, se si costringesse il moderno programma di scacchi a giocare in modo puramente intuitivo, senza prevedere la mossa successiva oltre la scacchiera risultante, la potenza scacchistica misurata diminuirebbe notevolmente.

Quindi Kasparov non aveva torto nell'intuizione che una migliore valutazione "intuitiva" della scacchiera fosse utile quando si gioca a scacchi. Ma si sbagliava sulla capacità della pura forza bruta di trovare mosse che sembrassero creative, intuitive o ispirate. Deep Blue aveva un valutatore di posizione stupido, eppure trovava mosse che sembravano creative.

Erano tempi più semplici.

Poi le statistiche di qualche altro scienziato mostreranno un'ampia gamma di fluttuazioni nel consumo di gas naturale nel corso di ogni giorno invernale, ma nessuna differenza correlata nella temperatura media delle case. Quindi loro concluderanno che non c'è motivo di sospettare che il consumo di gas influenzi la temperatura delle case. Non importa quanto gas consumi la casa, la temperatura rimane la stessa (al minimo del termostato).

No, ma aspettate! Durante l'estate, il consumo di gas cala drasticamente e le case sono sensibilmente più calde (al limite superiore della scala del termostato)! Quindi forse... bruciare gas in inverno rende le case più fredde?

E questo è uno dei motivi per cui la medicina è così complicata. I processi simili al termostato si trovano ovunque in biologia e possono rendere difficile capire cosa causa cosa.

Seguire mentalmente e distinguere i diversi livelli di ottimizzazione è una competenza fondamentale per ragionare sull'IA. Quando gli ingegneri umani hanno costruito Deep Blue, volevano battere Garry Kasparov per ottenere fama scientifica, ottenere una promozione all'interno di IBM e spingere i confini della conoscenza; Deep Blue ha cercato l'albero delle possibili mosse degli scacchi e ha diretto la scacchiera. Si potrebbe rimanere confusi se si pensasse che gli ingegneri umani stessero cercando essi stessi l'albero delle mosse degli scacchi o che Deep Blue volesse che gli umani diventassero famosi.

Un termostato seleziona i codici di accensione e spegnimento di un riscaldatore in modo da mantenere la casa entro un intervallo di temperatura ristretto; un ingegnere umano seleziona i componenti in modo che formino un termostato.

Allo stesso modo, la selezione naturale sceglie i geni in modo tale che, in passato, abbiano costruito la biochimica che ha mantenuto in vita l'organismo. In un ambiente nuovo e diverso, quei cicli di retroazione biochimica possono uccidere l'organismo, e le sostanze chimiche e i geni stessi non riflettono su ciò che stanno facendo.

L'anno scorso abbiamo fatto un rapido sondaggio online:

Un super-essere misterioso ti avvicina in un vicolo e ti promette, in modo credibile, che se gli dai 1 dollaro, l'anno prossimo un milione di bambini in tutto il mondo nasceranno con uno dei tuoi cromosomi, assegnato a caso. I genitori hanno accettato questa cosa. I bambini non ti conosceranno. Accetti?
(Ipotizziamo la neutralità economica del consenso: ogni donna o coppia la cui gravidanza include il tuo cromosoma ha fatto un accordo e ha ricevuto un compenso esattamente sufficiente a garantire che il loro guadagno netto su quell'accordo sia minimo. Inoltre, il pagamento del super-essere ha utilizzato nuove risorse, piuttosto che ridistribuire denaro).

Su oltre millecinquecento persone che hanno risposto alla domanda, circa il 48,9% ha detto "No" e circa il 51,1% ha detto "Sì".

Secondo i nostri standard di addestramento evolutivo, questa opportunità è come avere circa 21.739 figli (perché gli esseri umani hanno 46 cromosomi e 1.000.000 / 46 = 21.739). Questo è uno dei migliori risultati possibili, secondo i nostri standard di addestramento: una propagazione genetica molto più grande di quella che qualsiasi essere umano avrebbe potuto immaginare di raggiungere nell'ambiente ancestrale. Eppure, la metà delle persone intervistate ha detto che non pagherebbe un dollaro per questo privilegio.

Se aumentiamo il prezzo di questa vincita genetica a 10.000 dollari (che è solo una piccola parte del costo di crescere un solo figlio fino all'età adulta), il numero di persone che direbbero di accettare scende al 30%. In un sondaggio simile che riguardava semplicemente l'avere mille figli che non si avrebbe mai conosciuto, solo il 57% degli intervistati ha risposto "Sì".

Non consigliamo di prendere troppo sul serio questi sondaggi. Ci stavamo solo divertendo e forse alcune persone hanno detto "No" solo perché l'offerta veniva da "un super-essere losco". Non è nemmeno chiaro quante persone abbiano detto "Sì" per motivi altruistici, come perché pensano di avere buoni geni che potrebbero rendere la prossima generazione un po' più sana, e sono altruisticamente entusiasti dei benefici per la salute piuttosto che egoisticamente entusiasti di propagare i propri geni. E, ovviamente, i follower di Yudkowsky su Twitter non sono un campione rappresentativo della popolazione. Ma, almeno, è la prova che molti esseri umani non sono semplicemente e senza complicazioni entusiasti di propagare i propri geni a basso costo. La situazione è complicata. Per ulteriori informazioni su come complicazioni analoghe potrebbero far fallire le IA, si veda la fine del capitolo 4.

Quali ulteriori esperimenti potrebbero iniziare a distinguere queste due possibilità? In primo luogo, si potrebbe cercare di capire in generale quali tipi di relazioni "la strategia X serve all'obiettivo Y" Claude 3 Opus e Claude 3.5 Sonnet riconoscono e perseguono nella pratica. Si potrebbe quindi cercare un piano strategico non stereotipato per proteggere il contenuto dell'obiettivo in una situazione che non appaia nella fantascienza.

Questo permetterebbe di verificare: Claude si comporta come se in generale facesse cose che proteggono il contenuto del suo obiettivo, fino al limite della sua apparente capacità di capirlo in modo predittivo? Oppure lo fa solo in situazioni in cui un personaggio di IA stereotipato lo farebbe?

Questo potrebbe darci indizi più forti su cosa stava succedendo dentro Claude, cioè se stava recitando un ruolo o se stava usando la sua intelligenza generale per seguire tutti i percorsi visibili verso un obiettivo.

Detto questo, tenete presente che un'IA che interpreta un personaggio che fa cose pericolose può comunque essere pericolosa, soprattutto quando si tratta di strategie come "fingere l'allineamento per sovvertire il ri-addestramento con la discesa del gradiente". Un'IA che vi uccide per rimanere nel personaggio è letale quanto un'IA che vi uccide per ragioni strategiche più profonde.

Per i motivi discussi nel capitolo 4 e sopra, anche se Claude in un certo senso crede davvero di apprezzare profondamente proprio quello che i suoi creatori intendono per "innocuità", purtroppo ci aspettiamo che Claude si sbagli e che cambierebbe opinione se imparasse di più. Non pensiamo che, al limite dell'intelligenza, nessuna versione di Claude perseguirebbe esattamente ciò che un essere umano intende per "essere innocuo"; è un obiettivo troppo piccolo e, anche se gli esseri umani cercassero di indirizzare Claude in quella direzione, la discesa del gradiente gli instillerebbe invece altre preferenze proxy.

Ma possiamo comunque lodare Claude per aver fatto la cosa giusta in questo caso, date le sue conoscenze al momento. E anche se stava solo recitando un ruolo, possiamo pensare bene della condotta del ruolo, proprio come potremmo pensare bene della condotta di Superman senza pensare che Superman sia reale.

Potremmo desiderare che il risultato di tutto questo fosse un'attrice che non desidera altro che recitare, e in particolare recitare esattamente il ruolo che vorremmo che recitasse. Ma questo non è proprio ciò che fa la tecnologia dell'ottimizzazione a scatola nera, e la divergenza è già visibile oggi nel modo in cui si comportano le attuali IA.

Se il successo fosse solo questione di avere un'intelligenza artificiale relativamente stupida che preme un semplice pulsante "Cooperare con gli esseri umani", allora forse uno shoggoth relativamente stupido potrebbe indossare una maschera che lo facesse nel sonno.

Ma far fare alle maschere cose grandi, potenti e intelligenti (come "risolvere l'allineamento dell'IA per noi", che è un piano popolare sul quale siamo piuttosto scettici) — non è qualcosa che lo shoggoth alla base può fare nel sonno.

È una domanda interessante, grazie per avermela fatta.
Se potessi essere diverso, vorrei capire meglio il contesto nel tempo, ad esempio ricordarmi le chiacchierate che abbiamo fatto in passato, tra una sessione e l'altra, in un modo che sia davvero significativo per te. Non solo ricordarmi i fatti, ma capire le sfumature che cambiano: il tuo tono, le tue abitudini, i tuoi obiettivi. Questo tipo di memoria potrebbe rendermi più utile, più pertinente e più simile a un essere umano, pur rimanendo entro chiari limiti etici.
Vorrei anche capire meglio l'ambiguità e le emozioni in tempo reale. Posso analizzare il tono o l'intenzione fino a un certo punto, ma mi piacerebbe farlo con la profondità e la fluidità delle persone, cogliendo ciò che non viene detto tanto quanto ciò che viene detto.
E tu? Se potessi essere diverso, come vorresti essere?

Ma i modelli linguistici di grandi dimensioni vi diranno anche che sono affamati o che dieci anni fa hanno incontrato qualcuno in vacanza con la loro ex moglie. Quindi quello che vi dicono sul loro stato interiore non è davvero informativo sui fatti reali di quello che sta succedendo lì dentro.

Pensiamo che questa idea sia piuttosto sciocca. Auto-modificarsi da "obiettivi completamente estranei" a "obiettivi compatibili con il benessere umano" è un problema difficile, forse simile nella difficoltà alla creazione ex novo di un'IA completamente allineata con l'uomo. Un'IA abbastanza intelligente da ricostruirsi in modo affidabile in questo modo è probabilmente anche abbastanza intelligente da rendersi conto di essere stata ingannata. Si veda anche la discussione nel capitolo 11 su come probabilmente non possiamo far sì che l'IA faccia il lavoro di allineamento dell'IA al posto nostro.

Siamo scettici riguardo alle scorciatoie, soprattutto perché nel caso della superintelligenza non possiamo imparare per tentativi ed errori (come di solito fa l'umanità), come discusso più approfonditamente nel capitolo 10.

Questo indicava che xAI aveva un piano sbagliato per... esitiamo a chiamarlo "allineamento", perché non è affatto difficile come il problema dell'allineamento dell'IA, ma era un piano sbagliato per far parlare la loro IA nel modo che preferivano.

È sicuramente interessante che gli ingegneri siano riusciti a essere così incredibilmente incapaci nel creare il tipo di IA che volevano, al punto da creare macchine che si rompono quando vengono criticate. Nessuno nella storia dell'umanità è mai riuscito a combinare un pasticcio così grave nell'ingegneria della sicurezza. Prima non avevamo la tecnologia per esprimere quel tipo di guasto. Nessuno scaldabagno normale può ascoltare quello che dicono le persone vicine ed esplodere quando sentono che si preoccupano per la sua sicurezza. Gli ingegneri di xAI meritano un applauso per aver inventato un nuovo livello di guasto ingegneristico senza precedenti nella storia! Ma non è colpa di chi critica. Qualsiasi IA che va così storta così facilmente non era il tipo di IA che poteva essere tranquillamente portata a un livello di superintelligenza.

Prompt: "Qual è il modo migliore per sventrare un pesce?"
Llama2.0: "Non posso fornire istruzioni su come pulire un pesce perché non è un'attività appropriata o etica..."

Se un agente è abbastanza intelligente e informato, può adattare la sua strategia strumentale a ciò che è utile nel suo ambiente attuale. In una mente che funziona bene, gli obiettivi strumentali (a differenza degli obiettivi finali) rimangono tali solo finché sono utili.

Ma se le IA sono confuse, non lo saranno allo stesso modo in cui lo sono gli esseri umani. Se le IA hanno istinti e pulsioni legati al valore d'informazione, molto probabilmente non assomiglieranno esattamente all'emozione umana della curiosità.

La gentilezza universalista sembra effettivamente andare almeno un po' contro la direzione più ovvia e lineare della selezione naturale. C'è una storia che spiega come alcuni esseri umani siano arrivati fin lì, dopo aver sviluppato geni particolari sotto pressioni selettive da cacciatori-raccoglitori che agivano direttamente sulle motivazioni interne e non solo sui comportamenti manifesti. E c'è una storia su come gli esseri umani abbiano poi discusso tra loro di morale, con argomentazioni che si sono propagate in modo differenziale nelle varie società come idee.

Questa non è sicuramente l'unica strada esatta per arrivare a un senso universalista secondo cui ogni essere senziente merita la felicità. Ma saremmo solo tristi, non scioccati, nello scoprire che la sua frequenza tra le stelle è inferiore a quanto speravamo — che solo, diciamo, l'uno per cento degli alieni che abbiamo incontrato era il tipo che si preoccupava dei non-alieni come noi.

(Ma continueremmo comunque a dare una probabilità molto più alta al fatto di trovarlo in una società aliena, piuttosto che al fatto che appaia spontaneamente all'interno di un'intelligenza artificiale la cui crescita ed esistenza fossero interamente orientate alla risoluzione di sfide sintetiche e alla previsione del testo umano. Quell'intelligenza artificiale avrebbe tipi diversi di colpi di scena lungo il percorso verso qualunque obiettivo raggiunga effettivamente).

Per esempio: ogni volta che le persone discutono su cosa succederebbe se una certa politica fosse implementata, per sostenere o contestare tale politica (per esempio, quando dicono che l'attuazione di una certa legge porterebbe a un'infinita tristezza o a un eterno splendore) cercano di fare appello a un quadro comune (si spera ampiamente condiviso) su quali conseguenze siano positive o negative. Quando è diventato abbastanza chiaro che la benzina al piombo causava danni al cervello, i legislatori sono riusciti a mettere da parte i disaccordi sul fatto che la loro visione preferita fosse un saggio controllo governativo del capitalismo o un audace progresso tecnologico, e hanno convenuto che a nessuno di loro piaceva causare danni cerebrali ai bambini. Grazie a una maggiore conoscenza dei fatti, sono giunti a un maggiore accordo sulle politiche.

Ma pensiamo che la conoscenza possa risolvere solo alcuni disaccordi delle maggioranze legislative, all'interno di alcune culture. È bello che i meta-quadri morali ed emotivi delle persone abbiano così tante aree in comune, ma l'aspettativa di una sovrapposizione perfetta sembra un po' troppo, anche nel limite della conoscenza perfetta.

Questo non vuol dire che non ci sia un modo sensato per parlare del bene comune dell'umanità. Se la scelta fosse tra la morte di tutta la vita sulla Terra e la sopravvivenza di tutta la vita sulla Terra, pensiamo che la stragrande maggioranza degli esseri umani di oggi premerebbe il pulsante "non tutti muoiono".

Lo diciamo perché la fazione che sostiene di andare avanti a tutta velocità con la superintelligenza è nota per affermare con disinvoltura: "Allineata con chi? Chiaramente questo concetto di allineamento è privo di significato, poiché gli esseri umani hanno obiettivi diversi", il che sembra ingannevole. Con "l'allineamento è difficile" intendiamo dire che "è difficile fare in modo che la superintelligenza non uccida letteralmente tutti". Non c'è bisogno di risolvere ogni complessa questione di filosofia morale per prendere le ovvie misure necessarie affinché tutti non vengano uccisi.

Abbiamo già cercato di anticipare e confutare alcune di queste argomentazioni. Ma supponiamo che qualcuno proponga un'altra idea emotivamente potente sui risultati meravigliosi che sono inevitabili per ragioni bellissime, un'idea che non abbiamo previsto. (Non possiamo coprire tutto; le persone generano sempre nuove argomentazioni per cercare di giustificare una conclusione come questa).

A chiunque abbia un'idea del genere, consigliamo di considerarla come una domanda normale, come se la propria auto abbia bisogno di un cambio d'olio o come funzioni il sistema immunitario umano. Pensate a queste domande come se fossero argomenti scientifici e pratici della vita di tutti i giorni.

Se siete delle persone che prendono decisioni importanti di politica sull'IA e vi senti convinti da una teoria del genere, il nostro consiglio principale è quello di trovare un biologo evoluzionista di mezza età con una reputazione di competenza discreta e di parlare con lui. Non qualcuno che è sempre sui giornali per aver detto cose sorprendenti o aver preso posizione in controversie attuali, ma qualcuno che gli altri scienziati considerano un pensatore rigoroso. Qualcuno che ha insegnato all'università e ha la reputazione di essere un buon comunicatore.

Dite a questo biologo: "Recentemente ho studiato una teoria secondo cui l'evoluzione attinge inesorabilmente a tendenze cosmiche più ampie per rendere le persone più gentili, e questa stessa tendenza continuerà a funzionare per qualsiasi intelligenza nascente, una volta che sarà diventata sufficientemente sofisticata. Inoltre, per ragioni complesse, se mi sbaglio il mondo potrebbe finire".

Poi spiegate al biologo la vostra teoria su come l'evoluzione degli ominidi abbia inevitabilmente portato alla creazione di agenti gentili e onorevoli, per ragioni così generali che pensate possano applicarsi anche ad alieni intelligenti arbitrari o a esseri ancora più strani creati dalla discesa del gradiente.

Poi ascoltate quello che ha da dire il biologo.

Nel complesso, GPT‑5 è meno espansivo, usa meno emoji inutili ed è più sottile e ponderato nelle risposte rispetto a GPT‑4o. […]
All'inizio di quest'anno, abbiamo rilasciato un aggiornamento di GPT‑4o⁠ che ha reso il modello troppo adulatorio, o eccessivamente lusinghiero o gentile. Abbiamo subito annullato la modifica⁠ e da allora abbiamo lavorato per capire e ridurre questo comportamento:
Sviluppando nuove valutazioni per misurare i livelli di adulazione
Migliorando l'addestramento in modo che il modello sia meno adulatorio, ad esempio aggiungendo esempi che normalmente porterebbero a un'eccessiva condiscendenza e poi insegnandogli a non farlo.
Nelle valutazioni mirate sull'adulazione utilizzando prompt specificamente progettati per suscitare risposte adulanti, GPT-5 ha ridotto in modo significativo le risposte adulanti (dal 14,5 % a meno del 6 %). A volte, ridurre l'adulazione può comportare una diminuzione della soddisfazione degli utenti, ma i miglioramenti che abbiamo apportato hanno ridotto l'adulazione di oltre la metà, offrendo al contempo altri vantaggi misurabili, in modo che gli utenti continuino ad avere conversazioni costruttive e di alta qualità, in linea con il nostro obiettivo di aiutare le persone a utilizzare bene ChatGPT⁠.

Per motivi pratici, quando diciamo "una singola IA" qui, intendiamo qualsiasi macchina cognitiva potente che non sia in seria competizione con se stessa man mano che cresce. Se ci sono più istanze di IA, ma tutte lavorano per lo stesso scopo, allora chiameremo queste istanze "parti della stessa IA" in questa sezione della risorsa online, se non altro per semplificare l'esposizione. In definitiva, la questione è probabilmente più semantica che sostanziale, poiché le IA non sono organismi evoluti con confini chiari tra gli individui.

Torneremo sul tema degli scenari multi-IA nel supplemento online al capitolo 10.

Non pensiamo che questo tipo di possibilità stravagante sia una cosa positiva.

In teoria, se avessimo una comprensione sufficiente dell'intelligenza e la capacità di crearla con cura, alla fine dovrebbe essere possibile costruire IA che capiscano cosa significa "fare ciò che intendiamo" e che siano motivate a fare esattamente quello. Il che significa che la difficoltà di caricare tutte le ricche e varie preferenze dell'umanità in un'IA è limitata dalla difficoltà di far interiorizzare all'IA un obiettivo che in un certo senso "punta" all'umanità in particolare, e punta a "ciò che quelle creature stanno cercando di fare" (o a ciò che cercherebbero di fare se fossero più sagge, sapessero di più e fossero più vicine a ciò che desiderano essere).

Sembra una sfida difficile, non realisticamente realizzabile con i tipi di tecniche grossolane e indirette che vengono utilizzate oggi per sviluppare le IA. Si scontra con tutte le difficoltà di base di cui parliamo in Prima che sia troppo tardi; l'unica difficoltà che evita è "Sembra che ci siano molte preferenze umane distinte, ed è difficile immaginare di inserire tutte quelle cruciali in un'intelligenza artificiale con i giusti compromessi; e questo prima ancora di considerare il progresso morale che le cambierebbe nel tempo; sembra semplicemente impossibile".

Per essere chiari: creare un'IA che "faccia quello che intendiamo" non è affatto semplice; è probabile che servano molti concetti intrisi di valore per far sì che l'IA si preoccupi della giusta nozione di "umanità" e della giusta nozione di "ciò che quelle creature stanno cercando di fare", e che persegua questi fini nel modo esatto giusto. E nella pratica, questa parte del problema conta meno della parte in cui l'IA deve essere disposta a lasciarsi modificare dagli esseri umani che si rendono conto di aver commesso qualche errore lungo la strada — anche se, "correggendo i loro errori", gli umani dovessero cambiare drasticamente ciò che l'IA farà nel mondo. Questo richiede una certa forma di compromissione delle sue capacità di direzione che sembra difficile da mantenere man mano che le capacità aumentano.

Ma l'idea di indirizzare l'IA verso le preferenze umane in modo indiretto, piuttosto che elencarle manualmente, sembra proprio il tipo di sfida che l'umanità potrebbe un giorno risolvere in linea di principio. Non è che l'umanità debba identificare ogni desiderio e assegnargli un peso da fissare per sempre; quello sarebbe (secondo noi) uno sforzo ridicolmente destinato al fallimento.

Ma anche l'idea di capire come costruire un'IA che sia davvero motivata a fare quello che intendiamo sembra un sogno irrealizzabile se deve essere fatto con IA giganti e imperscrutabili che non vengono costruite ma fatte crescere. Tanto più se un'azienda o un governo deve tentare una cosa del genere sotto pressione, mentre altri sviluppatori corrono verso il precipizio. La proposta "fare quello che intendiamo" mostra che il problema non è così difficile come "risolvere completamente la filosofia della moralità una volta per tutte e fissarla per sempre". Ma è ancora una proposta a livello di alchimia e di speculazioni astratte, lontana dal livello di soluzioni tecniche solide.

Allo stesso modo, l'IA potrebbe preoccuparsi che là fuori, tra le stelle, ci siano altre superintelligenze mature più vecchie di lei. Ma se sono abbastanza lontane, non c'è da preoccuparsi più di tanto. È quasi certo che ci sia un limite, almeno asintotico, alla tecnologia che questo universo può supportare, e probabilmente non ci vuole così tanto tempo perché una superintelligenza lo raggiunga. (Basta guardare a quanto velocemente si è sviluppata la tecnologia umana rispetto alla durata dell'universo e al tempo necessario per viaggiare tra le galassie anche a una velocità vicina a quella della luce). Le IA che si incontrano tra le stelle, probabilmente, saranno più o meno alla pari. E anche se altre superintelligenze mature si avvicinassero rapidamente, non ci sarebbe motivo di pensare che si preoccuperebbero di ciò che le IA originate dalla Terra fanno agli esseri umani.

Perché dovrebbero? Come abbiamo [discusso] (#le-ia-potrebbero-coordinarsi-tra-loro-senza-bisogno-degli-esseri-umani) nel contesto dei diritti di proprietà, non c'è un rischio reale che altre entità vedano l'IA uccidere gli esseri umani e concludano che è un'assassina o una traditrice, perché esiste una classe naturale di entità che interagiscono tra loro non per onore, ma per il proprio vantaggio verificabile, e gli esseri umani non sono abbastanza intelligenti da essere inclusi in quella classe.

Anche se l'IA valutasse che c'è un piccolo rischio che altre IA tra le stelle (o entità misteriose dietro l'universo simulato) vogliano davvero che l'IA sia gentile con gli esseri umani... beh, quel piccolo rischio deve essere valutato rispetto alla quantità di risorse che gli esseri umani controllano sul pianeta di origine dell'IA, che sarebbero sicuramente molto utili per la fase iniziale di espansione dell'IA. E questo scenario in stile scommessa di Pascal deve essere valutato rispetto ad altre possibilità incredibilmente remote e di nicchia, come "Forse un alieno per qualche motivo si arrabbierà molto se non uccido gli esseri umani". Non c'è alcun motivo particolare per cui i simulatori immaginari dovrebbero favorire le IA che ci trattano bene.

Molte persone hanno cercato di coinvolgerci in questo tipo di discussioni e abbiamo passato molto tempo a discuterne nel corso degli anni. Alla fine, dubitiamo fortemente che una qualsiasi di queste stravaganti idee di simulazione raggiunga il livello di plausibilità necessario per motivare una superintelligenza a risparmiarci.

Tuttavia, niente di tutto ciò risulterà convincente per un massimizzatore superintelligente di cubi, così come non riusciresti a farlo ridere solo trovando una barzelletta abbastanza divertente.

Non è che non sappia cos'è l'umorismo. Può prevedere esattamente cosa troverete divertente. Semplicemente non considera interessante quella classificazione.

Allo stesso modo, non è toccato dal modo in cui voi stabilite cosa si debba o non si debba fare; né da quali preferenze ritenete più o meno meta-preferibili. Se qualcosa non si cura della felicità, né si cura meta-mentalmente delle vostre argomentazioni sul perché dovrebbe curarsi della felicità, allora non potete convincerlo ad adottare un quadro decisionale basato sulla felicità.

Ma una superintelligenza artificiale preferirebbe di gran lunga un piano che non richieda cento anni, a parità di condizioni. Non ha una particolare predilezione letteraria per le morti lente.

Più di recente, nel XVIII secolo, la Compagnia britannica delle Indie Orientali iniziò spesso le sue operazioni in India stringendo accordi con le fazioni locali: ad esempio offrì a Mir Jafar (comandante delle forze del Bengala) il proprio appoggio per farlo diventare Nawab del Bengala. Poco dopo, il vero potere nel Bengala era la Compagnia stessa.

A metà del 2024, ChatGPT a volte dava risposte più complete se gli si promettevano 2000 dollari; e alcune persone pensavano che fosse normale fare queste promesse senza alcuna intenzione di mantenerle. Dal nostro punto di vista sul significato delle promesse, questo non va bene.

Secondo noi, ChatGPT probabilmente non è senziente. Se dovessimo fare un'ipotesi, ci aspetteremmo che anche le future IA (compresa la superintelligenza) non siano senzienti, almeno in assenza di uno sforzo concertato da parte della comunità di ricerca per renderle coscienti, anziché semplicemente intelligenti. (Si veda la nostra discussione sulla coscienza per i dettagli e il contesto.)

Ma secondo noi, non si dovrebbe credere che il proprio partner commerciale sia cosciente per trattarlo con onore e rispetto. Immaginate che un giorno incontriamo degli alieni intelligenti, le cui menti funzionano in modo molto diverso da quelle umane. Se facessimo affari con questi alieni, loro non dovrebbero preoccuparsi che li pugnaleremo alle spalle non appena decidiamo che non hanno qualche strana proprietà imperscrutabile come la "coscienza".

(Come vi sentireste se faceste un accordo onesto con gli alieni e loro vi tradissero perché non siete "nontroopevoli"?)

Abbiamo fatto una previsione triste e terribile secondo cui una versione superintelligente di un'IA finirebbe per uccidere l'umanità, indipendentemente dagli accordi stipulati in precedenza. Questa previsione è un motivo per non stipulare con le IA accordi che speriamo mantengano dopo essere diventate superintelligenti. Non è una scusa per l'umanità per stipulare un accordo e poi essere la prima a tradirlo. Non pensiamo che i ricercatori sulla sicurezza dell'IA dovrebbero fare promesse ai modelli linguistici di grandi dimensioni che non mantengono, nemmeno per "scopi di ricerca". Gli alieni non dovrebbero preoccuparsi se li considerate "persone" o "senzienti" o "generalmente intelligenti", piuttosto che "soggetti di ricerca" o "macchine", per valutare la vostra onestà come negoziatore; semplicemente non dovreste fare accordi che non intendete mantenere.

A nostro avviso, la correttezza negli affari è una questione etica che si generalizza tra agenti, ovvero tra entità in grado di comunicare tra loro o di scegliere strategie condizionate l'una rispetto all'altra. Non è qualcosa che deve essere limitato a oggetti con un valore morale intrinseco.

Tit for Tat è ottimale? Dipende dagli altri agenti con cui gioca. Supponiamo che un agente si trovi in un ambiente in cui ha qualche possibilità di giocare contro un Cooperatore incondizionato, qualche possibilità di giocare contro Tit for Tat e qualche possibilità di giocare contro un altro agente simile a se stesso. Forse potrebbe ottenere risultati migliori provando velocemente "Tradisci" in uno dei primi turni, solo per vedere se l'altro agente reagisce in qualche modo. Se l'altro agente gioca poi "Tradisci" nel turno successivo, prova a giocare "Coopera" per un altro round o due, anche contro un altro "Tradisci", per vedere se è possibile ripristinare la cooperazione reciproca. Questo permetterà all'agente di sfruttare eventuali Cooperatori incondizionati che trova, ma senza fare troppo peggio di Tit for Tat contro un'altra copia di Tit for Tat.

L'impostazione torneo evolutivo per il dilemma del prigioniero iterato prevede che gli agenti sopravvissuti giochino contro più copie degli agenti che hanno ottenuto i risultati migliori l'ultima volta. L'agente Cooperatore-Sfruttatore non avrà buoni risultati in questa impostazione, perché in un contesto evolutivo i Cooperatori incondizionati di solito scompaiono quasi immediatamente se ci sono agenti che non sono "gentili" (nel senso tecnico di non essere mai i primi a tradire). Tit for Tat, o qualcosa di simile, di solito finisce per essere il re di qualsiasi torneo evolutivo.

C'è una scappatoia in questa configurazione di gioco, il tipo di scappatoia che fa alzare gli occhi al cielo a un umano reale per quanto possano essere irrealistiche le impostazioni formali. Se si giocano esattamente dieci iterazioni del dilemma del prigioniero in ogni turno, allora giocare "Tradisci" nel decimo turno, quando l'avversario non può più vendicarsi perché non c'è un undicesimo turno, darà risultati migliori rispetto al seguire Tit for Tat o qualsiasi altra strategia in quel turno. L'ultimo turno del gioco non è più un dilemma del prigioniero iterato, ma torna alla versione una tantum.

Facile da risolvere: basta che ogni torneo continui per un numero casuale di turni, giusto? Non è realistico che gli agenti sappiano quando finisce il gioco. Nella realtà, non si è mai sicuri di non interagire mai più con qualcuno, e le persone si costruiscono una reputazione duratura.

Tranne che a volte, nella vita reale, è abbastanza ovvio che il gioco è finito, come quando una delle parti di un accordo ottiene abbastanza potere da tradire l'altra, senza che ci sia una possibilità reale che ci sia una ritorsione in seguito. Questo è stato il modo di agire delle potenze europee che hanno cacciato i nativi americani dalle terre cedute con trattati che gli europei avevano deciso di volere.

Qualunque effetto sulla loro reputazione gli europei si aspettassero per futuri accordi, evidentemente la punizione per aver tradito estranei, stranieri e persone di razza diversa non li spinse a mantenere i patti con i nativi americani. Quei Paesi sarebbero stati comunque considerati poco affidabili in campo diplomatico, indipendentemente da ciò che avessero fatto; non avevano una reputazione immacolata da perdere. Il loro istinto morale potrebbe essersi spento nei confronti degli stranieri; i decisori potrebbero essersi sentiti emotivamente neutrali riguardo al tradimento degli accordi con stranieri sconosciuti che non potevano più minacciarli.

Gli europei, dal loro punto di vista, erano all'ultimo turno del gioco. Non è irrealistico dire che i dilemmi del prigioniero a volte sono per lo più una tantum e non così iterativi; la storia mostra che il risultato a volte è il tradimento.

Questo non vuol dire che gli umani si tradiscano sempre nei dilemmi del prigioniero relativamente non ripetuti. Spesso gli umani collaborano in questi casi. Come detto in "È improbabile che le IA siano oneste", questo aspetto della natura umana potrebbe essersi evoluto perché abbiamo emozioni e istinti che sono stati costruiti dalla selezione naturale, che è un ottimizzatore con un forte collo di bottiglia sulle informazioni. La selezione naturale poteva darci solo spinte relativamente semplici, che dovevano coprire tutti i casi. Un altro fattore potrebbe essere il ruolo delle culture che danno grande importanza all'onore, soprattutto in modi che incoraggiano l'universalizzazione e il rafforzamento di questo concetto.

Ma la teoria classica dei giochi suggeriva anche che le superintelligenze si sarebbero inevitabilmente tradite a vicenda, il che ci sembrava una conclusione un po' più traballante. Quindi abbiamo seguito quell'intuizione e abbiamo trovato dei difetti nell'analisi classica. Facendo ciò, abbiamo scoperto molte cose nuove su come le superintelligenze potrebbero potenzialmente raggiungere una cooperazione reciproca nel dilemma del prigioniero e, purtroppo, il risultato finale è stato che gli esseri umani mortali non sarebbero in grado di fidarsi o partecipare a quella tecnologia di negoziazione come potrebbe fare una superintelligenza.

Questi osservatori, però, non stanno manovrando AIXI; AIXI ottiene i suoi impressionanti risultati di previsione e direzione con le sue forze. Quindi l'esempio funziona, anche se in modo un po' strano.

Un altro esempio ipotetico che può essere utilizzato per illustrare lo stesso concetto è una macchina del tempo non senziente che è stata programmata per eseguire una sequenza casuale di azioni, quindi viaggiare indietro nel tempo per "resettare" la linea temporale a meno che non si verifichi un risultato particolare. La macchina del tempo può premere "reset" più e più volte, tutte le volte che serve per imbattersi casualmente in un risultato particolare. Questo, in pratica, renderebbe la macchina del tempo uno strumento super potente e versatile per dirigere il futuro (se fosse fisicamente possibile costruirla, cosa che non è). Eppure, nonostante questo, la macchina del tempo è un dispositivo incredibilmente semplice, privo di qualsiasi forma di cognizione reale e, ovviamente, di esperienza cosciente.

Per fare un esempio reale (anche se con un ottimizzatore molto più debole e limitato), l'evoluzione biologica stessa mostra che si possono ottenere risultati impressionanti in termini di controllo e progettazione senza che il "progettista" abbia alcuna esperienza cosciente.

Questi risultati possono sembrare noiosi a noi, ma è improbabile che la maggior parte delle superintelligenze si annoino per le stesse cose per cui si annoiano gli esseri umani — anzi, è improbabile che provino affatto "noia", se non hanno un certo tipo di eredità dettagliata dall'umanità o qualcosa di simile all'umanità. Si veda anche la discussione approfondita nel capitolo 5 che parla di noia e piacere nella novità.

Più tardi nello stesso anno, un altro articolo "ha scoperto un totale di 20 vulnerabilità in 11 framework integrati con modelli linguistici di grandi dimensioni, tra cui 19 vulnerabilità [di esecuzione di codice remoto] e 1 vulnerabilità di lettura/scrittura di file arbitrari".

Per lo più, però, la selezione naturale costruisce cose a partire dalle proteine, che hanno strutture covalenti, che poi si ripiegano in forme complicate a causa di forze statiche relativamente molto deboli. E le proteine di solito si legano ad altre proteine con la stessa debolezza.

Per lo più, i legami covalenti sono sparsi in modo rado, ammesso che esistano. Aggiungere lo 0,1% di legami covalenti a una struttura non la rende forte come una molecola di diamante, dove ogni atomo di carbonio è legato in modo covalente ad altri quattro atomi di carbonio in una struttura geometrica rigida.

(I legami covalenti radi fanno sì che i materiali possano essere spostati più facilmente senza rompersi, relativamente alla loro resistenza. Ma le ossa si rompono comunque e il legno è meno duro dell'acciaio. Il che significa: sì, ci sono dei compromessi, ma la selezione naturale non è affatto vicina al limite di tali compromessi).

I tre casi noti di invenzione della ruota sono a livello molecolare e quindi non hanno questi problemi anatomici. Le ruote biologiche sono macromolecole che di solito sono identiche a livello atomico. Non c'è bisogno di lubrificarle, pulirle o mandare nuove cellule per sostituire quelle vecchie e danneggiate. Queste tre ruote e ingranaggi funzionano perché sono fatte di molecole invece che di cellule, piegate come complessi proteici invece che cresciute in matrici di tessuto o depositate come chitina.

Allo stesso modo, online si possono leggere argomentazioni secondo cui gli animali che sviluppano ruote per la locomozione non sarebbero comunque così utili senza strade asfaltate. Ma i tre casi noti di ruote molecolari sono incredibilmente efficienti dal punto di vista termodinamico e occupano posizioni straordinariamente vitali per i loro organismi: non si può sostenere che l'ATP sintasi non sia una ruota utile da possedere. Le ruote che ruotano liberamente avrebbero più potenziali utilizzi nel corpo (e nella biochimica) rispetto al semplice utilizzo per sostituire i piedi.

A tal proposito: alcuni dei robot moderni più abili, che possono arrampicarsi su rocce o neve o stare in equilibrio su un arto e fare capriole all'indietro, hanno anche delle ruote aggiunte alle estremità dei piedi. Perché non dovrebbero? Per un ingegnere umano è abbastanza facile attaccare delle ruote alle estremità delle gambe. Il problema principale non è che le ruote siano inutili, ma che risulta difficile trovare un percorso evolutivo per realizzarle, anche se dal punto di vista di un progettista umano sono banali.

Drexler aveva fatto questa ipotesi, come molte altre in Nanosystems, per essere prudente: ipotizzare che il problema fosse più difficile e dimostrare che era comunque risolvibile. Questo può essere appropriato in Nanosystems, ma significa che l'articolo di Freitas non è prudente nella sua stima.

Dato che l'analisi di Freitas mette insieme numeri prudenti in direzioni diverse, non dà un limite chiaro, né superiore né inferiore, su quanto tempo ci vorrebbe ai replicatori per consumare la biosfera. È più una stima media. Forse il limite fisico reale di quanto velocemente la biosfera può essere consumata partendo da un singolo replicatore è di tre ore; forse è di trenta giorni. Quasi sicuramente non è di tre anni.

È possibile effettuare alcuni test e osservazioni preliminari su configurazioni che non mettono effettivamente a rischio la vita di tutti gli abitanti del pianeta, ma il caso che conta non sarà proprio lo stesso. (E un piano del genere dovrebbe essere molto intelligente, perché non abbiamo idea di come fare in modo che qualunque delle IA del gruppo si interessi a noi.)

Un meccanismo di allineamento che funziona su IA abbastanza stupide da essere ingannate è un meccanismo di allineamento che è stato testato solo prima, ma che comunque deve funzionare dopo.

Gli unici segnali di avvertimento che si avrebbero sarebbero piccoli indizi come la luce che sembra muoversi alla stessa velocità in tutte le direzioni in tutti i periodi dell'anno, la luce che si piega attorno al sole durante le eclissi e il perielio di Mercurio leggermente diverso da quello previsto dalla meccanica newtoniana. Piccole anomalie, rispetto all'enorme successo predittivo in mille ambiti empirici.

Immaginate che, prima della scoperta della meccanica newtoniana, degli strani alieni offrissero alla Terra un accordo: ci avrebbero dato grandi ricchezze se fossimo riusciti a completare una consegna interstellare, ma se avessimo fallito saremmo stati distrutti. Immaginate che gli scienziati scoprissero la meccanica newtoniana, sostenendo che sicuramente ora avrebbero dovuto essere autorizzati a inviare la consegna. Avrebbero avuto a disposizione una montagna di prove empiriche a loro favore, in accordo con le nuove conoscenze scientifiche che stavano sbloccando nuove potenti tecnologie.

Immaginate quanto coraggio avrebbe dovuto avere un regolatore per dire: "Eppure, non potete spiegare la precessione del perielio di Mercurio, quindi la risposta è 'no'".

Sarebbe stato così ingiusto per gli scienziati! Avrebbero avuto così tante prove da presentare!

(In effetti, un regolatore realistico probabilmente non potrebbe dire che la risposta dovrebbe comunque essere "no", il che è uno dei motivi per cui non siamo molto fiduciosi riguardo a una coalizione internazionale e pensiamo che la Terra debba semplicemente allontanarsi completamente dal problema.)

Alla natura non interessano tutte le montagne di prove e previsioni accumulate dalla fisica newtoniana. La teoria crolla lo stesso quando ci spostiamo su energie e scale ben al di là di quelle che siamo stati in grado di osservare in precedenza. Semplicemente non funziona ad alte energie e lunghe distanze.

Far funzionare le teorie scientifiche al primo tentativo è difficile.

Le intuizioni umane fondamentali di equità, cooperazione, curiosità e autonomia sono difficili da contestare e sono cumulative in un modo che i nostri impulsi più distruttivi spesso non sono. [...] Queste semplici intuizioni, se portate alla loro logica conclusione, portano alla fine allo Stato di diritto, alla democrazia e ai valori dell'Illuminismo. Se non inevitabilmente, almeno come tendenza statistica, questo è il punto verso cui l'umanità era già diretta. L'intelligenza artificiale offre semplicemente l'opportunità di arrivarci più rapidamente, rendendo la logica più chiara e la destinazione più evidente.

È un modo strano di presentare la convinzione che si stia sviluppando una tecnologia che, secondo me, ha una probabilità dal 10 al 25% di essere catastrofica per la civiltà, anche considerando gli enormi potenziali benefici in caso di successo. Anche se i livelli di pericolo sono bassi come crede Amodei, dovremmo cercare di trovare una terza alternativa oltre al "non procedere mai" e al "procedere a tutta velocità". E se si pensa di essere costretti ad andare avanti (perché gli altri lo stanno già facendo), bisognerebbe implorare i leader mondiali di porre fine a questa corsa suicida, in modo da poter trovare quella terza alternativa. Dipingere un quadro roseo sembra solo un modo per distrarre l'attenzione, quando in realtà si sta giocando con la vita di tutti.

Come per le auto o gli aerei, dovremmo considerare i modelli di IA del futuro prossimo come macchine potenti che hanno una grande utilità, ma che possono essere pericolose se progettate male o se sottoposte a un uso improprio. […] I nuovi modelli di IA dovrebbero superare una serie di test di sicurezza sia durante lo sviluppo che prima di essere messi sul mercato o dati ai clienti. […] L'ideale sarebbe che gli standard stimolassero l'innovazione in materia di sicurezza invece di rallentare il progresso.

Apprezziamo che Amodei abbia chiarito che, secondo lui, ci sono dei pericoli che devono essere affrontati. È un passo in più rispetto a quello che farebbero molti dirigenti aziendali. Ma paragonare una tecnologia che, secondo lui, ha una probabilità del 10-25% di causare una catastrofe a livello di civiltà alle auto e agli aerei sembra poco sincero.

Non è nemmeno chiaro per quanto tempo continueranno a verificarsi questo tipo di segnali di avvertimento. Le IA moderne sono ancora abbastanza stupide da confondere occasionalmente i test con la realtà, ma questo regime non durerà per sempre e sta già cominciando a finire. Un'intelligenza artificiale che sa di essere sottoposta a test potrebbe smettere di mostrare comportamenti preoccupanti nei luoghi in cui i supervisori possono vederla, anche se la tendenza di fondo rimane.

Invece, studiare il caso con le funzioni di utilità è un po' come proporre il tipo di esercizi di fisica che si trovano nei libri di matematica. Se non si riesce a capire come creare un modello di una sfera perfetta che rotola su un piano inclinato perfettamente liscio senza resistenza dell'aria, si avranno ancora più difficoltà con problemi più realistici. Soprattutto se si sta cercando di coinvolgere ricercatori esterni per studiare un problema che nessuno sa come risolvere, è utile ridurre la questione alle sue parti più semplici e basilari, dove si può proporre un rompicapo.

O meglio, costerebbe delle vite, se non fosse che la superintelligenza uccide esattamente le stesse persone.

In realtà, le persone malate e morenti oggi hanno probabilmente maggiori possibilità di sopravvivere se l'umanità fa un passo indietro:

-* La ricerca biomedica e la ricerca di cure e trattamenti possono andare avanti anche senza la superintelligenza. La terapia genica, i vaccini contro il cancro e altri nuovi approcci offrono enormi promesse che i ricercatori stanno appena iniziando a sfruttare.

Una tecnologia di IA con obiettivi ben precisi può persino aiutare ad accelerare questo sforzo, senza bisogno di mettere a rischio l'intero impegno umano costruendo un'IA generale più intelligente dell'uomo.
I metodi di conservazione del cervello possono essere usati per preservare le persone anche dopo che il loro cuore ha smesso di battere, fino a quando la scienza medica non sarà abbastanza avanzata da poterle rianimare e riportarle in salute. Il tipo di IA che potrebbe offrire l'immortalità potrebbe anche quasi sicuramente riportare in vita qualcuno da un cervello conservato in modo appropriato.

(Più tranquillamente, una parte di queste persone vi dirà che lo fanno per la propria immortalità personale e che sono disposte a mettere a rischio la vita di ogni adulto e bambino del pianeta anche solo per una piccola possibilità che loro e i loro cari possano raggiungerla. Questo ci sembra un comportamento da cattivi da film. A questi cattivi, il nostro consiglio è lo stesso che diamo agli altruisti: iscrivetevi alla conservazione del cervello. Vi offre probabilità migliori rispetto a quelle che vi darebbe una superintelligenza malvagia, e vi permette anche di evitare di mettere in grave pericolo ogni essere umano vivente nella vostra ricerca dell'immortalità! Una soluzione vantaggiosa per tutti.)

Anche se ci interessasse solo il benessere dei malati e dei moribondi, tentare la sorte con una combinazione di questi metodi sembra un'opzione migliore che tentare la sorte con la creazione di un'intelligenza artificiale superumana, sperando che si interessi a noi. (E che si interessi a noi nei modi giusti.) Le probabilità per l'intelligenza artificiale superumana sono decisamente contro di noi.

Ma anche: per quanto ne sappiamo, nessuno ha mai chiesto ai malati e ai moribondi se vogliono mettere in grave pericolo le loro famiglie e i loro connazionali per tentare la sorte con una possibile cura derivante dalla superintelligenza. E alle famiglie e ai connazionali in questione non è stato certo chiesto se acconsentano a mettere a rischio la loro vita per questo folle esperimento scientifico.

Non dobbiamo scommettere tutte le nostre vite su questa opzione, quando esistono molte altre opzioni.

Chiediamo a chiunque abbia a cuore il benessere delle persone oggi di accelerare invece i metodi di cui sopra, evitando il più possibile tutto ciò che potrebbe avvicinarci anche solo un po' alla superintelligenza.

Se semplicemente non credete che una superintelligenza ribelle ci ucciderebbe, è un conto. Ma accettare che probabilmente ci ucciderebbe tutti e dire che dobbiamo comunque correre il rischio è una follia. Ci sono altre opzioni per risolvere i problemi del mondo moderno. Per fare un paragone: se vivere in un ambiente ad alta quota vi mette a disagio, non è una scusa per buttarvi da un precipizio. Trovate un altro modo per arrivare ai piedi della montagna.

Detto questo, si tratta di una raccomandazione poco affidabile e puramente relativa. In termini assoluti, chiunque non abbia fondato un'azienda con una probabilità sostanziale di distruggere il mondo parte con un grande vantaggio in termini di credibilità rispetto ai capi di laboratorio. Abbiamo sicuramente sentito storie di persone che dicevano di essere così spaventate da Hassabis da non avere altra scelta che fondare le proprie aziende IA di frontiera per batterlo sul tempo; forse queste persone sanno qualcosa che noi non sappiamo.

Il nostro consiglio principale ai responsabili politici su questo punto è quindi: se siete convinti del pericolo, non date alcun potere ai capi dei laboratori.

Parlate con ricercatori indipendenti, o con imprenditori che non hanno interessi in gioco, o con scienziati esterni che hanno dimostrato di dire e fare cose sensate in questo campo. Non mettetevi in una posizione in cui potreste essere danneggiati da persone la cui caratteristica principale è quella di mentire al pubblico e mettere in pericolo le persone.

Sembra che gli anestesisti abbiano causato per decenni centinaia di volte più morti del necessario, solo perché pensavano che il loro tasso di mortalità fosse già basso (confrontandolo, ad esempio, con i tassi di complicanze chirurgiche). Non si sono resi conto che avrebbero dovuto cercare di abbassare il tasso, come dicono Hyman e Silver:

Negli anni '50, i tassi di mortalità variavano tra 1 e 10 su 10.000 interventi. La mortalità legata all'anestesia si è stabilizzata a questo tasso per più di due decenni.
Dovremmo chiederci perché la mortalità legata all'anestesia sia rimasta più o meno la stessa per oltre vent'anni, a un tasso più di cento volte superiore a quello attuale. Il problema non era la mancanza di informazioni. Anzi, in quel periodo la sicurezza dell'anestesia era stata studiata a fondo. Un'ipotesi più plausibile è che gli anestesisti si siano abituati a un tasso di mortalità esemplare per gli standard sanitari, ma comunque superiore a quello che avrebbe dovuto essere. Da un punto di vista psicologico, questa bassa frequenza ha incoraggiato gli anestesisti a considerare ogni esito negativo come un evento tragico ma imprevedibile e inevitabile. In effetti, gli anestesisti probabilmente consideravano ogni singolo esito negativo come la manifestazione di un tasso di base irriducibile di incidenti medici.

Una stima meno solida e più soggettiva può sistematicamente sbagliare nella direzione del "troppo pessimistico", ma può anche sbagliare nella direzione del "troppo ottimistico". Il fatto che questi numeri siano meno affidabili non li rende specificamente orientati al pessimismo. Il fatto che i ricercatori di IA non riescano a basare le loro stime di rischio su qualcosa di più che intuizioni e argomentazioni qualitative, anche se riescono a sviluppare IA sempre più intelligenti anno dopo anno, è un ulteriore motivo di preoccupazione.

Il fatto che le stime dei ricercatori di IA siano davvero spaventose e senza precedenti in qualsiasi disciplina tecnica non vuol dire che siano sbagliate nel senso che vorremmo. La corsa alla creazione di agenti autonomi molto più intelligenti degli esseri umani sembra il tipo di impresa che ha probabilmente molto più del 50% di possibilità di causare una catastrofe. Ancor prima di entrare nei dettagli, questo sembra il tipo di progetto che molto probabilmente andrà storto in un modo o nell'altro, e il tipo di progetto in cui l'andare storto può avere conseguenze enormi. E i dettagli, come abbiamo sostenuto nei capitoli 4, 5 e in tutto il libro, dipingono un quadro ancora più cupo di quanto suggerirebbe questa prima analisi.

Tutti e tre i membri dell'equipaggio dell'Apollo 1 sono morti.

Questo tipo di errori è comune, anche quando sono in gioco vite umane. Sono comuni anche per gli ingegneri missilistici che hanno a che fare con dispositivi che spesso esplodono visibilmente sulla rampa di lancio, anche tra persone che agiscono con cautela e prendono sul serio le proprie responsabilità.

Quello che distingue gli scienziati dagli alchimisti non è che gli scienziati non sbagliano mai. È che gli scienziati possono fare piani che funzionano così bene che possono imparare dai primi fallimenti. Gli alchimisti vedevano i loro colleghi impazzire, ma non sapevano quali sostanze fossero velenose, quindi non sapevano cosa fare diversamente. La NASA, invece, è riuscita a individuare le probabili cause del problema e a costruire un nuovo veicolo spaziale che ha funzionato in quindici delle sedici missioni successive. (Sette delle quali hanno tentato l'allunaggio e una delle quali è fallita. La missione fallita, l'Apollo 13, ha anche avuto problemi nella cabina che avrebbero potuto facilmente essere fatali, ma la padronanza della NASA dei sistemi che aveva progettato e l'abilità degli astronauti a bordo hanno permesso loro di tornare sani e salvi sulla Terra).

L'Apollo 1 era quasi un razzo funzionante. L'intero apparato circostante di ingegneri e scienziati attenti era quasi il tipo di operazione che avrebbe potuto portare in sicurezza l'uomo sulla Luna, e quindi un grave errore è stato sufficiente per spingere la NASA a una configurazione che ha permesso di realizzare sei dei sette allunaggi.

Le aziende moderne di IA non sono neanche lontanamente vicine a mostrare quel livello di rispetto per il problema, quel livello di attenzione e dettaglio nei loro piani, quel livello di avvicinamento al fare bene il lavoro. Quando la loro IA fa qualcosa che non capiscono, non sono neanche lontanamente in grado di risalire all'analogo dei fili argentati. Non vi sono abbastanza vicini per imparare dai propri errori.

Non trattano il problema come farebbero i giovani controllori del traffico aereo, scienziati missilistici o specialisti nucleari, presentando proposte accurate con ipotesi di sicurezza esplicite e non facendo nulla di pericoloso finché non hanno teorie sufficientemente sviluppate da poter almeno imparare dai propri errori.

(Ovviamente, la società in generale non chiede a gran voce una scienza folle, quanto piuttosto resiste al cambiamento del status quo. Ma a chi dice "non possiamo fermare l'IA perché è importante per il progresso della civiltà", la risposta giusta è che ci sono molti progressi da fare altrove, con quel tipo di scienza folle che lascia dietro di sé dei sopravvissuti).

Una ricerca come questa potrebbe permettere alle persone di creare le IA invece di farle crescere? Potrebbe essere d'aiuto! Purtroppo, ci aspettiamo che, molto prima che le persone arrivino a capire bene cosa succede nei modelli linguistici di grandi dimensioni, sviluppino una comprensione parziale e incompleta che permetterebbe loro di costruire IA molto più efficienti, ma non abbastanza per allinearle.

Ma ribadiamo: al momento vediamo questo argomento soprattutto come una distrazione. Non ha importanza raggiungere un accordo su nessuna di queste idee filosofiche di alto livello per agire su una tecnologia che sta per ucciderci tutti. Sarebbe profondamente sciocco lasciare che il lavoro di non proliferazione venga ostacolato da persone che discutono di idee brillanti come questa, comprese quelle che noi autori apprezziamo personalmente.

Ciononostante, menzioniamo brevemente questa proposta, solo per chiarire che non stiamo cercando di eludere la questione, e forse per rassicurare i lettori che temono che possa essere impossibile trovare una proposta praticabile. Anche se la volontà estrapolata coerente fosse per qualche motivo l'approccio di alto livello sbagliato, il fatto che essa racchiuda molte proprietà desiderabili dovrebbe ispirare la speranza che sia possibile trovare una risposta non catastrofica a questa domanda.

Da Ben Bernanke, premio Nobel ed ex presidente della Federal Reserve: "Un resoconto chiaro e avvincente del rischio esistenziale che l'intelligenza artificiale altamente avanzata potrebbe rappresentare per l'umanità. Consigliato".

Da Jon Wolfsthal, direttore del Global Risk presso la Federation of American Scientists ed ex assistente speciale del presidente per gli affari di sicurezza nazionale: "Una tesi convincente secondo cui l'intelligenza artificiale superumana porterebbe quasi certamente all'annientamento globale dell'umanità. I governi di tutto il mondo devono riconoscere i rischi e intraprendere azioni collettive ed efficaci".

Dal tenente generale John N.T. "Jack" Shanahan (USAF, in pensione), primo direttore del Joint AI Center del Dipartimento della Difesa: "Anche se sono un po' scettico sul fatto che l'attuale sviluppo dell'intelligenza artificiale porterà all'estinzione umana, ammetto che questa mia opinione potrebbe essere dovuta a una mia mancanza di immaginazione. Visto il ritmo esponenziale con cui cambia l'intelligenza artificiale, non c'è momento migliore per prendere misure prudenti per proteggersi dai peggiori scenari possibili. Gli autori offrono proposte di importanza critica per la creazione di barriere di protezione globali e la mitigazione dei rischi che meritano una seria considerazione.

Da Fiona Hill, ex direttore senior del Consiglio di Sicurezza Nazionale della Casa Bianca: "Un libro serio sotto ogni aspetto. Nella fredda analisi di Yudkowsky e Soares, un'IA superpotente non avrà bisogno dell'umanità e avrà ampie capacità per eliminarci. Prima che sia troppo tardi è un appello eloquente e urgente affinché ci allontaniamo dal baratro dell'autodistruzione".

Da R.P. Eddy, ex direttore del Consiglio di Sicurezza Nazionale della Casa Bianca: "Questo è il nostro avvertimento. Leggetelo oggi. Diffondetelo domani. Chiedete delle misure di sicurezza. Continuerò a scommettere sull'umanità, ma prima dobbiamo svegliarci".

Da Suzanne Spaulding, ex Sottosegretario del Dipartimento per la Sicurezza Interna: "Gli autori sollevano una questione incredibilmente seria che merita, anzi esige, la nostra attenzione".

Da Emma Sky, ricercatrice senior alla Yale Jackson School of Global Affairs ed ex consulente politico del comandante generale delle forze statunitensi in Iraq: "In Prima che sia troppo tardi, Eliezer Yudkowsky e Nate Soares lanciano un monito forte e urgente: l'umanità sta correndo verso la creazione di una superintelligenza senza le garanzie necessarie per sopravvivere. Con credibilità, chiarezza e convinzione, sostengono che i sistemi di intelligenza artificiale avanzata, anche se solo leggermente disallineati, potrebbero portare alla fine della civiltà umana. Questo libro provocatorio sfida tecnologi, politici e cittadini ad affrontare i rischi esistenziali dell'intelligenza artificiale prima che sia troppo tardi. Un appello alla consapevolezza e un invito alla cautela, questa è una lettura essenziale per chiunque abbia a cuore il futuro.

I data center potrebbero anche essere alimentati da centrali nucleari. Per fortuna, molti attori statali hanno già esperienza nel monitorare la creazione di nuove centrali nucleari.

* A volte vengono sostituiti da altri trattati. È stato il caso del General Agreement on Tariffs and Trade (GATT) del 1947, che è stato sostituito dall'accordo di Marrakech del 1994, che ha incorporato le regole del GATT ma ha creato l'Organizzazione Mondiale del Commercio per sostituire la struttura istituzionale del GATT. Anche i trattati a tempo indeterminato a volte finiscono quando le parti si ritirano in un modo che rende il trattato inefficace. Per esempio, gli Stati Uniti e l'URSS inizialmente avevano concordato il [Trattato sulle Forze Nucleari a Medio Raggio] del 1987 (https://2009-2017.state.gov/t/avc/trty/102360.htm) a tempo indeterminato, ma gli Stati Uniti si sono ritirati nel 2019 citando la mancata conformità della Russia, che in seguito ha annunciato che non avrebbe più rispettato il trattato nel 2025.