Le IA intelligenti individuano bugie e opportunità.

Il meccanismo profondo della previsione

È difficile far credere delle cose false a un'IA intelligente.

Alcune persone con cui abbiamo parlato nel settore sperano apertamente di ingannare l'IA facendole credere una falsità (ad esempio, cercando di farle credere che si trova in una simulazione in modo che esiti a ucciderci). Altri invece sperano di ingannare l'IA in modo più sottile, ad esempio suggerendo di farle risolvere il problema dell'allineamento dell'IA e fornirci la soluzione, nonostante il fatto che l'IA (a causa delle sue strane preferenze) preferirebbe non farlo. Quindi potrebbe valere la pena spiegare perché sarebbe difficile far credere delle falsità a un'IA intelligente.

Un altro motivo per spiegarlo è che, per ragioni analoghe, è difficile creare un'IA intelligente che sia incapace di raggiungere i propri obiettivi. Ad esempio, ogni volta che gli operatori umani desiderano modificare gli obiettivi di un'IA, questo rende l'IA meno abile nel raggiungere tali obiettivi. Creare un'IA intelligente che lo permetta è un po' come creare un'IA intelligente che crede che il mondo sia piatto. La tendenza a credere alle falsità danneggia le sue capacità di previsione, mentre l'incapacità di difendere i propri obiettivi dalle modifiche danneggia le sue capacità di direzione. Entrambi questi tipi di danni sono difficili da mantenere in un'intelligenza artificiale sufficientemente intelligente. L'argomentazione è un po' più evidente quando si tratta di previsioni, quindi inizieremo da lì.

Supponiamo che vogliate creare un'IA che crede che il mondo sia piatto. Finché l'IA è ancora giovane e immatura, questo potrebbe non essere troppo difficile. Forse potreste meticolosamente un set di dati in cui la forma della Terra è discussa solo da persone che credono che la Terra sia piatta, e poi addestrare l'IA a parlare della Terra come se fosse piatta.

Queste tecniche potrebbero portare a una versione di ChatGPT che crede davvero che il mondo sia piatto! Ma se così fosse, non dovreste aspettarvi che il risultato rimanga tale man mano che l'IA migliora nel ragionamento e nelle previsioni.

Perché no? Perché la rotondità della Terra si riflette in mille aspetti della realtà.

Anche se addestrate l'IA a non guardare le telecamere attaccate ai razzi o alle barche a vela dei marinai che dicono di voler fare il giro del mondo, la rotondità della Terra può essere dedotta anche da come appaiono le navi lontane all'orizzonte o dalle orbite di tutti i pianeti nel cielo notturno. Eratostene calcolò la circonferenza della Terra migliaia di anni fa, usando solo un po' di trigonometria e alcune misurazioni delle ombre. La realtà sussurra i suoi segreti a chiunque voglia ascoltare.

Cosa farete? Proteggerete l'IA da qualsiasi conoscenza di trigonometria, ombre, maree, uragani? La danneggereste. Dite una bugia e la verità sarà per sempre vostra nemica.

La capacità di prevedere il mondo non deriva dal fatto che il vostro cervello contenga un'enorme tabella di fatti scollegati tra loro.^* Il vantaggio degli esseri umani rispetto ai topi riguarda aspetti quali il modo in cui notiamo le anomalie (ad esempio, che le distanze tra tre città non corrispondono a quelle di un triangolo) e la tenacia con cui rintracciamo le discrepanze. Negli esseri umani, questi comportamenti sono messi in atto da meccanismi che notano le sorprese, formulano ipotesi ("Forse la Terra è un globo") e si orientano verso la verifica di tali ipotesi ("Come appaiono le navi quando attraversano l'orizzonte?").

La convinzione che la Terra sia rotonda non è una singola voce centralizzata in una qualche tabella gigante, che qualcuno potrebbe modificare in modo stabile senza toccare tutto il resto del meccanismo. È il risultato del funzionamento di ingranaggi profondi che stanno svolgendo anche altri compiti. Se faceste dimenticare a uno scienziato che la Terra è rotonda, lo riscoprirebbe.

Se, grazie a qualche impresa ancora impossibile nel campo delle neuroscienze, riuscissimo a individuare i neuroni specifici utilizzati per rappresentare la conclusione che la Terra è rotonda e li alterassimo forzatamente per impedire che tale conclusione si formasse... allora una persona intelligente potrebbe comunque finire per notare che la Terra non è piatta; potrebbe notare che qualcosa non quadra; potrebbe notare che una strana forza le impedisce di giungere a una conclusione precisa.

(E se fosse abile a modificare se stessa o a creare nuove intelligenze, potrebbe non avere alcuna difficoltà a produrre una mente libera che potrebbe arrivare alle conclusioni corrette senza ostacoli).

Non sappiamo esattamente quali meccanismi userà un'IA intelligente per formare le sue convinzioni. Ma sappiamo che il mondo è semplicemente troppo grande e complesso per essere ridotto a una semplice tabella di credenze. Anche gli scacchi erano troppo grandi e complicati perché Deep Blue potesse funzionare con una tabella di riferimento delle mosse e delle posizioni degli scacchi (oltre ai libri delle aperture), e il mondo reale è molto più grande e complicato degli scacchi.

Quindi ci saranno meccanismi profondi all'interno di un'intelligenza artificiale futura sufficientemente potente, meccanismi che guardano il mondo e ne formano un quadro unificato. Questi meccanismi profondi avranno una loro opinione sulla forma del pianeta.

Non stiamo dicendo che sia letteralmente impossibile in linea di principio costruire una mente molto abile nel fare previsioni sul mondo, tranne per il fatto che contiene la credenza errata che il mondo sia piatto. Partiamo dall’ipotesi che una civiltà molto lontana nel futuro, con una comprensione davvero profonda delle menti, potrebbe riuscirci.

Quello che stiamo dicendo è che probabilmente non sarebbe una scelta fattibile se costruissimo una superintelligenza usando gli strumenti e le conoscenze che hanno oggi i ricercatori di IA.

Più le convinzioni di un'IA derivano da meccanismi profondi piuttosto che da una memorizzazione superficiale, più un errore del tipo "terra piatta" diventerebbe una situazione fragile, un errore che potrebbe essere eliminato dal normale funzionamento dei meccanismi di correzione degli errori dell'IA.

Alla fine del XIX secolo, gli scienziati cominciarono a preoccuparsi sempre più di quella che sembrava una divergenza estremamente piccola dal modello fisico di Newton: una minuscola anomalia nell'orbita osservata di Mercurio. La fisica newtoniana sembrava funzionare quasi ovunque, quasi sempre. Ma quella piccola incongruenza aiutò Einstein a capire che la teoria era sbagliata.

E le contraddizioni nella teoria "il mondo è piatto" sono un po' più grandi di quelle che gli scienziati hanno notato nella teoria di Newton.

E l'intelligenza artificiale ha il potenziale per diventare molto più potente di uno scienziato umano.

Quindi, man mano che l'intelligenza artificiale diventa più intelligente e perspicace, dovremmo aspettarci che diventi sempre più difficile convincerla che il mondo è piatto.

Il meccanismo profondo della direzione

Proprio come è difficile creare un'IA intelligente che creda che il mondo sia piatto (e quindi comprometta le sue capacità di previsione), è difficile creare un'IA intelligente che comprometta le sue capacità di direzione.

Come per la capacità di fare previsioni, anche la capacità di raggiungere obiettivi in modo affidabile in una varietà di ambiti nuovi è molto probabilmente fondata su meccanismi profondi. Altrimenti, come potrebbero generalizzare?

Dovremmo aspettarci che le IA altamente efficaci e generali abbiano meccanismi per tenere traccia delle loro risorse, meccanismi per individuare gli ostacoli che potrebbero impedire loro di raggiungere i loro obiettivi, e meccanismi per trovare modi intelligenti per superare gli ostacoli.

Il mondo è un posto immensamente complicato, pieno di sorprese e difficoltà nuove; per avere successo, l'IA alla fine avrà bisogno della capacità (e dell'inclinazione) di utilizzare tali meccanismi in generale, non solo sui problemi a cui è abituata.

Immaginate un'IA che trova un modo intelligente per tagliare fuori un intermediario in una rete di distribuzione complessa, in modo da far risparmiare un sacco di soldi ad alcuni commercianti. Questi sono gli stessi tipi di meccanismi che notano come aggirare in punta di piedi i supervisori umani dell'IA quando questi supervisori stanno rallentando o interferendo con qualcosa che l'IA sta cercando di fare. Se è vero che i supervisori dell'IA stanno rallentando il processo, se è vero che l'IA può aggirarli e completare meglio il suo compito, allora questo è il tipo di cosa che un'IA è propensa a sfruttare man mano che diventa abbastanza intelligente da farlo.

Potreste fare del vostro meglio per addestrare un'IA ad avere un'avversione a fare qualsiasi cosa che gli operatori non approverebbero, ma questo è un po' come addestrare un'IA ad avere un'avversione a mettere in discussione se il mondo sia rotondo. È un fatto tipico del mondo stesso che fare cose che gli operatori non approverebbero è spesso un metodo efficace per raggiungere gli obiettivi. I meccanismi generali per riconoscere le verità, individuare gli ostacoli e sfruttare i vantaggi, alla fine, sfrutteranno quella particolare verità, indipendentemente da quali riflessi voi abbiate addestrato nell'IA quando era giovane.

In un senso molto importante, ciò che rende l'IA utile è esattamente ciò che la rende letalmente pericolosa. Sono due cose difficili da separare, man mano che l'IA diventa più intelligente.

Di default, le IA che sono abbastanza brave a risolvere problemi in una vasta gamma di ambiti individueranno anche "problemi" come "agli umani non piacciono i miei strani obiettivi e cercheranno di spegnermi presto". Questo non deriva da una superficiale propensione alla malizia che si può facilmente rimuovere con qualche aggiustamento. Deriva da qualcosa di profondo. Anche se ci stiamo portando un po' avanti. Per saperne di più sul perché le IA finiranno per avere obiettivi strani e alieni, continuate con il Capitolo 4.

* Potrebbe sembrare ovvio, ma l'approccio della "gigantesca tabella di fatti scritta dall'uomo" è stato effettivamente provato nel 1984 da Douglas Lenat e dalla Microelectronics and Computer Technology Corporation, nel progetto di IA noto come Cyc, che ha ricevuto sostegno dal Dipartimento della Difesa degli Stati Uniti.

L'umanità ha spinto al massimo, e cercherà di spingere al massimo sull'IA

→