Uno sguardo più da vicino al prima e al dopo

Come accennato nel capitolo, la difficoltà fondamentale che i ricercatori affrontano nell’ambito dell'IA è la seguente:

Bisogna allineare un'IA prima che diventi abbastanza potente e capace da ucciderci (o, separatamente, da resistere all'allineamento). QE tale allineamento deve poi restare valido in condizioni diverse, ossia le condizioni dopo che una superintelligenza o un insieme di superintelligenze^* potrebbe ucciderci se lo desiderasse.

In altre parole: se si sta costruendo una superintelligenza, bisogna allinearla senza mai poter testare a fondo le proprie tecniche di allineamento nelle condizioni reali che contano, indipendentemente da quanto "empirico" possa sembrare il proprio lavoro quando si ha a che fare con sistemi che non sono abbastanza potenti da ucciderci.

Questo non è uno standard a cui i ricercatori di IA, o gli ingegneri in quasi tutti i campi, sono abituati.

Spesso sentiamo lamentele sul fatto che stiamo chiedendo qualcosa di non scientifico, privo di fondamento empirico. In risposta, potremmo suggerire di parlare con i progettisti delle sonde spaziali di cui abbiamo parlato nel capitolo 10.

La natura è ingiusta e a volte ci mette di fronte a situazioni in cui l'ambiente che conta non è quello in cui possiamo fare dei test. Tuttavia, ogni tanto, gli ingegneri riescono comunque nell’impresa al primo tentativo, quando hanno una solida comprensione di quello che stanno facendo — strumenti robusti, teorie predittive solide —tutte cose che, nel campo dell’IA, mancano in modo fin troppo evidente.

Il problema fondamentale è che l'IA che si può testare in sicurezza, senza che un test fallito comporti la morte di tutti, opera in un regime diverso dall'IA (o dall'ecosistema di IA) che deve essere già stata testata, perché se è disallineata, allora tutti muoiono. La prima IA, o il primo sistema di IA, non percepisce realmente di avere la possibilità concreta di uccidere tutti se lo volesse. La seconda sì, vede chiaramente quella possibilità.^†

Supponete di star valutando l'idea di far diventare dittatore del vostro paese il vostro collega Bob. Potreste provare prima a farlo diventare dittatore fittizio della vostra città, per vedere se abusa del suo potere. Ma questo, purtroppo, non è un test molto efficace. "Ordinare all'esercito di intimidire il parlamento e 'supervisionare' le prossime elezioni" è un'opzione molto diversa da "abusare del mio potere fittizio sotto lo sguardo dei cittadini (che possono ancora picchiarmi e negarmi l'incarico)".

Con una teoria della cognizione sufficientemente sviluppata, potreste provare a leggere nella mente dell'IA e prevedere in quale stato cognitivo entrerebbe se pensasse davvero di avere l'opportunità di prendere il controllo.

E potreste creare delle simulazioni (e provare a falsificare le percezioni interne dell'IA, e così via) in modo che, secondo la vostra teoria della cognizione, lo stato mentale risultante sia molto simile a quello che l'IA svilupperebbe quando avesse realmente l'opportunità di tradirvi.

Ma il legame tra questi stati indotti e osservati in laboratorio, e lo stato in cui l'IA ha davvero la possibilità di tradirvi, dipende fondamentalmente dalla tua teoria della cognizione non testata. La mente di un'IA può cambiare parecchio man mano che si evolve verso la superintelligenza!

Se l'IA crea nuove IA successive più intelligenti di lei, i meccanismi interni di quelle IA saranno probabilmente diversi da quelli dell'IA che avete studiato in precedenza. Quando imparate solo da una mente Prima, qualsiasi applicazione di quella conoscenza alle menti che vengono Dopo passa attraverso una teoria non testata su come le menti cambiano tra il Prima e il Dopo.

Far funzionare l'IA finché non ha l'opportunità di tradirvi davvero, in un modo difficile da simulare, equivale a condurre un test empirico di quelle teorie in un ambiente che differisce fondamentalmente da qualsiasi contesto di laboratorio.

Molti scienziati (e molti programmatori) sanno che le loro teorie su come un sistema complesso funzionerà in un ambiente operativo fondamentalmente nuovo spesso non reggono al primo tentativo.^‡ Si tratta di un problema di ricerca che richiede un livello "ingiusto" di prevedibilità, controllo e intuizione teorica, in un ambito in cui la comprensione è eccezionalmente bassa — con tutte le nostre vite in gioco se il risultato dell'esperimento smentisce le speranze degli ingegneri.

Ecco perché, dal nostro punto di vista, è fin troppo ovvio che i ricercatori non dovrebbero affrettarsi a spingere la frontiera dell'IA il più lontano possibile. È una cosa veramente folle da tentare, e una cosa veramente folle da permettere da parte di qualsiasi governo.

* A volte sentiamo dire che non c'è motivo di preoccuparsi, perché possiamo creare più superintelligenze che si controllino a vicenda. Ci sono un sacco di motivi per cui queste proposte ci sembrano davvero poco plausibili, ma vale la pena sottolineare che idee come questa hanno lo stesso problema di base che abbiamo già menzionato diverse volte: Abbiamo solo una possibilità per far funzionare questo piano ingegnoso.

† Potreste provare a far credere erroneamente a un'IA più debole di essere in grado di ottenere un vantaggio decisivo e cercare di addestrarla a non agire in quel modo anche quando vede quell'opzione. Ma addestrereste un sistema di IA che è abbastanza stupido da farsi ingannare e che vede armi finte invece di armi vere. Quindi la distribuzione potenzialmente letale sarebbe comunque notevolmente diversa dalla distribuzione di addestramento; c'è una differenza notevole tra sentirsi dire che hai un'arma che potrebbe uccidere i tuoi operatori e costruire effettivamente un'arma o una via di fuga da solo e comprenderla in dettaglio. L'IA che si lascia ingannare da opzioni false non è la stessa che vede opzioni reali.

‡ Per esempio: la meccanica newtoniana ha fatto ogni sorta di previsioni empiriche incredibilmente accurate. Era una teoria matematica semplice e concisa con un enorme potere esplicativo che ha spazzato via tutte le teorie precedenti. Ma se si provasse a usarla per inviare carichi utili su pianeti lontani a velocità relativistiche, si fallirebbe comunque, perché la meccanica newtoniana non tiene conto degli effetti relativistici.

La storia della Chicago Pile-1

→