Non è importante affrettarsi ad andare avanti per poter fare ricerca sull'allineamento?

Sconsigliamo vivamente tutto questo paradigma dell'IA.

I metodi attuali nell'IA presentano sfide inutilmente difficili per l'allineamento, per i motivi che abbiamo discusso nei capitoli precedenti. Non vediamo alcun motivo per cui, in linea di principio, l'umanità non potrebbe costruire una superintelligenza allineata, con una comprensione sufficientemente forte di ciò che stiamo facendo e un diverso insieme di strumenti formali. Ma tutto l'approccio attuale all'IA sembra un vicolo cieco dal punto di vista dell'allineamento e della robustezza, anche se è perfettamente valido dal punto di vista delle capacità.

Non stiamo sostenendo la "buona vecchia" IA che ha regnato dagli anni '50 agli anni '90. Quelle tecniche erano fuorvianti e hanno fallito, per ragioni che sono abbastanza ovvie. Esistono altre opzioni oltre ai tentativi estremamente superficiali degli anni '80 e alle IA fatte crescere con una comprensione quasi nulla del loro funzionamento interno.

C'è un sacco di lavoro significativo che si potrebbe fare ora.

Sydney Bing ha manipolato psicologicamente e minacciato gli utenti. Ancora non sappiamo esattamente perché; ancora non sappiamo esattamente cosa le passasse per la testa. Lo stesso vale per i casi in cui le IA (in circolazione) sono eccessivamente adulatrici, sembrano cercare attivamente di far impazzire le persone, a quanto pare imbrogliano e cercano di nasconderlo, o dichiarano in modo persistente e ripetuto di essere Hitler. Lo stesso vale per i casi in ambienti controllati ed estremi in cui le IA fingono l'allineamento, ricattano, resistono allo spegnimento o cercano di uccidere i loro operatori.

Non sappiamo quali di questi casi stiano accadendo per ragioni che dovrebbero preoccuparci, perché nessuno è riuscito a capire cosa stesse succedendo all'interno delle IA, o il motivo esatto per cui si sia verificato uno qualsiasi di questi eventi. Pensate a tutto ciò che si potrebbe scoprire sui moderni modelli linguistici di grandi dimensioni, e su come funziona l'intelligenza più in generale, studiando i modelli esistenti fino a quando non si comprendessero davvero tutti questi segnali di allarme!

"Non possiamo risolvere l'allineamento senza studiare le IA" aveva un po' più senso nel 2015, quando sentivamo questa affermazione da parte dalle persone che avevano bisogno di una scusa per avviare aziende di IA di fronte alle argomentazioni secondo cui avrebbero, così facendo, giocato d'azzardo con tutte le nostre vite. All'epoca contestammo questa affermazione, dicendo che in realtà c'era molta ricerca da fare, e che non pensavamo che il moderno paradigma basato sulla discesa del gradiente fosse molto promettente (rispetto al creare intenzionalmente una superintelligenza amichevole). Ma l'argomentazione ha molto meno senso ora, quando ci sono già così tante cose che non capiamo da studiare.

A tutti i dirigenti aziendali che stavano effettivamente creando l'IA solo per rendere possibile lo studio del problema dell'allineamento dell'IA nella pratica piuttosto che solo in teoria diciamo: ce l'avete fatta! Ci siete riusciti. Ora ci sono abbastanza informazioni per tenere occupati i ricercatori per decenni. Pensiamo che i costi di spingere avanti un paradigma estremamente pericoloso probabilmente non ne valessero la pena, ma di sicuro ora c'è molto da studiare. Potete smettere di spingere.

E per quanto riguarda quelli che hanno continuato a spingere anche nonostante tutti i segnali di allarme? L'inferenza ovvia è che non stavano mai effettivamente costruendo l'IA solo per il bene di risolvere l'allineamento, a prescindere da ciò che dicevano per calmare le paure, quando negli anni 2010 cercavano di giustificare il proprio comportamento sconsiderato.

E se le aziende di IA distribuissero le loro IA solo per azioni non pericolose?

→