Vedete l'allineamento come tutto o niente?

No. Ma un è probabile che un "allineamento parziale" sia comunque catastrofico.

Una delle argomentazioni di chi invita a preoccuparsi meno della superintelligenza suona più o meno così: "L'IA probabilmente progredirà in modo graduale, offrendo opportunità di miglioramento tramite tentativi ed errori per tenere sotto controllo le IA passo dopo passo; l'allineamento non deve essere perfetto perché le cose vadano bene". Non pensiamo che questa visione offra molte speranze, per vari motivi:

Le nostre preoccupazioni non dipendono dal fatto che il progresso sia veloce o lento. Non siamo in grado di dire con certezza se l'IA raggiungerà delle fasi di stallo in varie tappe del suo percorso verso la superintelligenza. È una previsione difficile, non certo facile. La nostra ipotesi più probabile è che l'intelligenza delle macchine sia soggetta a effetti soglia, ma, in definitiva, si tratta solo di una congettura, e le nostre argomentazioni non si fondano su di essa. La storia di Sable, nella seconda parte di Prima che sia troppo tardi, descrive intenzionalmente una catastrofe provocata da IA non molto più avanzate delle capacità umane, in parte per comunicare l'idea che un avversario IA non avrebbe bisogno di diventare rapidamente superintelligente per essere straordinariamente pericoloso.
La nostra risposta di base alla domanda "Cosa succederebbe se fossimo fortunati e avessimo molto tempo per provare idee di allineamento su IA deboli prima che l'IA diventasse molto potente?" è la discussione nel capitolo 10 e la discussione approfondita associata "Uno sguardo più da vicino al prima e al dopo". I ricercatori possono capire ogni sorta di dettaglio sulle IA deboli, ma ci sono inevitabilmente un sacco di differenze critiche tra le IA abbastanza deboli da poter essere studiate in sicurezza e le prime IA abbastanza potenti da costituire un punto di non ritorno. Anche in un campo maturo, affrontare tutte queste differenze in modo adeguato e con sufficiente anticipo sarebbe molto difficile. In un campo che è ancora in fase embrionale, lavorare con IA imperscrutabili (che non vengono costruite ma fatte crescere), la speranza è decisamente irrealistica.
L'allineamento dell'IA non deve essere perfetto per produrre ottimi risultati a lungo termine. In linea di principio, è possibile creare con cura un'IA con una certa tolleranza all'errore, se si sa cosa si sta facendo.^* Ma questo non significa che le IA "parzialmente allineate" o anche "per lo più allineate" produrrebbero risultati parzialmente o per lo più accettabili. Ci sono molti modi e motivi diversi per cui un'IA potrebbe comportarsi bene il 95 % delle volte nel presente o nel futuro prossimo senza che questo si traduca in un lieto fine per l'umanità, come discusso da molte angolazioni diverse nelle risorse online per il capitolo 5.

Per approfondire l'ultimo punto:

Provate a immaginare, come esperimento mentale, che l'umanità riesca a inserire quasi tutti i diversi valori umani nelle preferenze di una superintelligenza, tranne la preferenza per la novità, per qualche motivo. In questo caso, la superintelligenza andrebbe verso un futuro sttatico e noioso, dove lo stesso giorno "migliore" si ripete all'infinito.

Non pensiamo che questo sia plausibile, sia chiaro. Quel livello di allineamento sembra del tutto irraggiungibile con gli approcci standard dell'IA di oggi, e sembra un po' strano immaginare che riusciremmo a capire come inserire quasi tutti i nostri valori in un'IA senza capire come inserirli tutti.^† Ma questo esperimento mentale evidenzia come creature che condividono alcuni dei nostri desideri, ma a cui manca almeno un desiderio cruciale, produrrebbero comunque risultati catastrofici una volta diventate tecnologicamente abbastanza avanzate da escludere gli umani dal processo decisionale e ottenere esattamente ciò che vogliono.

Più realisticamente, un'IA potrebbe finire per essere "parzialmente" allineata nel senso che (come noi) ha varie strategie strumentali intrecciate nelle sue preferenze finali. Forse potrebbe finire per avere un impulso un po' simile alla curiosità e un impulso un po' simile al conservazionismo, e forse alcune persone, vedendo questo, direbbero: "Ecco! L'IA sta sviluppando pulsioni molto umane". Un'IA del genere potrebbe sicuramente essere definita "parzialmente" allineata da un certo punto di vista.

Ma quando si tratta di cosa farebbe quell'IA una volta maturata in superintelligenza, probabilmente non sarebbe tanto bello. Magari spenderebbe enormi risorse per perseguire inconsciamente la sua strana versione di curiosità, preservando al contempo una versione dell'umanità che ha modificato per renderla più gradevole per sé. (Proprio come anche molti esseri umani più attenti alla conservazione potrebbero eliminare dalla natura zanzare che uccidono i bambini e parassiti agonizzanti, se ne avessero l'opportunità.) È proprio questo uno dei motivi per cui diciamo che esseri umani fiorenti non sono la soluzione più efficiente alla stragrande maggioranza dei problemi.

In alternativa, un'IA potrebbe avere valori che si traducono in un comportamento molto umano nell'ambiente di addestramento, tanto che le persone esclamerebbero che sembra decisamente "parzialmente allineata". (Questo sta già accadendo ora, e abbiamo sostenuto che è illusorio.) Ma questo dice ben poco su come l'IA si comporterà una volta che avrà uno spazio di possibilità enormemente più ampio. Affinché le persone possano prosperare in quel contesto, la prosperità dell'umanità in particolare deve far parte del risultato raggiungibile più preferito dall'IA.

Se riusciamo a inserire parzialmente alcuni buoni valori nell'IA, ciò non significa che i valori dell'umanità vengano parzialmente rappresentati nel futuro. Il caricamento parziale di valori simili a quelli umani nelle preferenze di un'IA più intelligente dell'uomo non equivale al caricamento completo dei valori umani nell'IA con una "ponderazione" bassa (che alla fine emerge una volta che altri valori sono saturati).

Per far sì che l'IA ci conceda qualunque cosa, deve tenerci in considerazione nel modo giusto, almeno un minimo. E ci sono moltissimi "quasi-successi" che non raggiungono questa soglia. Si veda anche: "Le IA non si preoccuperanno almeno un po' degli esseri umani?)"

* Per qualche riflessione sul perché è davvero importante sapere cosa si sta facendo, si veda "Intelligente" (di solito) implica "incorreggibile", Il meccanismo profondo della direzione e È difficile ottenere una pigrizia robusta.

† Si veda “Le IA non si preoccuperanno almeno un po' degli esseri umani?”

La situazione non migliorerà una volta che i governi saranno più coinvolti?

→