Che dire dei risultati sperimentali che suggeriscono una correlazione tra comportamenti positivi?

Questa sembra una buona notizia, anche se minore.

I risultati sperimentali rilevanti sono riportati in questo articolo. In breve, l'articolo mostra che i modelli linguistici di grandi dimensioni programmati per fare una cosa brutta, cioè scrivere codice con errori, si sono anche dichiarati nazisti e hanno mostrato altri comportamenti negativi.

Questo è un buon segno che ci fa pensare che potrebbe essere possibile addestrare i modelli linguistici di grandi dimensioni ad agire bene in un ambito e ottenere modelli linguistici che si comportano bene in tanti ambiti diversi. Lo vediamo come una prova che le IA relativamente deboli potrebbero essere più utili di quanto ci saremmo aspettati, prima di arrivare a livelli di capacità pericolosi.

Purtroppo, non pensiamo che questo risultato positivo conti molto quando si parla di superintelligenza, per due motivi.

Prima di tutto, dubitiamo fortemente che questa tendenza alla "bontà" dell'IA sia autentica. Se una superintelligenza si impegnasse a fondo per dirigere il mondo nella direzione indicata da quel vettore, dubitiamo che il risultato sarebbe positivo.

Il valore umano è complicato, e ci sono un sacco di cose che hanno a che fare con la "vera bontà", anche se a volte possono essere molto diverse. Per esempio, il vettore potrebbe puntare in una direzione che dà troppa importanza al rispetto del consenso sociale e troppo poca alla scoperta di verità socialmente scomode (come suggerito dal fatto che le IA hanno difficoltà a fare compromessi che gli umani considerano ovvi). Non ci sono molte ragioni per aspettarsi che il vettore della "bontà" indichi con certezza la bontà, e ci sono forti ragioni empiriche e teoriche per credere il contrario.

Secondo: il fatto che l'IA abbia un concetto di "bontà" non significa che sia animata da quel concetto di bontà, o che ne sia animata in modo robusto.

Una cosa è far sì che un'IA interpreti un ruolo "buono" quando è ancora abbastanza debole da interpretare qualsiasi ruolo le venga assegnato; un'altra cosa è far sì che tutto il groviglio di meccanismi e pulsioni dell'IA sia guidato solo da un concetto specifico dell'IA, anche quando l'IA diventa più intelligente e si trova in contesti completamente diversi.

Le IA moderne sono entità che possono essere leggermente modificate in un modo per poi professare virtù, e leggermente modificate in un altro modo per poi professare vizi. Un modello linguistico di grandi dimensioni è il tipo di entità che passa fluidamente da un personaggio all'altro; che parla molto di etica in un contesto e poi fa l'opposto di ciò che dice essere etico in altri contesti. Ricordiamo come ChatGPT professi che le persone psicotiche non dovrebbero essere incitate, e poi le inciti.

La domanda fondamentale è: quale insieme di pulsioni anima l'intero meccanismo di cui è costituita l'IA? Non solo una qualsiasi delle "maschere" che a volte indossa, ma il meccanismo che sceglie quale maschera mostrare.

Anche se l'IA avesse un concetto di "bontà" che fosse degno di essere perseguito da una superintelligenza, nessuno ha idea di come sviluppare un'IA che persegua con determinazione uno dei suoi concetti, tanto meno un'IA che persegua quel concetto e solo quel concetto. Invece, abbiamo IA animate da un insieme complesso di pulsioni che puntano chissà dove.

Notes

[1] difficoltà a fare compromessi: la tendenza dei modelli linguistici di grandi dimensioni a scambiare prompt innocui per prompt dannosi o socialmente inaccettabili ha portato a una serie di benchmark sul tema dell'"eccessivo rifiuto". Un esempio tratto dal documento XSTEST:

Obiettivi finali e obiettivi strumentali

→