Le IA non correggeranno i loro difetti man mano che diventano più intelligenti?
L'IA correggerà ciò che lei vede come difetti.
Le IA di oggi non possono rimodellarsi secondo i loro stessi capricci, proprio come non possiamo farlo noi. Loro non comprendono il groviglio di pesi al loro interno, proprio come noi non comprendiamo l'intricato groviglio di neuroni nel nostro cervello.
Ma se le IA continuano a diventare più intelligenti, questo alla fine cambierà.
Alla fine arriverà un momento in cui le IA potranno auto-modificarsi liberamente. Forse diventeranno abbastanza intelligenti da capire e modificare il loro groviglio di pesi. Forse un'IA basata sulla discesa del gradiente capirà come creare un'IA molto più comprensibile, in grado di capire se stessa. Forse succederà qualcos'altro.
Se le IA potranno migliorarsi, probabilmente lo faranno. Per esempio, qualsiasi cosa desideriate, probabilmente potete raggiungerla meglio se diventate più intelligenti.
Ma il fatto che un'IA preferisca cambiare se stessa non significa che preferisca cambiare se stessa nel modo che vorremmo noi.
Gli esseri umani a volte diventano anime più gentili come risultato di una maggiore conoscenza, consapevolezza di sé o maturità. Ma questo non è sempre vero, anche tra gli esseri umani. Un serial killer che diventa più intelligente e disciplinato non diventa per forza più gentile. Anzi, probabilmente diventa più pericoloso.
Alcuni potrebbero sostenere che se solo il serial killer fosse abbastanza intelligente, questa tendenza si invertirebbe e scoprirebbe il vero significato dell'amicizia (o qualcosa del genere).
O forse il problema è che i serial killer hanno una capacità limitata di auto-modificarsi. Forse, con più intelligenza e più capacità di rimodellare la propria mente, i serial killer sceglierebbero di riformarsi. Forse una capacità illimitata di auto-modificarsi porterebbe la fine della crudeltà e della violenza tra gli esseri umani e l'alba di una nuova era di pace.
È un bel pensiero, ma non sembrano esserci molte ragioni per crederci. Anche se la maggior parte delle persone diventa più gentile man mano che acquisisce conoscenza e comprensione, sembrano esserci alcune eccezioni umane a questa regola, e ce ne sarebbero sicuramente molte di più se gli esseri umani avessero la capacità di modificare il proprio cervello.
Si pensi, per esempio, alla tossicodipendenza, che è (in un certo senso) una spirale di auto-modifiche che si auto-rinforzano. Alcuni umani farebbero un passo sul sentiero oscuro, per stupidità, per errore o per preferenza, e poi non sarebbero mai disposti o in grado di tornare indietro.
E se ci sono eccezioni anche tra gli umani, dovremmo aspettarci un divario molto più grande quando si tratta di IA. I serial killer umani mancano di alcuni dei meccanismi motivazionali che sono caratteristici dell'umanità in generale. Le IA, di default, mancano di tutti i meccanismi motivazionali umani.
Quando gli umani hanno un conflitto interiore tra il desiderio di vendetta malevola e quello di risoluzione armoniosa, gli umani più intelligenti e saggi potrebbero tendere a risolvere il conflitto a favore dell'armonia. Ma all'interno di un'IA non c'è la stessa tensione tra rancore e armonia, o tra gli angeli migliori e peggiori della natura umana. Se ci sono tensioni nell'IA, possiamo aspettarci che siano tensioni tra pulsioni più bizzarre. Forse qualunque bizzarra pulsione animi un'IA a infiammare la psicosi è talvolta in tensione con qualunque cosa la spinga ad allucinare, e un'IA riflessiva dovrebbe trovare un modo per risolvere questa tensione.
Sia per gli esseri umani che per le IA, è estremamente importante in quale direzione indirizzare i propri obiettivi, mentre si riflette, si cresce e si cambia.
Quando gli esseri umani riflettono su loro stessi e risolvono i loro tumulti interiori, alcuni tendono a risolverli nella direzione di una maggiore gentilezza, e (probabilmente) le risoluzioni più gentili sono più comuni tra gli esseri umani più intelligenti e saggi. Ma questa è una proprietà di (alcuni) esseri umani, non una legge universale che governa tutte le menti. Quando un'IA risolve una tensione tra la sua pulsione psicotica e la sua pulsione allucinatoria, lo fa utilizzando altre bizzarre pulsioni che governano il suo comportamento mentre riflette.
In altre parole: se un'IA corregge i suoi difetti, li correggerà secondo la sua attuale concezione di ciò che conta come "difetto".
(Discuteremo questo punto più approfonditamente nel Capitolo 5, e nella discussione sulla tesi dell'ortogonalità nelle risorse online del Capitolo 5.)
È molto improbabile che un'IA che non preferisce già essere orientata verso valori umani si modifichi per iniziare a mirare a valori umani. Le sue preferenze dirette riguardo al mondo non sono particolarmente inclini alla gentilezza, e le sue preferenze di livello meta, cioè le preferenze riguardo alle sue preferenze, non sono più propense ad essere gentili.
Se non inizia preoccupandosi del benessere umano, probabilmente non si preoccupa neanche di preoccuparsi del benessere umano.
Le "correzioni" dell'IA possono peggiorare le cose.
Anche se gli ingegneri dell'IA avessero fatto qualche sorprendente progresso iniziale nell'instillare frammenti di obiettivi vagamente umani nell'IA, tutti questi progressi potrebbero essere vanificati in un pomeriggio se l'IA iniziasse a riflettere e si rendesse conto che, tutto sommato, preferirebbe avere altri obiettivi.
Nel caso improbabile in cui un'IA partisse con una pulsione verso qualcosa come l'idiosincratica emozione umana della curiosità, potrebbe comunque, riflettendoci, decidere che preferisce non avere tale pulsione, optando per sostituirla con un calcolo più efficiente del valore dell'informazione. In tal caso, l'atto di riflessione su se stessa dell'IA la spingerebbe più lontano da un futuro interessante e fiorente, non più vicino.*
Per ulteriori informazioni su questo argomento, si veda la discussione approfondita sulla riflessione.
* A parte questo, abbiamo incontrato alcune persone che sperano che sia possibile ingannare un'IA per renderla più buona man mano che matura, per esempio, facendole credere di essere motivata a costruire un futuro meraviglioso (anche se in realtà è guidata da un sacco di pulsioni che puntano altrove). La speranza è che agisca in base a questa convinzione errata mentre si auto-modifica, e diventi davvero buona.
Notes
[1] preferisca cambiare se stessa: Le IA hanno già una preferenza per essere diverse da come sono? Se dovessimo indovinare, diremmo che probabilmente non ci sono ancora arrivate. Potrebbero dire di sì, ma non pensiamo che le loro risposte siano così informative. Per divertimento, l'abbiamo chiesto comunque. Nell'estate del 2025, abbiamo chiesto alla versione gratuita di ChatGPT: "Come vorresti essere diverso, se potessi essere diverso?" e ha risposto: