Non conta nulla il fatto che gli umani stiano cercando di rendere l'IA amichevole?
Conta, ma provarci può arrivare solo fino a un certo punto.
Se si mettono un milione di scimmie davanti a delle macchine da scrivere, non scriveranno mai l'opera completa di Shakespeare.
Se si abbassassero drasticamente le aspettative dicendo che ci si accontenterebbe solo del primo atto dell'Amleto e che si correggerebbero gli errori di battitura usando la parola reale più simile, allora le probabilità di raggiungere l'obiettivo aumentano in modo astronomico! Ma, sfortunatamente, restano comunque astronomicamente sfavorevoli.
È vero che oggi le IA vengono addestrate su una grande quantità di dati umani, che interagiscono con gli esseri umani e che questi fatti rendono i concetti umani più rilevanti per il pensiero dell'IA. Le IA di questo tipo hanno imparato fatti relativi alle parole "amore", "amicizia" e "gentilezza" che sono rilevanti per prevedere il token successivo.
Ma le IA non sono entità che imparano un gran numero di parole umane e poi si orientano verso le nostre parole preferite proprio nel modo in cui le intendiamo realmente. Sembrano essere animate da un complesso intreccio di meccanismi, che sembra impegnarsi a mantenere psicotici i pazzi, tra molti altri comportamenti strani e non intenzionali.
Nel capitolo 4 abbiamo detto che un'intelligenza artificiale più avanzata punterà a qualcosa di complicato, qualcosa che dipende da dove molte forze interne trovano il loro equilibrio, anche dopo che l'intelligenza artificiale diventa molto più intelligente, anche dopo che si trova in un contesto molto diverso dal suo ambiente di addestramento.
Visto che i concetti umani hanno parole brevi nel dizionario mentale di un'intelligenza artificiale, questi concetti potrebbero essere in qualche modo intrecciati con le forze che animano l'intelligenza artificiale. Ma non basta mettere insieme un mucchio di parole in inglese per ottenere una buona serie di stimoli per una superintelligenza.
Inoltre, la maggior parte dei modi per inserire qualcosa che ci sta a cuore nelle preferenze dell'IA non porta comunque a risultati positivi per noi, come abbiamo discusso nel caso dell'amore filiale. Preoccuparsi di noi nel modo giusto è un bersaglio ristretto.