Non possiamo far promettere all'IA di essere amichevole?
Possiamo farle promettere quello che vogliamo. Ma non possiamo farle mantenere le promesse.
È vero che, quando un'intelligenza artificiale è ancora piccola e impotente, possiamo spegnerla. Quindi si potrebbe pensare che ci sia un'opportunità di scambio, in cui offriamo di rendere l'intelligenza artificiale più intelligente solo se, una volta diventata superintelligente, darà all'umanità molte cose positive.
Il problema di questo piano è che non possiamo distinguere tra un'IA che accetta l'accordo ma non lo rispetterà e un'IA che accetta l'accordo e lo rispetterà.
Il che significa, a sua volta, che un’IA che persegue desideri disumani non ha alcun incentivo a mantenere effettivamente l’accordo, perché l’umanità tratta allo stesso modo chi rompe l’accordo e chi lo mantiene. Non ha quindi senso stare agli accordi.
Ci sono molte sfumature interessanti sul tema del mantenere le promesse e fare accordi nell'IA, che approfondiamo nella discussione estesa qui sotto. Ma nessuna di queste sfumature cambia il risultato finale, e cioè che non si può usare la propria influenza su un'IA debole per limitare le opzioni che l'IA avrà quando diventerà una superintelligenza. La risposta ovvia, cioè che una volta che l'IA sarà diventata una superintelligenza, non avrà motivo di mantenere la parola data a scapito dei propri progetti personali, risulta essere quella corretta in questo caso.