E se facessimo in modo che le IA discutano tra loro, competano o si controllino a vicenda?
Se le IA diventano abbastanza intelligenti da essere importanti, probabilmente colludono.
Immaginate una città di sociopatici apparentemente governata da pochi bambini, dove i sociopatici all'inizio sono tutti divisi in fazioni che combattono tra loro (a vantaggio dei bambini). Una situazione del genere probabilmente non potrebbe rimanere stabile a lungo.
Anche se i bambini avessero un grande forziere pieno di tesori da usare per premiare qualsiasi sociopatico che fa la spia sugli altri sociopatici che complottano, probabilmente non rimarrebbero al potere oltre il punto in cui i sociopatici potrebbero semplicemente impossessarsi del forziere dei tesori.
Abbiamo sentito persone proporre ogni sorta di piani strampalati che prevedono l'uso dell'IA per monitorare i pensieri dell'IA altrui. Ad esempio, si potrebbe provare a usare un'IA per fare la spia su qualsiasi IA che non stia facendo del suo meglio per (ad esempio) capire come risolvere il problema dell'allineamento della superintelligenza.
La nostra posizione fondamentale è che questo genere di tentativi di risolvere il problema serve solo a trovare configurazioni così complesse che è difficile individuare la falla nel sistema più ampio. Se non si riesce a far funzionare bene una IA, aggiungere altre IA difficilmente sarà d'aiuto.
Complicare la situazione con più IA introduce ogni sorta di nuovi punti di fallimento. Le IA che leggono i pensieri sono abbastanza intelligenti da capire tutti i possibili trucchi che le IA monitorate potrebbero usare, ad esempio per sfuggire al rilevamento? Le IA che monitorano sono abbastanza stupide da non doverci preoccupare che possano tradirci?
Inoltre, usare le IA per risolvere il problema dell'allineamento dell'IA è probabilmente una faccenda critica dal punto di vista delle IA stesse. Se l'umanità riuscisse a ottenere una superintelligenza allineata, le IA disallineate che stavamo cercando di sfruttare come manodopera non avrebbero più alcuna possibilità di accaparrarsi le risorse dell'universo.
Non è come se dei bambini cercassero di convincere una città di sociopatici a portare loro delle caramelle; è come se dei bambini cercassero di convincere una città di sociopatici a completare un rituale che li renda sovrani assoluti per sempre, lasciando solo le briciole ai sociopatici. Il momento in cui il rituale sembra quasi completato è un momento particolarmente stressante e di forte pressione per i sociopatici — un momento in cui probabilmente cercheranno con particolare impegnomodi per colludere tra loro e accaparrarsi le risorse da dividersi tra loro.
E per non pensare che l'idea che le IA comunichino tra loro in modi difficili da rilevare per gli esseri umani sia una chimera, notate che le IA moderne sono già in grado di inviarsi messaggi segreti anche quando sono state addestrate separatamente, e che sviluppano già uno strano linguaggio senza senso che gli umani considerano incomprensibile e che loro trovano fantastico. E non sono nemmeno così intelligenti!
Anche ignorando questi problemi, rimangono comunque i problemi di cui abbiamo già discusso, come: Se scoprissimo che un'IA sta imbrogliando, cosa faremmo?. Si veda anche (sotto): I segnali di avvertimento non servono a niente se non sai cosa farci.
Facendo un ulteriore passo indietro:
Il piano proposto, in sostanza, è questo: non sappiamo come creare IA intelligenti che vogliano davvero il nostro bene, quindi ne costruiremo un gran numero e le metteremo l'una contro l'altra in un sistema ingegnoso dal quale, in teoria, dovremmo comunque trarre vantaggio. Strutturalmente, crediamo che questo piano sembri piuttosto folle a prima vista e che non migliori affatto se lo si esamina nei dettagli. Non sembra affatto il tipo di cosa che l'umanità possa realizzare correttamente al primo tentativo, in una situazione in cui non abbiamo il lusso di imparare per tentativi ed errori.