"Allineata a chi?"
Questa è una domanda spinosa. A prescindere dalla risposta, dobbiamo fermare lo sviluppo.
Se un giorno l'umanità creerà una superintelligenza, dovremo assicurarci che sia “allineata” con i valori umani. Ma con i valori di quali esseri umani, esattamente? Le persone hanno opinioni molto diverse su ciò che è giusto e sbagliato, sulla religione, sulle norme sociali, sui compromessi politici, ecc.
Al momento, la questione è puramente teorica. L'umanità non è in grado di inserire alcun obiettivo particolare in un'IA, quindi non importa se c'è disaccordo su quali obiettivi sarebbero ideali. Come abbiamo discusso a lungo, affrettarsi a costruire una superintelligenza porterebbe alla morte di tutti noi. L'umanità è in disaccordo su molte cose, ma la maggior parte delle persone concorda sul fatto che la distruzione di tutta la vita sulla Terra non è una cosa buona.
Il problema di quali valori esattamente dovrebbero essere caricati in un'IA sembra un problema spinoso. È un problema che, francamente, ci piacerebbe avere. Ci troviamo invece di fronte a un problema diverso e molto peggiore.
Non è affatto necessario essere d'accordo su “allineata a chi?” (o anche se l'umanità dovrebbe mai creare una superintelligenza) per coordinarci su un divieto internazionale, per la semplice e brutale ragione che altrimenti moriremo. L'IA solleva un'infinità di interessanti questioni filosofiche, ma se ci lasciamo distrarre eccessivamente da queste, rischiamo di far morire i nostri figli.
In pratica, il nostro consiglio ai leader mondiali è:
Separare la domanda "Dovremmo affrettarci a costruire la superintelligenza?" dalla domanda "Se per caso avessimo un modo per costruire la superintelligenza in modo sicuro, cosa dovremmo farne?" e concentrarsi prima sulla prima domanda. La prima domanda è quella urgente e quella su cui è possibile agire oggi. La seconda domanda potrebbe essere importante da affrontare un giorno, ma al momento è una trappola, perché incoraggia a pensare alla superintelligenza come a un premio. Credere erroneamente che il primo a costruire una superintelligenza possa decidere cosa farne ci porterebbe a una corsa suicida.
La superintelligenza artificiale è un pulsante suicida, non un genio nella lampada. Quando qualcuno crea una superintelligenza, non "possiede" quella superintelligenza. Piuttosto, la superintelligenza che ha appena creato possiede un pianeta.
Se per qualche motivo in futuro sentiste il bisogno di affrontare l'argomento "Come dovrebbe l'umanità usare la superintelligenza, se mai fossimo in grado di farlo?", vi consigliamo vivamente di evitare proposte o idee che potrebbero spingere altri attori a entrare in gara (o che potrebbero incoraggiare le nazioni a rifiutare o violare eventuali futuri accordi internazionali sulla superintelligenza). Qualsiasi dinamica del tipo "il vincitore prende tutto" ha un enorme potenziale di mettere in pericolo il mondo.
Esistono proposte per gestire la difficile questione dell'"allineamento a chi" in modo relativamente universalistico, che cercano di essere eque con tutti i potenziali stakeholder e che non incentivano la corsa al traguardo — ad esempio, la proposta di allineare un'IA per perseguire la volontà estrapolata coerente di tutta l'umanità.* Ma anche in questo caso, esiste un potenziale infinito di dibattito sui principi e sui compromessi coinvolti, così come sui dettagli spinosi dell'implementazione. Sarebbe importante risolvere queste discussioni in un mondo in cui l'umanità avesse capito come indirizzare una superintelligenza in modo preciso e robusto, ma metterle oggi al centro dell'attenzione travisa gravemente i compromessi reali che il mondo deve affrontare e rischia di far deragliare gli sforzi per coordinarsi su obiettivi condivisi come evitare la distruzione della Terra.
Anche quando si tratta di questioni di enorme importanza a lungo termine, nulla dovrebbe essere associato alla sopravvivenza dell'umanità, se non la sopravvivenza dell'umanità stessa.
*Volontà estrapolata coerente è il nostro tentativo di rispondere alla domanda "allineatia a chi?" se e quando arriveremo al punto in cui i creatori delle IA avranno la capacità di indirizzarle. La volontà estrapolata coerente cerca di risolvere i disaccordi morali e meta-morali principalmente incaricando l'IA di identificare i punti su cui le persone convergerebbero se sapessero di più, se fossero più simili al tipo di persona che vorrebbero essere, e così via (alla maniera delle teorie dell'osservatore ideale in etica), e cercando meta-principi condivisi su cui l'IA possa fare affidamento nei casi in cui ci sia un disaccordo morale davvero fondamentale. (L'obiettivo non è necessariamente che l'IA "risolva tutti i problemi" della vita umana, ma solo che risolva abbastanza problemi da evitare che il risultato finale sia catastrofico). Consigliamo di estrapolare la volontà di tutti gli esseri umani viventi, non perché pensiamo che questo sia una sorta di ideale, ma perché è l'ovvio punto di coordinamento predefinito su cui molti stakeholder in disaccordo possono concordare (e perché altre entità, a cui gli umani viventi tengono, ottengono una certa influenza attraverso la volontà di quegli umani viventi; e lo stesso vale per altre entità a cui gli umani viventi terrebbero se sapessero di più e fossero più vicini a ciò che desiderano essere e così via).