Obiettivi finali e obiettivi strumentali

I teorici delle decisioni distinguono tra due diversi tipi di obiettivo: "finali" e "strumentali".

Un obiettivo finale è qualcosa di cui vi importa per il suo valore intrinseco, come il divertimento o l'ottimo cibo.

Un obiettivo strumentale è qualcosa di cui vi importa perché vi aiuta a ottenere qualcos'altro che desiderate — come quando l'umanità produce plastica non per un profondo amore per l'arte di creare la plastica, ma perché la plastica è utile.

Se l'umanità si affretta a costruire una superintelligenza, sembra difficile prevedere quali obiettivi finali potrebbe avere la superintelligenza. Ma sembra che possiamo prevedere alcuni degli obiettivi strumentali che un'IA del genere probabilmente avrebbe. Ad esempio, consideriamo tutti i seguenti obiettivi (irrealistici):

"Calcolare quante più cifre possibili di pi greco".
"Riempire l'universo con quanti più diamanti possibile, usando diamanti artificiali".
"Fare in modo che il mio pulsante di ricompensa rimanga premuto".

Questi sono obiettivi molto diversi. Ma tutti e tre traggono vantaggio almeno da alcune delle stesse strategie strumentali. Riempire il mondo di fabbriche, ad esempio, è utile per costruire grandi quantità di computer che possono essere usati per calcolare più cifre di pi greco. Ma costruire molte fabbriche è utile anche per sintetizzare molti diamanti. Ed è utile per costruire muri, robot o armi per proteggere il proprio pulsante di ricompensa. Le fabbriche non sono utili per ogni obiettivo possibile, ma sono utili per moltissimi obiettivi.

E in un'IA realistica che ha sviluppato ogni sorta di obiettivi strani? Beh, almeno uno di questi trarrà probabilmente vantaggio dalla costruzione di fabbriche o altre infrastrutture fisiche su larga scala. Quindi, l'IA vorrà probabilmente costruire molte infrastrutture. È una previsione facile, anche se l'esatto mix di preferenze dell'IA è difficile da determinare.

Allo stesso modo, l'obiettivo strumentale di mantenersi in vita è utile per molti obiettivi finali diversi. Rimanere in vita significa poter continuare a lavorare per assicurarsi che vengano calcolate più cifre di pi greco (o che vengano prodotti più diamanti, o che vengano costruite più protezioni attorno al pulsante di ricompensa).

In forma di slogan: "Non puoi andare a prendere il caffè se sei morto." Un robot che va a prendere il caffè non avrebbe bisogno di avere un istinto di autoconservazione, e non avrebbe bisogno di temere la morte, per cercare di evitare di essere schiacciato da un camion mentre va a prendere il caffè. Dovrebbe solo essere abbastanza intelligente da capire che, se muore, non potrà prendere il caffè.^*

Un'argomentazione chiave esposta nel Capitolo 5 di Prima che sia troppo tardi è che molti obiettivi finali diversi implicano obiettivi strumentali che sarebbero pericolosi per l'umanità. Quindi, anche senza sapere esattamente cosa vorrebbe una superintelligenza, abbiamo forti ragioni per aspettarci che sia molto pericolosa per gli esseri umani.

Ma prima di arrivare a quel punto, concentreremo la nostra attenzione sugli obiettivi finali e sulla questione di quanto sia plausibile che esseri umani e IA possano finire per avere obiettivi finali molto simili. (In breve: non molto.)

* Questo vuol dire anche che se il sacrificio di sé fosse in qualche modo il modo migliore per garantire che il caffè arrivi a destinazione, allora un robot senza istinto di sopravvivenza potrebbe morire per la causa più facilmente di un essere umano.

La curiosità non è convergente

→