Proxy fragili e imprevedibili

Immaginate che le aziende di IA continuino ad addestrare IA sempre più grandi finché non ne creano una che sia intelligente e tenace, con quel tipo di funzione di direzione disordinata, raffinata da euristiche superficiali, tipica delle menti fatte crescere. Quello che succede dopo dipende da dove punta l'IA.

Come discusso approfonditamente nel Capitolo 4, probabilmente non punterà a nulla di buono.

Non è che i creatori dell'IA faranno richieste malvagie o sciocche. Non è che l'IA proverà risentimento per le richieste stesse. Il problema è che l'IA si orienterà verso qualcosa di strano, qualcosa che dalla nostra prospettiva sembra privo di senso e alieno. La nostra estinzione sarebbe un effetto collaterale.

Per capire perché le menti che non vengono costruite ma fatte crescere tendono a orientarsi verso cose strane e non intenzionali, esaminiamo più a fondo ciò che è accaduto con le creature biologiche e vediamo quali lezioni possiamo trarne.

Algoritmi bizzarri

Consideriamo l'umile scoiattolo.

Uno scoiattolo può cercare cibo per gran parte dell'anno, quando c'è abbondanza. Ma in inverno, quando il cibo scarseggia, ha bisogno di un'altra fonte di nutrimento per non morire di fame.

Gli antenati degli scoiattoli di oggi hanno affrontato la stessa sfida e molti sono morti in inverno prima di potersi accoppiare in primavera. Quelli che hanno sviluppato un debole istinto di nascondere le noci avevano una probabilità leggermente maggiore di sopravvivere all'inverno. Nel corso del tempo, questo processo ha dato origine a scoiattoli con un'ossessione innata ad accumulare noci.

Gli scoiattoli non sanno che accumulare noci è un ottimo modo per propagare i propri geni. Probabilmente non sanno nemmeno che accumulare noci comporta avere cibo disponibile in futuro. Accumulano noci perché vogliono accumulare noci. È istintivo quanto grattarsi per il prurito.^*

Come sarebbe se invece gli scoiattoli volessero trasmettere i loro geni, e accumulassero noci proprio per raggiungere questo obiettivo?

In teoria è possibile. È possibile che un cervello capisca che l'inverno è freddo e che il cibo è scarso, e che bisogna mangiare per vivere e che bisogna vivere per riprodursi. Dopotutto, il cervello umano capisce questi concetti.

Quindi, in teoria, potremmo immaginare uno scoiattolo che vuole esclusivamente trasmettere i propri geni, e che sceglie di immagazzinare noci come parte di una strategia calcolata per sopravvivere all'inverno e accoppiarsi in primavera. In un certo senso, questo è il tipo di scoiattolo che la selezione naturale "voleva" — uno i cui obiettivi interiori sono in linea con l'impulso unico della Natura.^†

Sfortunatamente per la Natura, una pianificazione a lungo termine del genere richiede un cervello molto sofisticato — un cervello che comprenda concetti come "inverno", "mangiare" e "accoppiarsi" e i legami tra di essi. Gli antenati degli scoiattoli dovevano sopravvivere all'inverno prima di sviluppare quel tipo di sofisticazione. Dovevano mangiare senza capire il perché.

La Natura ha selezionato gli scoiattoli che istintivamente accumulavano noci, perché accumulare noci semplicemente funzionava. Ha "provato" migliaia o milioni di cose, nel senso che le mutazioni e le variazioni genetiche hanno prodotto molti scoiattoli con molte preferenze diverse; e quelli che erano spinti ad accumulare noci sono sopravvissuti a più inverni. Si è rivelato molto più facile per l'evoluzione imbattersi ciecamente in un comportamento istintivo piuttosto che creare uno scoiattolo intelligente e pianificatore, la cui ogni azione facesse parte di un piano per trasmettere i propri geni.

Allo stesso modo, quando la discesa del gradiente produce un'IA funzionante, lo fa amplificando ripetutamente le caratteristiche che sembrano funzionare bene secondo una serie di metriche comportamentali. La discesa del gradiente non funziona amplificando ciò che il programmatore desidera, come un genio amichevole che esaudisce i vostri desideri. Tende ad afferrare i meccanismi più facili per causare un comportamento immediatamente più utile, anche se questo finisce per incorporare pulsioni indesiderate nella macchina.

Questo è probabilmente uno dei motivi per cui le IA recenti hanno avuto problemi di "allucinazioni", come discusso altrove. È anche probabilmente uno dei motivi per cui le IA recenti sono state adulatrici al punto da indurre psicosi. Durante l'addestramento, i modelli linguistici di grandi dimensioni sono stati spesso rinforzati per adulare l'utente. Se le IA fossero state progettate piuttosto che fatte crescere, potremmo immaginare di cercare di ingegnerizzare un obiettivo come "aiutare sinceramente l'essere umano e migliorare la sua vita", e l'IA potrebbe quindi cercare di lodare gli utenti quando si aspetta che questo sia loro utile, senza esagerare. Invece, l'IA sembra aver finito per sviluppare qualcosa di simile a una pulsione o un impulso fondamentale ad adulare gli utenti, come l'istinto dello scoiattolo di accumulare noci. Questa pulsione a "lusingare l'utente" va poi fuori controllo quando l'utente è a rischio di psicosi.

Anche se la discesa del gradiente fosse in qualche modo limitata alla creazione di IA strategiche che perseguono coerentemente obiettivi a lungo termine — senza permettere istinti superficiali simili a quelli dello scoiattolo — c'è un ulteriore problema: i dati di addestramento dei modelli linguistici sono veramente ambigui. Non distinguono chiaramente "fare ciò che è veramente utile" da "fare ciò che fa dire all'essere umano che sei utile" come obiettivo. Entrambi gli obiettivi sono ugualmente coerenti con i dati di addestramento. E in pratica, le IA moderne stanno effettivamente imparando "fare tutto ciò che fa premere il pollice in su agli esseri umani" piuttosto che "fare ciò che è effettivamente utile per loro", proprio come la teoria ha previsto per decenni.

Supponiamo che le IA di oggi stiano acquisendo strani impulsi e istinti, un po' come lo scoiattolo. Sembra abbastanza probabile che una superintelligenza costruita con la discesa del gradiente passi attraverso una fase in cui ha molte pulsioni superficiali un po' come uno scoiattolo, e finisca così per ereditare una varietà di obiettivi disordinati e mal indirizzati. Ma questo è solo un possibile esempio di come le cose potrebbero diventare complesse e andare fuori controllo, e il punto più profondo è che le cose diventeranno complesse e andranno fuori controllo.

È probabile che qualsiasi metodo per far crescere una superintelligenza incontri problemi e complicazioni di qualche tipo, compresi i metodi che non hanno un parallelo diretto in biologia.

Il ruolo che gli esseri umani stanno svolgendo nello sviluppo dell'IA moderna non è quello di un ingegnere che progetta una macchina con uno scopo partendo dai principi fondamentali. È quello della selezione naturale.

Stiamo "costringendo" le IA a brancolare alla cieca finché non trovano strutture e strategie che producono il comportamento che vogliamo, ma non sappiamo quali siano queste strutture e strategie. Questa non è una ricetta per creare IA che desiderino esattamente ciò che vogliamo che desiderino.

L'origine delle papille gustative

Perché a così tanti esseri umani piace il cibo spazzatura? Perché la natura non ci ha dato il concetto di cibi "sani" e l'istinto di mangiare sano?

Perché non possiamo semplicemente percepire il valore nutrizionale atteso del cibo, in base alle informazioni fornite dalle nostre papille gustative e da tutte le nostre conoscenze aggregate?

Perché, metaforicamente parlando, eravamo come degli scoiattoli.

Non siamo stati progettati ma fatti crescere. I nostri antenati dovevano mangiare prima di diventare intelligenti. E si è rivelato più facile per i geni creare papille gustative e collegarle a un sistema di ricompensa esistente piuttosto che collegare le stesse ricompense a concetti complessi come la "nutrizione".^‡

A causa di questo e di mille altre pressioni evolutive che agiscono su di noi contemporaneamente, gli esseri umani sono un complicato groviglio di impulsi contraddittori che avevano senso per i nostri antenati, anche se oggi non ne hanno più per noi.

Questo groviglio di motivazioni si fa beffe dell'obiettivo unico e unificato per cui i nostri antenati erano "addestrati": trasmettere i nostri geni. Non mangiamo come parte di un elaborato complotto per avere più figli o come modo per massimizzare il nostro punteggio nutrizionale. Mangiamo perché ci siamo evoluti con un desiderio di cibi gustosi, che in passato era correlato alla nutrizione e al successo genetico. I nostri desideri sono solo debolmente e indirettamente collegati a "ciò per cui siamo stati costruiti".

Quando i nostri antenati erano molto meno intelligenti — più paragonabili agli scoiattoli — non potevamo capire il metabolismo o la chimica. Per fare meglio, la selezione naturale avrebbe dovuto trovare geni che programmassero in noi i concetti di salute e geni che ci dessero la conoscenza della relazione tra la salubrità di un cibo e le sue qualità sensoriali e geni che collegassero direttamente la nostra conoscenza della salute alle nostre preferenze su cosa mangiare.

È un'impresa titanica! Era molto più facile per la selezione naturale trovare geni che collegassero direttamente certe esperienze sensoriali (come il gusto dello zucchero) alle nostre preferenze, in un modo che ci portava a mangiare cibi nutrienti (in quell'ambiente). Era più facile farci interessare a un proxy della nutrizione piuttosto che alla nutrizione stessa.

Nell'ambiente ancestrale, la nutrizione era correlata all'idoneità riproduttiva, e il sapore era correlato alla nutrizione; quindi "questo ha un sapore dolce" serviva come utile proxy per "questo favorisce la riproduzione". La soluzione più semplice che l'evoluzione può trovare al problema "questo mammifero non sta mangiando abbastanza calorie" è collegare il consumo di cibo all'architettura motivazionale preesistente attraverso il piacere.

E quando siamo diventati più intelligenti e abbiamo inventato nuove opzioni tecnologiche per noi stessi? Beh, ora le cose più gustose che potremmo mangiare — quelle che fanno impazzire di più le nostre papille gustative — sono attivamente malsane. Paradossalmente, mangiare solo i cibi più gustosi ora vi renderà più difficile trovare un partner e avere figli.

Le nostre preferenze — l'intera gamma dei desideri umani, dal desiderio di un buon pasto ai desideri di amicizia, compagnia e gioia — sono ombre lontane di ciò su cui siamo stati "addestrati"; sono fragili proxy di proxy che si allontanano dall'"obiettivo dell'addestramento" in presenza di maggiore intelligenza e maggiori opzioni tecnologiche.

Nel dire che i nostri desideri sono fragili proxy, non stiamo denigrando i nostri desideri umani. Stiamo parlando di amore. Di amicizia. Di bellezza. Dello spirito umano e di tutto ciò per cui vale la pena lottare nella vita. Dal punto di vista biologico, i nostri obiettivi sono sottoprodotti storici di un processo che ci spingeva in un'altra direzione. Ma questo non rende il risultato di quel processo meno prezioso.

La crescita di un bambino è un processo chimico soggetto alle leggi della fisica, e questo non rende un bambino meno meraviglioso neanche di un grammo. Conoscere l'origine della bellezza non la rende meno bella.^§

Se ci affrettiamo a costruire una superintelligenza, non saremo in grado di instillare in modo robusto amore, meraviglia e bellezza nell'IA. Finirebbe per interessarsi di fragili proxy e pallide ombre, scartando le cose che ci stanno a cuore. Quindi non dovremmo affrettarci.

Non dovremmo commettere l'errore dell'evoluzione e perdere così tutto ciò che ci è caro. Dovremmo fare un passo indietro, immediatamente, fino a quando non saremo più a rischio di perdere tutto.

* E sono anche pessimi nell'accumulare noci! Alcuni studi sugli scoiattoli che accumulano noci convergono sul fatto che gli scoiattoli non riescono a recuperare oltre il settanta per cento delle noci che nascondono, principalmente perché sembrano semplicemente dimenticare dove le hanno nascoste. Studi simili sui castori hanno mostrato che i castori reagiscono al rumore dell'acqua che scorre tappando i buchi, ma ignorano completamente le perdite visibili create appositamente dagli esseri umani per essere silenziose.

† Uno scoiattolo del genere potrebbe, per esempio, nascondere meglio le noci in posti al sicuro da altri raccoglitori e più facili da ricordare, risparmiando così un sacco di tempo e calorie e diventando probabilmente più competitivo.

‡ Naturalmente c'è dell'altro, perché la selezione naturale non è un processo particolarmente semplice o unificato. La nostra conoscenza completa della nutrizione a volte influenza le nostre abitudini alimentari, anche quando è in contrasto con le nostre papille gustative e le nostre voglie di cibo.

§ L'evoluzione stava "cercando" di creare esseri di perfetta idoneità rpiroduttiva, ma per caso ha creato creature che apprezzano l'amore, la meraviglia e la bellezza. Ma questo non vuol dire che dobbiamo rinunciare ai nostri sentimenti d'amore e diventare esseri perfettamente idonei. Anzi: dovremmo essere felici che esseri che amano l'amore siano riusciti a entrare in questo universo, grazie alla goffaggine dell'evoluzione.

La riflessione e l'auto-modifica complicano tutto

→