I modelli linguistic di grandi dimensioni non saranno simili agli esseri umani presenti nei dati su cui sono stati addestrati?

C'è differenza tra il meccanismo necessario per essere una persona e quello necessario per prevedere molti individui.

(Quello che segue è una versione abbreviata di una discussione più tecnica che si può trovare più avanti in "Fingi finché non ci riesci.")

Le IA come ChatGPT sono addestrate per prevedere accuratamente i loro dati di addestramento. E i loro dati di addestramento sono costituiti principalmente da testi umani, come pagine di Wikipedia e conversazioni in chat room. (Questa parte del processo di addestramento si chiama "pre-addestramento", ed è quello che rappresenta la "P" in "GPT".) I primi modelli linguistici di grandi dimensioni come GPT-2 erano addestrati esclusivamente per fare previsioni in questo modo, mentre le IA più recenti sono addestrate anche su aspetti come l'accuratezza nella risoluzione di problemi matematici (generati dal computer), nel fornire buone risposte secondo un altro modello di IA e vari altri obiettivi.

Ma consideriamo un'IA addestrata solo a prevedere testi generati dagli esseri umani. Deve necessariamente diventare simile a un essere umano?

Supponiamo di prendere un'eccellente attrice^* e di farle imparare a prevedere il comportamento di tutti gli ubriachi in un bar. Non "imparare a interpretare un ubriaco stereotipato medio", ma piuttosto "imparare a conoscere tutti gli ubriachi di questo specifico bar come individui". I modelli linguistici di grandi dimensioni non sono addestrati a imitare la media; sono addestrati a prevedere le singole parole successive usando tutto il contesto delle parole precedenti.

Sarebbe sciocco aspettarsi che questa attrice diventi perennemente ubriaca nel processo di apprendimento per prevedere cosa dirà ogni persona ubriaca. Potrebbe sviluppare parti del suo cervello particolarmente abili nel recitare da ubriaca, ma non diventerebbe lei stessa ubriaca.

Anche se in seguito chiedessimo all'attrice di prevedere cosa farebbe un particolare ubriaco nel bar e poi di comportarsi esteriormente secondo la sua previsione, non ci aspetteremmo comunque che l'attrice si senta ubriaca interiormente.

Cambierebbe qualcosa se modificassimo costantemente il cervello dell'attrice per fare previsioni ancora migliori sui singoli ubriachi? Probabilmente no. Se finisse per diventare davvero ubriaca, i suoi pensieri di conseguenza diventerebbero confusi, interferendo con il duro lavoro di un'attrice. Potrebbe non essere più sicura se stia prevedendo un'Alice ubriaca o una Carol ubriaca. Le sue previsioni peggiorerebbero, e il nostro ipotetico modificatore di cervelli imparerebbe a non modificare il suo cervello in quel modo.

O, per dirla in altro modo: un essere umano che diventa eccellente nell'imitare gli uccelli e nel comprenderne la psicologia non diventa per questo un uccello in un corpo umano, né diventa particolarmente simile a un uccello dal punto di vista psicologico nella sua vita quotidiana.

Analogamente, addestrare un modello linguistico di grandi dimensioni a fare previsioni eccellenti sulla parola successiva prodotta da molte persone diverse che scrivono delle loro esperienze psichedeliche passate non dovrebbe di conseguenza addestrare il modello stesso a essere come un essere umano sotto l'effetto di droghe. Se le effettive cognizioni interne del modello fossero distorte in un modo che ricorda l'"essere sotto l'effetto di droghe", questo interferirebbe con il duro lavoro del modello linguistico di previsione della parola successiva; potrebbe confondersi e pensare che una persona che parla in inglese stia per continuare in cinese.

Non stiamo dicendo: "Nessuna macchina potrà mai avere qualcosa che assomigli a uno stato mentale umano". Stiamo dicendo che non ci si dovrebbe aspettare che l'attuale tecnologia di apprendimento automatico crei di default motori che prevedono l'ubriachezza ubriacandosi essi stessi.

Il compito di capire come prevedere ogni tipo di essere umano è diverso dal compito di essere un essere umano. Questo significa che non ci si dovrebbe aspettare che le IA costruite con metodi simili a quelli odierni, nell'imparare ad agire come uno qualsiasi di noi a seconda della richiesta, diventino molto simili a un essere umano.

L'architettura dei modelli linguistici di grandi dimensioni è molto diversa da quella degli esseri umani.

Si veda il Capitolo 2 per una breve discussione su come i modelli linguistici di grandi dimensioni sembrino piuttosto alieni.

Nel Capitolo 4 approfondiremo come le IA finiscano per avere preferenze e obiettivi molto strani — un fenomeno che abbiamo già iniziato a osservare nella realtà, con ulteriori esempi che si sono accumulati anche dopo che il libro è andato in stampa. Si veda il supplemento del Capitolo 4 per alcuni esempi.

* In queste risorse non usiamo il termine più moderno e neutro “attore” perché “attrice” evita ambiguità sul fatto che ci si riferisca a “un'artista di teatro o di cinema” invece che a “un agente che intraprende azioni”.

Come può un'IA addestrata solo su dati umani superare gli esseri umani?

→