"Fingi finché non ci riesci"
Molte delle speranze che l'IA vada a finire bene sembrano basarsi su una vaga sensazione che i modelli siano già abbastanza ben educati (anche se a volte un po' confusi), e che diventeranno servitori saggi e benevoli man mano che comprenderanno più pienamente i ruoli loro assegnati. Potremmo chiamarlo il modello "fingi finché non ci riesci" dell'allineamento dell'IA.
Ma migliorare le prestazioni nel "fingere" avvicina davvero i modelli al "raggiungere l'obiettivo", ovvero diventare menti che agiscono in quel modo perché sono così?
Le IA come ChatGPT sono addestrate per prevedere con precisione i loro dati di addestramento. I loro dati di addestramento sono composti principalmente da testi umani, come le pagine di Wikipedia e le conversazioni nelle chat. (Questa parte del processo di addestramento si chiama "pre-addestramento", ed è quello che rappresenta la "P" in "GPT".) I primi modelli linguistici di grandi dimensioni come GPT-2 erano addestrati esclusivamente per fare previsioni in questo modo, mentre le IA più recenti sono addestrate anche su cose come risolvere accuratamente problemi matematici (generati al computer), fornire risposte buone secondo un altro modello di IA e vari altri obiettivi.
Ma consideriamo un'IA addestrata solo a prevedere testo generato dall'uomo. Deve necessariamente diventare simile all'uomo?
Supponiamo di prendere un'eccellente attrice* e di farle imparare a prevedere il comportamento di tutti gli ubriachi in un bar. Non "imparare a interpretare un ubriaco stereotipato medio", ma piuttosto "imparare a conoscere tutti gli ubriachi di questo specifico bar come individui". I modelli linguistici di grandi dimensioni non sono addestrati a imitare la media; sono addestrati a prevedere le singole parole successive usando tutto il contesto delle parole precedenti.
Sarebbe sciocco aspettarsi che questa attrice diventi perennemente ubriaca nel processo di apprendimento per prevedere cosa dirà ogni persona ubriaca. Potrebbe sviluppare parti del suo cervello particolarmente abili nel recitare da ubriaca, ma non diventerebbe lei stessa ubriaca.
Anche se in seguito chiedessimo all'attrice di prevedere cosa farebbe un particolare ubriaco nel bar e poi di comportarsi esteriormente secondo la sua previsione, non ci aspetteremmo comunque che l'attrice si senta ubriaca interiormente.
Cambierebbe qualcosa se modificassimo costantemente il cervello dell'attrice per fare previsioni ancora migliori sui singoli ubriachi? Probabilmente no. Se finisse per diventare davvero ubriaca, i suoi pensieri di conseguenza diventerebbero confusi, interferendo con il duro lavoro di un'attrice. Potrebbe non essere più sicura se stia prevedendo un'Alice ubriaca o una Carol ubriaca. Le sue previsioni peggiorerebbero, e il nostro ipotetico modificatore di cervelli imparerebbe a non modificare il suo cervello in quel modo.
Analogamente, addestrare un modello linguistico di grandi dimensioni a fare previsioni eccellenti sulla parola successiva prodotta da molte persone diverse che scrivono delle loro esperienze psichedeliche passate non dovrebbe di conseguenza addestrare il modello stesso a essere come un essere umano sotto l'effetto di droghe. Se le effettive cognizioni interne del modello fossero distorte in un modo che ricorda l'"essere sotto l'effetto di droghe", questo interferirebbe con il duro lavoro del modello linguistico di previsione della parola successiva; potrebbe confondersi e pensare che una persona che parla in inglese stia per continuare in cinese.
Per generalizzare una lezione astratta da questo esempio: addestrare qualcosa a prevedere un comportamento individuale esteriore X, che coinvolge una tendenza interna X*, non implica molto che il previsore si ritrovi con una caratteristica interna X* molto simile. Anche se, come per l'attrice a cui è stato chiesto di recitare le sue previsioni, è possibile trasformare la sua previsione di X in un comportamento esterno che assomiglia a X.
Quando un essere umano si comporta in modo molto arrabbiato, inferiamo di default che il comportamento esteriore arrabbiato dell'umano sia causato da sentimenti di rabbia* interni. Ma c'è un'eccezione quando si ha a che fare con qualcuno che si sa essere un'attrice che recita una parte, che si sa che prima prevede le parole e il linguaggio del corpo di un individuo e poi imita quella previsione. Gli stati cognitivi interni dell'attrice che la portano a essere una brava attrice probabilmente derivano dall'arte della sua recitazione o dal suo desiderio di recitare bene, non dall'avere lo stesso stato d'animo del personaggio arrabbiato che sta interpretando. Gli attuali modelli linguistici di grandi dimensioni, come l'attrice, producono prima delle previsioni e poi le convertono in comportamenti.
Quando attribuite un comportamento esteriore umano arrabbiato a uno stato mentale interno arrabbiato* che è simile al vostro sentimento di rabbia, state — se si tratta di un essere umano — attingendo alla vostra storia evolutiva condivisa, alla vostra genetica condivisa e ai vostri cervelli umani molto simili. (E, per essere chiari, molti grandi attori attingono a questa capacità di sentire gli stati emotivi che percepiamo o immaginiamo negli altri). I modelli linguistici di grandi dimensioni non condividono nulla di tutto ciò. È davvero un'inferenza molto più traballante dire: "Quel modello linguistico mi sembra arrabbiato e quindi probabilmente è davvero arrabbiato".
Perché non aspettarsi che i modelli linguistici di grandi dimensioni risolvano il problema di prevedere la vendicatività diventando essi stessi creature vendicative?
Come essere umano che cerca di capire altri esseri umani che si comportano in modo vendicativo, e dato che il vostro stesso cervello ha il potenziale per sentirsi vendicativo*, avrebbe senso che il vostro cervello sviluppasse un'"empatia" per fare ciò: cercare di prevedere l'altro cervello attivando i propri circuiti con un insieme parallelo di stimoli. Questo trucco non funziona sempre: a volte le altre persone sono diverse da voi e non fanno quello che fareste voi al loro posto. Ma è una cosa ovvia che un cervello costruito dalla selezione naturale provi a fare per prevedere i membri della sua specie.
I modelli linguistici di grandi dimensioni si trovano in una situazione molto diversa da questa. I loro trilioni di token di addestramento cercano di far loro prevedere, partendo da zero, un'ampia varietà di menti umane dalle quali essi stessi, inizialmente, sono completamente dissimili. Il modo più efficace per risolvere questo problema di previsione dell'altro non sarà quello di diventare una creatura vendicativa* media. Per esempio, la cognizione più efficace di un modello linguistico costruita da zero su questa mente aliena-umana potrebbe avere molte annotazioni interne sull'incertezza e sul mantenere molteplici possibilità in sovrapposizione, che un essere umano non calcolerebbe nel processo di provare egli stesso vendetta. O in generale: un ragionamento efficiente, complicato e incerto basato su prove di solito non assomiglia, a livello di cognizione, a una simulazione interna in avanti di un tipico evento. Una previsione efficiente e basata su prove eseguirà, per esempio, un condizionamento sia all'indietro che in avanti su più possibilità in sintesi, mentre una simulazione procederebbe solo in avanti attraverso una sola possibilità.
Tutto questo non vuol dire che nessuna "mera macchina" possa mai, in linea di principio, provare un senso di rabbia simile a quello umano. I vostri neuroni, se osservati abbastanza da vicino al microscopio, sono costituiti da minuscoli grovigli di meccanismi che pompano neurotrasmettitori dentro e fuori dalle sinapsi. Ma la macchina specifica che è il cervello umano e la macchina specifica che è un modello linguistico di grandi dimensioni della fine del 2024 non sono affatto macchine simili. Non nel senso che sono fatte di materiali diversi (materiali diversi possono fare la stessa cosa) ma nel senso che i modelli linguistici e gli esseri umani sono stati costruiti da ottimizzatori molto diversi per fare cose molto diverse.
Non stiamo dicendo: "Nessuna macchina potrà mai avere qualcosa di simile allo stato mentale di un essere umano"†. Stiamo dicendo che l'attuale tecnologia di apprendimento automatico non dovrebbe, per default, generare l'aspettativa di creare motori di previsione dell'ubriachezza che funzionano ubriacandosi a loro volta.
Al momento un po', e forse di più quando leggerete questo articolo, le IA saranno state addestrate a prevedere alcuni comportamenti molto simili a quelli umani, e framework come ChatGPT o Claude li trasformeranno in comportamenti esterni dall'aspetto gradevole. Non solo comportamenti tipici dell'uomo, ma umani, nobili.
Le aziende che si occupano di IA potrebbero provare ad addestrare le IA a prevedere un'umanità più autentica e quindi a imitarla; potrebbero provarci per motivi cinici o per motivi più nobili. In un certo senso, la dice lunga su questo campo e sulle persone che ci lavorano il fatto che, alla fine del 2024, nessuno abbia ancora provato ad addestrare un'IA a prevedere il comportamento esteriore di una persona semplicemente... gentile. Per quanto ne sappiamo, nessuno ha provato a creare un insieme di dati che includa tutte e sole le espressioni gentili e amichevoli dell'umanità e ad addestrare un'IA solo su quello. Forse, se qualcuno lo facesse, svilupperebbe un'IA che agirebbe semplicemente in modo gentile, che esprimerebbe sentimenti belli, che sarebbe un faro di speranza.
Non sarebbe reale. Vorremmo disperatamente che fosse reale, ma non lo sarebbe. A seconda di quanto il modello linguistico preveda quali risposte preferirebbero i suoi addestratori riguardo a sentimenti nobili, speranza e sogni, riguardo al desiderio di un futuro meraviglioso insieme per entrambe le specie, è possibile che uno o entrambi i vostri autori finiscano per piangere, se mai le aziende di IA creassero un'entità del genere. Ma non sarebbe reale, non più di quanto sarebbe reale un'attrice che è stata fatta provare e corretta a lungo, e a cui alla fine sono state fatte recitare quelle parole in uno spettacolo teatrale - e per la quale si potrebbe anche piangere al pensiero che non sia reale.
Non è così che si costruisce una mente artificiale che abbia davvero sentimenti nobili, che lavori davvero con tutto il cuore per dirigerci verso un futuro più luminoso. Chi addestra l'intelligenza artificiale non sa come creare un'IA che provi questi sentimenti. Addestrano le IA a prevedere e a trasformare questa previsione in un'imitazione.
Le aziende di IA (o gli appassionati) potrebbero indicare l'attrice che hanno creato e dire: "Come potete dubitare di questa povera creatura? Guardate come state ferendo i suoi sentimenti". Potrebbero persino riuscire a convincersi che sia la verità. Ma modificare delle scatole nere fino a quando qualcosa al loro interno impara a prevedere parole nobili non è il modo in cui si creerebbero menti meravigliose, se le menti umane imparassero mai a crearle.
In parole povere, non ci si dovrebbe aspettare che il comportamento antropomorfo appaia spontaneamente. Servono ulteriori argomentazioni per sostenere che quando le aziende di IA forzano deliberatamente un comportamento umano, l'"attrice" interiore finisca per assomigliare al volto umano esteriore che è stata creata e addestrata a prevedere.
* In queste risorse non usiamo il termine più moderno e neutro “attore” perché “attrice” evita ambiguità sul fatto che ci si riferisca a “un'artista di teatro o di cinema” invece che a “un agente che intraprende azioni”.