Differenze profonde tra le IA e le specie evolutesi naturalmente

Confronto tra selezione naturale e discesa del gradiente

Come abbiamo discusso in "I valori umani sono contingenti", l'evoluzione dell'amore e dell'amicizia negli esseri umani è dipesa in modo cruciale da caratteristiche della selezione naturale che erano presenti in particolare per l'Homo sapiens e che sono assenti nella discesa del gradiente.

Il problema più evidente è il set di dati. Le attuali IA sono addestrate per risolvere sfide sintetiche e per imitare testi generati dall'uomo; non affrontano sfide cooperative-competitive in contesti di cacciatori-raccoglitori in cui devono accoppiarsi con altri individui della loro specie per propagare i propri geni.

Sentendo questo, alcune persone pensano subito di correre a creare ambienti sintetici di addestramento tribale, nella speranza di progettare qualcosa di più simile all'ambiente ancestrale dell'umanità.

Ma quasi sicuramente non si otterrebbero gli stessi risultati se si ripetesse l'evoluzione due volte, partendo dal livello delle meduse, per non parlare di cosa succederebbe se si cambiasse completamente l'ottimizzatore dalla selezione naturale alla discesa del gradiente e si rinunciasse completamente ai geni. Possiamo ipotizzare alcuni dei fattori che hanno portato gli esseri umani a sviluppare i valori che abbiamo. Ciò non significa che abbiamo un algoritmo per riprodurre gli stessi risultati una seconda volta.

Anche se si partisse dai primati, invece che da attrici aliene addestrate a prevedere il testo umano (cioè le moderne IA), dovremmo aspettarci che esistano uno o più fattori causali fondamentali che i biologi non hanno ancora compreso — almeno una cosa che ci sfugge, su cui tra vent'anni gli articoli diranno qualcosa di diverso rispetto a oggi (se saremo ancora tutti vivi allora). I biologi evoluzionisti sono nella fase di esplorazione di varie ipotesi su come queste caratteristiche si siano evolute, non nella fase di definizione di una teoria completa, tanto meno di una teoria precisa e deterministica.

E anche al di là delle differenze superficiali negli ambienti di addestramento, sospettiamo che questo sia un caso in cui diventa importante che la selezione naturale ottimizzi un genoma e che la discesa del gradiente ottimizzi direttamente ogni parametro nella mente dell'IA.

La selezione naturale deve usare un genoma piccolo e compresso per produrre un intero cervello esteso. Deve far passare le sue informazioni attraverso un collo di bottiglia stretto. Sembrare amichevoli era un tratto importante per sopravvivere e avere successo ai tempi dei nostri antenati. I geni che costruiscono amici genuini sono un trucco semplice per creare organismi che sembrano buoni amici agli altri membri della loro specie — e la selezione naturale favorisce le soluzioni semplici molto più nettamente della discesa del gradiente.

La selezione naturale a volte crea agenti che si preoccupano sinceramente di essere onesti (anche se non sempre). Crea agenti di questo tipo perché non è in grado di codificare guide complete alla menzogna, e noi abbiamo dovuto iniziare a sembrare onesti in molte situazioni prima di diventare abbastanza intelligenti da capire quando mentire era sicuro, prima di avere la possibilità di essere onesti solo quando ne valeva la pena. Ciò è in parte dovuto al fatto che la selezione naturale ha dovuto accontentarsi di pochi geni.

Ma la discesa del gradiente può codificare enormi quantità di schemi conversazionali. C’è ancora un certo bias verso soluzioni più semplici e facili da far convergere, ma la discesa del gradiente getta una rete molto, molto più ampia.

O, più in generale: l'onestà e l'amicizia sono casi in cui non ci accontentiamo di qualsiasi equilibrio tra agenti che la discesa del gradiente potrebbe trovare. Ci sono altre soluzioni a problemi che l'amicizia e un interesse finale per l'onestà stavano risolvendo negli esseri umani. Anche se l'ambiente di addestramento delle IA fosse esattamente uguale a quello degli esseri umani, se fossero modellate dalla discesa del gradiente piuttosto che dalla selezione naturale, non dovremmo aspettarci gli stessi risultati.

Anche la maggior parte degli organismi evolutisi naturalmente non sono come gli esseri umani sotto questo aspetto! Quindi sembra abbastanza prevedibile che la discesa del gradiente non troverà le stesse soluzioni dell'evoluzione, tanto meno le stesse soluzioni dell'evoluzione che opera su particolari popolazioni di primati primitivi.

L'ottimizzazione non è un rituale magico in cui si inseriscono alcuni ingredienti chiave che hanno relazioni di affinità con un archetipo e si ottiene quell’archetipo completo in uscita. Cercare di far crescere agenti di IA in ambienti di cacciatori-raccoglitori non produrrà esseri umani riconoscibili come risultato.

Qualcuno può ovviamente affinare un modello linguistico di grandi dimensioni per prevedere cosa diranno gli esseri umani su quanto sia terribile tradire un amico. Questo non è neanche lontanamente simile al problema che la selezione naturale ha ottimizzato i geni per risolvere, nel corso della produzione di almeno alcune persone che non avrebbero tradito i loro amici. Piuttosto, l'"esperienza" del modello linguistico è più simile all'essere rinchiuso in una scatola, con l'ordine di prevedere una conversazione tra due creature estremamente aliene che sono meno simili a lui di quanto lo siano a una medusa, e con trilioni di esempi di conversazioni aliene e trilioni di ore a disposizione per capirlo.

Essere in grado di risolvere questo problema richiede una certa forma di intelligenza. Ma non è necessario ubriacarsi per prevedere il tipo di cose che creature aliene ("umani") diranno quando sono ubriache. Non è necessario diventare veramente amichevoli per capire l'amicizia o per prevedere e imitare il comportamento di creature amichevoli.

Modelli linguistici di grandi dimensioni intorno al 2024 e "superficialità" dell'IA

Nelle risorse per il capitolo 1, abbiamo notato che l'AI di oggi sembra ancora in un certo senso più superficiale degli esseri umani. Il confronto con la selezione naturale fornisce una possibile spiegazione del perché ciò possa essere vero.

La discesa del gradiente ha molto in comune con la selezione naturale, perché entrambi sono ottimizzatori che regolano in modo cieco i parametri interni per produrre un comportamento esterno richiesto. Ma la discesa del gradiente e l’evoluzione sono, sotto alcuni aspetti, profondamente diverse; e la differenza più importante (che conosciamo) è che la discesa del gradiente ha un collo di bottiglia relativo alle informazioni molto più ampio sulla quantità di schemi che può apprendere.

La selezione naturale, che agisce sugli ominidi, può imparare solo poche informazioni teoriche per generazione. La selezione naturale deve far stare tutto quello che impara in 3 miliardi di basi di DNA, o circa 750 megabyte, molti dei quali sono ripetitivi DNA spazzatura. Ci sono dei limiti matematici su quanto la selezione naturale può imparare in una singola generazione. Ogni caratteristica che la selezione naturale ha messo nel cervello degli ominidi doveva essere codificata in pochi geni che avrebbero influenzato la formazione dei circuiti neurali successivi.

La discesa del gradiente è molto diversa. Ogni volta che la discesa del gradiente vede un nuovo gruppo di token, calcola il gradiente di ciascuno dei miliardi o trilioni di parametri rispetto a quel gruppo di token: calcola quanto sarebbero state migliori o peggiori le previsioni dell'intera IA se ogni parametro fosse stato leggermente diverso. In pratica, non solo in teoria, la discesa del gradiente può imparare molte più informazioni da mille gruppi di token rispetto a quelle che la selezione naturale codifica nei geni nel corso di mille generazioni.^*

Possiamo combinare questa osservazione con un altro fatto chiave sulle architetture dei modelli linguistici di grandi dimensioni (note al pubblico nel 2024): la loro profondità computazionale per token è limitata.

Llama-3.1-405B ha 126 livelli. Ciascuno di questi livelli comporta il calcolo di circa quattro operazioni sequenziali.^†

Ogni volta che Llama guarda quello che è già stato detto e calcola un nuovo token in output, quel calcolo comporta al massimo ~500 passaggi sequenziali, anche se ci sono miliardi di operazioni parallele che rispettano quel limite sequenziale. Per fare calcoli sequenziali più lunghi di 500 passaggi cognitivi, Llama deve produrre token che sono il risultato del ragionamento precedente e poi fare nuove operazioni a partire da quelli.^‡

La nostra ipotesi, del tutto azzardata, è che — in un modo senza paragoni in biologia — Llama-3.1-405B sia un'enorme raccolta di schemi di policy memorizzati relativamente superficiali, ma con un alto grado di sovrapposizione, interazione e coerenza ottimizzate tra questi schemi (oltre ad alcune strutture cognitive davvero più profonde, ma comunque di limitata profondità computazionale).

Questo fatto offre una possibile spiegazione per l'apparente superficialità degli attuali modelli linguistici di grandi dimensioni. (Riconosciamo che è molto più difficile dire che i modelli linguistici del 2025 sono "superficiali" rispetto a quelli del 2023 e del 2024).

Di solito, non è corretto pensare alle IA come a esseri umani con dei danni cerebrali.^§ Ma alcune analogie più limitate come questa potrebbero essere utili in questo caso. Ad esempio, i modelli linguistici di grandi dimensioni del 2024 sono precisamente come le persone con amnesia anterograda: ricordano gli eventi fino alla data di fine del loro addestramento, ma non quello che gli viene detto loro ieri.

Allo stesso modo, potrebbe essere utile immaginare i modelli linguistici del 2024 — non tutte le possibili IA future in generale — come entità che ricordano molte esperienze passate simili a quelle umane, ma che hanno un danno cerebrale che impedisce loro di impegnarsi in un pensiero nuovo che sia profondo come i pensieri più profondi che possono ricordare.

Questo era molto più evidente con i primi modelli linguistici di grandi dimensioni, GPT-3 o GPT-3.5. Non biasimeremmo qualcuno che ha usato solo gli ultimi modelli linguistici se leggesse questo articolo nel 2025 o più tardi e si chiedesse se ce lo stiamo inventando nel disperato tentativo di aggrapparci al senso di superiorità umana. Molti hanno già commesso questo errore in passato.

Ma questa rimane comunque la teoria organizzativa — o meglio, l'ipotesi azzardata — che i vostri autori stanno usando per dare un senso ai modelli linguistici nel 2024. A questi modelli manca una sorta di profondità; e compensano questa lacuna ricordando un'enorme varietà di schemi. Non solo fatti, ma schemi di abilità, schemi linguistici e schemi comportamentali.

Gli schemi impressi tramite gradiente nei migliori modelli linguistici pubblici del 2024 non sono così superficiali, o almeno così pensiamo. Non sono al livello eccezionalmente modesto di una vespa Sphex, per usare un esempio dal supplemento online del Capitolo 3; forse sono più simili agli schemi che la mente di un castoro può tracciare ed elaborare.

Le cognizioni apprese da un modello linguistico di grandi dimensioni possono passare attraverso 500 passaggi sequenziali, anche prima di considerare la loro capacità di pensare ad alta voce e ascoltare i propri pensieri. I modelli linguistici del 2024 hanno una certa capacità di immaginare, prevedere e pianificare, come la cognizione (in realtà piuttosto notevole) di un castoro che costruisce una diga. Ma ai nostri occhi, i modelli linguistici di grandi dimensioni non sembrano ancora essere al livello di un essere umano, almeno per alcuni aspetti importanti.

Quello che è vero per l'IA oggi, però, non è detto che lo sarà tra un anno o un mese. Queste speculazioni sono interessanti, ma mentre diamo gli ultimi ritocchi a questa sezione nell'agosto 2025, le IA di oggi ci sembrano un po' meno superficiali di quelle del 2024; e queste a loro volta sembravano meno superficiali e meno limitate di quelle del 2023.

Forse il divario verrà colmato lentamente grazie a una costante iterazione sui modelli linguistici di base; o forse il divario verrà colmato trovando metodi di addestramento migliori da utilizzare sulle lunghe catene di "ragionamento" nei modelli di ragionamento moderni come o1 (descritto nel Capitolo 3) o il suo successore o3; o forse arriverà una nuova intuizione architetturale che colmerà il divario dall'oggi al domani. Quella parte del futuro non è facile da prevedere.

Ma prima o poi, se la comunità internazionale non fa niente, il divario verrà colmato. Il mondo ha poco tempo per agire.

* D'altra parte: la selezione naturale può, in alcuni casi, imparare trucchi più profondi e potenti. La selezione naturale prende in considerazione modi alternativi completi in cui i geni possono costruire gli organismi. La discesa del gradiente, invece, si limita a ritoccare parametri all'interno dello scheletro fissato di operazioni di una rete neurale.

† Vettori di attivazione query-chiave-valore, seguiti da attenzione, seguiti da una rete feed-forward a due passaggi.

‡ È possibile che le architetture proprietarie siano diverse. I ricercatori pubblicano sempre nuove idee per superare i limiti delle operazioni in serie. Ma nessuno dei metodi pubblicati ha preso piede nell'open source fino a dicembre 2024. (Anche se, ovviamente, i "modelli di ragionamento" usciti alla fine del 2024 producono molto più ragionamento seriale guardando i loro token precedenti. Quindi questo non è un limite a ciò che le IA possono fare dopo la fase di pre-addestramento, ma è un limite durante il pre-addestramento).

§ In realtà, vi consigliamo di stare attenti alle analogie biologiche generiche in generale. All'inizio del 2023, si sarebbe potuto dire che i modelli linguistici di grandi dimensioni (MLGD) fossero ancora come piccoli mammiferi nella Grande Catena dell'Essere — oppure allo stadio di lucertola, o persino di insetto — ma questo era nascosto dal fatto che gli MLGD erano specializzati soprattutto nelle conversazioni in inglese, proprio come le api sono specializzate nella costruzione di alveari. Pensiamo che, anche all'inizio del 2023, questa analogia sarebbe stata quantomeno azzardata. Non perché i transistor siano così diversi dalle sostanze biochimiche, ma perché la discesa del gradiente è così diversa dalla selezione naturale, come abbiamo discusso. Analogie specifiche e ristrette possono talvolta essere utili "pompe di intuizione", ma consigliamo di usarle con cautela.

Proxy fragili e imprevedibili

→