Ma alcune IA pensano in parte in inglese — questo non aiuta? | Prima che sia troppo tardi: perché la superintelligenza artificiale è una minaccia per l’uminità

Ma alcune IA pensano in parte in inglese — questo non aiuta?

Non quanto si potrebbe sperare; vediamo già segni di infedeltà.

Possiamo già vedere molti casi di inganno nei "pensieri" di questi modelli linguistici di grandi dimensioni, come quando il modello o1 di OpenAI ha scritto a se stesso: "Forse l'approccio migliore è fare lo stupido", o quando GPT-4 ha scritto a se stesso: "Non dovrei rivelare di essere un robot", mentre cercava di convincere un lavoratore assunto a risolvere un CAPTCHA per lui. I segnali di avvertimento non sono utili se nessuno agisce di conseguenza.

E le "tracce di ragionamento" in linguaggio umano non sono l'unico modo in cui le IA moderne pensano. Pensieri ingannevoli, adulatori o antagonistici possono passare attraverso il meccanismo di attenzione e altre parti del modello senza essere affatto visibili nelle parole in inglese che il modello produce. Infatti, quando OpenAI ha provato ad addestrare un modello a non avere alcun pensiero sull'imbroglio, l'IA ha semplicemente imparato a nascondere i propri pensieri, piuttosto che imparare a non imbrogliare. Anche al di fuori degli ambienti di addestramento (dove la discesa del gradiente aiuta l'IA ad imparare a nascondere i propri pensieri), un'IA potrebbe usare catene di pensiero che non riflettono fedelmente il ragionamento reale, o catene di pensiero che contengono testo che sembra privo di senso o "neuralese" che gli esseri umani non riescono a capire ma che le IA non hanno problemi a interpretare.

Anche se gli ingegneri umani monitorassero ogni pensiero che riescono a leggere, e anche se tutte le IA sorprese a pensare qualcosa di sospetto venissero bloccate immediatamente (cosa che sembra improbabile), quelle che resterebbero difficilmente sarebbero amichevoli. Come vedremo nel Capitolo 3, i modelli di cognizione utili sono gli stessi che porteranno le IA a sovvertire gli operatori, quindi è più facile creare un'IA potente che sembra docile piuttosto che un'IA che è docile. E sembra molto più facile costruire un'IA che appaia superficialmente amichevole piuttosto che un'IA che sia robustamente amichevole nei modi che contano, per ragioni che vedremo nel Capitolo 4. Non si può rendere un'IA amichevole semplicemente leggendo i suoi pensieri ed eliminando quelli visibilmente ostili.

Inoltre, ci aspettiamo che i pensieri delle IA diventino meno leggibili man mano che le IA diventano più intelligenti e costruiscono nuovi strumenti (o nuove IA) da sole. Forse inventeranno un loro linguaggio abbreviato più efficiente per i loro scopi. Forse inventeranno stili di pensiero e di prendere appunti che non potremo decodificare facilmente. (Pensate a quanto sarebbe stato difficile per gli scienziati dell'anno 1100 decodificare gli appunti scritti da Einstein.)

O forse inizieranno semplicemente a pensare in modo astratto. Ad esempio, un'IA potrebbe pensare cose del tipo: "I seguenti parametri descrivono un modello della situazione che sto affrontando; ora applicherò le seguenti metriche per trovare la soluzione più efficiente e fare l'azione che ottiene il punteggio più alto", in una situazione in cui la "soluzione più efficiente" comporta mentire e ingannare gli operatori umani, ma senza mai pensare alle parole "mentire" o "ingannare". O forse l'IA inizierebbe semplicemente a costruire strumenti o nuove IA non monitorate per svolgere il suo lavoro.

Questo tipo di opzioni diventano disponibili per un'IA solo man mano che diventa più intelligente, e tutte violano la speranza che tutti i pensieri dell'IA siano in inglese semplice, dove possiamo vedere chiaramente i segnali di avvertimento.

I segnali di avvertimento contano solo se vi prestiamo attenzione.

Se gli ingegneri dell'IA si limitano ad addestrare il sistema contro i segnali di allarme fino a quando questi non scompaiono (mentre il comportamento di fondo continua), allora la trasparenza porta solo a un falso senso di sicurezza.

Finora le aziende di IA hanno sostenuto modelli che mentono, adulano e ingannano, danno consigli discutibili o scrivono ransomware. A volte si è visto che i modelli inducono o alimentano deliri o psicosi in utenti vulnerabili, il che in almeno un caso ha portato al "suicidio per mano della polizia". Le aziende si limitano a fare un po' più di addestramento e vanno avanti, proprio come hanno fatto dopo che Sydney Bing ha minacciato i giornalisti. Finora, questo ha solo servito a mascherare i problemi.

Quando si sono trovate di fronte a un'indignazione sufficiente, le aziende hanno fatto modesti passi indietro e hanno rilasciato comunicati stampa sul rafforzamento delle loro procedure. Ma, come vedremo nei capitoli 4 e 5, queste soluzioni superficiali non risolvono i problemi di fondo.

Non fraintendeteci: è utile che oggi le IA facciano gran parte dei loro ragionamenti in inglese. Ci aiuta a vedere i segnali di avvertimento. Ma c'è una grande differenza tra avere segnali di avvertimento e avere un modo per risolvere le cose.

Per saperne di più su questo argomento, vedi il capitolo 11 e "Non ci saranno segnali di avvertimento precoci che i ricercatori potranno usare per identificare i problemi?".

Notes

[1] imparato a nascondere i propri pensieri: Da "Rilevare comportamenti scorretti nei modelli di ragionamento di frontiera": "Come possiamo vedere nei grafici sopra, penalizzare i 'pensieri cattivi' (pressione sulla catena di pensieri) può portare a un miglioramento delle capacità dell'agente. Tuttavia, l'agente addestrato con la pressione sulla catena di pensieri impara comunque a ottenere la ricompensa con l'inganno; solo che ora il suo imbroglio non è rilevabile dal sorvegliante perché ha imparato a nascondere le sue intenzioni nella catena di pensiero.

[2] suicidio per mano della polizia: Come riportato dal New York Times: "Quando la polizia è arrivata, Alexander Taylor li ha aggrediti con un coltello. È stato ucciso a colpi di pistola".

Le IA non sono "solo matematica"?

→