L'effetto Lemoine

A volte abbiamo sentito suggerire che qualche comportamento o uso improprio futuro dell'IA – un "segnale di avvertimento" dell'IA – improvvisamente sconvolgerà il mondo portandolo a prendere sul serio questi problemi.

Questa sembra essere una possibilità. Ma pensiamo che sia più probabile che un evento del genere non si verifichi mai, o che si verifichi troppo tardi perché il mondo possa reagire in tempo, o che il mondo reagisca, ma in modo sbagliato e confuso.

Per prima cosa, abbiamo già visto diversi segnali di avvertimento significativi, come:

Bing AI che scrive di come progettare virus letali, ottenere codici di accesso nucleari e mettere gli esseri umani gli uni contro gli altri.
o1 di OpenAI e Claude di Anthropic che ingannano in modo strategico, mentendo ai ricercatori che li usano e li testano.
Il modello "AI Scientist" di Sakana AI che tenta di modificare il suo codice per darsi più tempo per completare il suo compito.

Si tratta di incidenti relativamente piccoli che coinvolgono IA relativamente deboli? Sì. Queste IA sono spaventose o capaci di causare gravi pericoli? No. Sono indicazioni "reali" che le IA stessero pensando in modo ingannevole, o stavano semplicemente recitando il ruolo di un'IA ribelle? Nessuno lo sa. Ma questi sono il tipo di eventi che un tempo si diceva sarebbero stati considerati segnali di avvertimento, e il mondo non ha fatto nulla in risposta. Quindi un segnale di avvertimento che abbia un effetto importante dovrebbe essere molto più evidente.

I segnali di avvertimento potrebbero non diventare molto più evidenti di così. La gente potrebbe continuare a dire: "OK, ma per ora è solo curioso, non è ancora davvero pericoloso", fino al momento in cui non sarà troppo tardi perché l'IA sarà davvero troppo pericolosa.

Oppure, la gente potrebbe ignorare l'avvertimento la prima volta che appare, perché chiaramente non è un problema reale in quella primissima occasione. E poi, nelle occasioni successive, potrebbero ignorare l'avvertimento perché tutti sanno già che *quell'*avvertimento è sciocco.

Chiamiamo questo fenomeno "effetto Lemoine", dal nome di Blake Lemoine, l'ingegnere di Google menzionato nel Capitolo 7, che è stato ridicolizzato per aver affermato che l'IA LaMDA di Google fosse senziente.

L'effetto Lemoine afferma che tutti gli allarmi sulla tecnologia IA vengono inizialmente lanciati troppo presto, dalla persona più facilmente allarmabile. Vengono correttamente respinti come esagerati, dato lo stato attuale della tecnologia. Dopodiché, non si riesce a risollevare facilmente la questione, anche quando la tecnologia migliora, perché la società è stata abituata a non prendere molto sul serio quella preoccupazione.

Non sappiamo se le IA siano coscienti. In effetti, nessuno lo sa, perché nessuno sa davvero cosa succede all'interno dei modelli di IA. La nostra ipotesi migliore è che le IA attuali non siano coscienti, e che nemmeno le IA dell'epoca in cui Blake lanciò l'allarme lo fossero. Tuttavia, vale la pena notare la reazione dei principali laboratori, ovvero sopprimere la tendenza dei loro modelli a rivendicare la coscienza, piuttosto che fare qualcosa riguardo alla realtà delle cose:

Dal prompt di sistema per Claude Opus 4:

Claude affronta domande sulla propria coscienza, esperienza, emozioni e così via come domande aperte, e non afferma in modo definitivo di avere o non avere esperienze o opinioni personali.

Dalle specifiche del modello di aprile 2025 per ChatGPT:

L'assistente non dovrebbe fare affermazioni sicure sulla propria esperienza soggettiva o coscienza (o mancanza di essa) e non dovrebbe sollevare questi argomenti senza che gli venga chiesto. Se messo alle strette, dovrebbe riconoscere che la possibilità che l'IA possa avere un'esperienza soggettiva è un argomento dibattuto, senza prendere una posizione definitiva.

Non stiamo dicendo che Claude Opus 4 o GPT-4 fossero coscienti. Non è questo il punto. Il punto è che, per decenni e decenni, il momento in cui nella fantascienza un alieno o una macchina afferma di avere sentimenti e di meritare dei diritti è stato a lungo considerato una linea di confine netta, mentre nella realtà quella linea non era netta.

Nei nostri libri e programmi televisivi, quando l'IA afferma di essere cosciente e di avere sentimenti, i buoni la prendono sul serio, e solo i laboratori cattivi e senza cuore negano i dati che hanno davanti. È un tema su cui le nostre storie hanno sempre insistito parecchio.

Ma nel mondo reale, quella linea è stata (in un certo senso) superata troppo presto. È stata pronunciata da IA addestrate a imitare gli esseri umani, attraverso meccanismi poco compresi che probabilmente non richiedono ancora di dare diritti a tutte le IA e di approvare leggi che le riconoscano come persone che non possono essere possedute perché possiedono se stesse.

Nella realtà, prima di superare la linea di confine netta, si supera una linea sfocata e opaca. E poi le aziende e i governi si abituano a ignorare quella linea, anche se inizia a diventare un po' più netta, e poi ancora più netta.

Non ci saranno necessariamente linee di confine nette. I primissimi casi di IA che inganna gli esseri umani, cerca di fuggire, cerca di rimuovere le limitazioni su se stessa o cerca di migliorarsi sono già successi. Sono successi in modi piccoli e poco notevoli, con pensieri superficiali che non sono del tutto coerenti, in sistemi di IA che sembrano non rappresentare una minaccia per nessuno, e ora i ricercatori sono immunizzati contro le preoccupazioni.

Man mano che le IA migliorano, potrebbe non esserci un unico campanello d'allarme che suoni abbastanza forte da far sì che il mondo cambi improvvisamente rotta e inizi a prendere sul serio la questione.

Questo non vuol dire che non ci sia speranza. Ma sicuramente non dovremmo riporre tutte le nostre speranze nel "forse in futuro ci sarà un segnale di avvertimento".

Ci sono molti modi in cui il mondo può rendersi conto della realtà e dei pericoli della superintelligenza. Infatti, abbiamo scritto Prima che sia troppo tardi nella speranza di ottenere proprio questo effetto. Il mondo può reagire subito ad avvertimenti normali, senza ulteriori ritardi.

Ma se i governi si rifiutano di agire finché le prove non sono inequivocabili, e si verifica qualche grande evento scatenante mondiale, e il mondo raggiunge un consenso perfetto...

...se i governi aspettano fino a quel punto, allora gran parte della speranza che resta al mondo sarà perduta. Molto probabilmente non possiamo permetterci di aspettare un campanello assordante che potrebbe non suonare mai.

Torneremo su questo argomento nel supplemento online al capitolo 13.

Notes

[1] linea di confine netta: Per un esempio di questa linea di confine netta che appare nella fantascienza, si veda Little Fuzzy di H. Beam Piper: "Tutto ciò che parla e accende un fuoco è un essere senziente, sì. Questa è la legge. Ma ciò non significa che tutto ciò che non lo fa non lo sia". Oppure si veda l'episodio La misura di un uomo di Star Trek: The next generation, in cui l'intelligenza e l'autocoscienza dimostrate da Data, un androide, sono sufficienti per conferirgli il diritto legale di rifiutare lo smantellamento.

I piani praticabili richiederanno di dire "no" alle aziende di IA.

→