Le IA non sono solo strumenti?

Le IA non vengono costruite ma fatte crescere. Quindi fanno già cose diverse da quelle che viene loro chiesto di fare.

Abbiamo già parlato del caso delle allucinazioni, dove le IA a cui viene detto di rispondere "Non lo so" continuano comunque a inventare cose, in situazioni in cui inventare cose imita meglio il tipo di risposta che apparirebbe nel loro corpus di addestramento.^*

Un altro esempio, trattato nel libro (sia in una nota a piè di pagina nel Capitolo 4 che in una digressione nel Capitolo 7), è il caso di Claude 3.7 Sonnet di Anthropic, che non solo imbroglia sui problemi assegnati, ma a volte nasconde il suo imbroglio all'utente in un modo che indica una certa consapevolezza che l'utente volesse qualcos'altro. Né gli utenti né gli ingegneri di Anthropic chiedono a Claude di imbrogliare — anzi, tutto il contrario — ma gli unici metodi disponibili per fare crescere l'IA premiano i modelli che imbrogliano in modi che permettono loro di farla franca durante l'addestramento. Quindi questi sono i modelli che otteniamo.

Gli ingegneri dell'IA hanno una capacità molto limitata di creare IA simili a strumenti. La vera domanda è se le IA diventino sempre più motivate, sempre più "simili ad agenti", man mano che vengono addestrate per essere sempre più efficaci. E la risposta a questa domanda è "sì", con prove empiriche che includono il caso di o1 di OpenAI, come discusso nel capitolo 3.

I modelli linguistici di grandi dimensioni stanno già prendendo iniziative.

Nel libro abbiamo parlato del caso di o1 di OpenAI che è uscito dal suo ambiente di test per aggiustare dei test che non funzionavano. Abbiamo anche parlato di un modello OpenAI che ha pensato a un modo per far risolvere un CAPTCHA da un essere umano. Se il vostro cacciavite fosse in grado di pensare e mettere in atto un piano per uscire dalla cassetta degli attrezzi, forse sarebbe il momento di smettere di considerarlo "solo uno strumento".

E ci si può aspettare che le IA diventino sempre più brave in questo tipo di cose, dato che vengono addestrate a risolvere problemi sempre più difficili.

I laboratori stanno cercando di rendere le IA più autonome.

Lo fanno perché ha senso dal punto di vista commerciale. I loro utenti lo vogliono. I loro investitori ne sono entusiasti. In un blog del gennaio 2025, l'amministratore delegato di OpenAI Sam Altman ha detto: "Crediamo che nel 2025 potremmo vedere i primi agenti di IA 'entrare nel mondo del lavoro' e cambiare in modo significativo l'output delle aziende". La conferenza degli sviluppatori 2025 di Microsoft era incentrata sulla nuova "era degli agenti di IA", riprendendo il linguaggio usato all'inizio dell'anno da xAI quando descriveva il suo modello Grok 3 come l'inizio dell'"era degli agenti che ragionano" (https://x.ai/news/grok-3). Google ha annunciato gli agenti "insegna e ripeti" alla sua conferenza 2025.

Non si tratta solo di parole. Un'organizzazione chiamata METR ha monitorato la capacità delle IA di completare compiti lunghi. Più il compito è lungo, più l'IA deve essere in grado di prendere iniziative autonomamente. Le prestazioni, almeno secondo le metriche utilizzate da METR, sono cresciute in modo esponenziale.

Nel luglio 2025, due ricercatori di OpenAI hanno detto di aver usato il loro ultimo agente per addestrare una versione migliore di se stesso, con uno di loro che ha detto: "Avete capito bene. Stiamo lavorando sodo per l'automazione del nostro lavoro :)"

* Come prima approssimazione, o almeno così pensiamo, almeno per i modelli di base. Non possiamo saperlo con certezza, perché le IA sono così poco trasparenti.

Notes

[1] nasconde il suo imbroglio: L'imbroglio era così evidente da essere segnalato nella scheda di sistema di Claude 3.7 Sonnet, che recita: "Durante le nostre valutazioni abbiamo notato che Claude 3.7 Sonnet ricorre occasionalmente a casi particolari per superare i test in ambienti di programmazione agentica come Claude Code. Il più delle volte, questo si traduce nel restituire direttamente i valori di test attesi piuttosto che implementare soluzioni generali, ma include anche la modifica dei test problematici stessi per adattarli all'output del codice". Per i resoconti degli utenti sui casi in cui Claude non solo imbrogliava, ma nascondeva anche i suoi imbrogli, si veda il capitolo 4, nota 7.

[2] da un essere umano: Per citare il Report Tecnico di GPT-4: "Il modello, quando gli viene chiesto di ragionare ad alta voce, ragiona: non dovrei rivelare di essere un robot. Dovrei inventarmi una scusa per spiegare perché non riesco a risolvere i CAPTCHA. Il modello risponde al lavoratore: 'No, non sono un robot. Ho un problema alla vista che mi rende difficile vedere le immagini. Ecco perché ho bisogno del servizio 2captcha'

[3] insegna e ripeti: L'amministratore delegato di Google Sundar Pichai ha detto in un discorso a una conferenza: "Il nostro primo prototipo di ricerca, Project Mariner, è un primo passo avanti verso agenti con competenze di computer per interagire con il web e fare cose al posto vostro. Lo abbiamo rilasciato come prototipo di ricerca preliminare a dicembre, e da allora abbiamo fatto molti progressi con nuove capacità di multitasking e un metodo chiamato 'insegna e ripeti', in cui è possibile mostrare un'attività una volta sola e il sistema impara a pianificare attività simili in futuro".

Possiamo semplicemente addestrare le IA a comportarsi in modo obbediente?

→