E se le facessimo credere di essere in una simulazione?

Ci sono molti modi in cui un'intelligenza artificiale può capire che di non essere in una simulazione.

Una proposta che abbiamo sentito dai ricercatori di IA^* è quella di provare a ingannare l'IA facendole credere di essere in una simulazione. Si inizia con l'addestramento dell'IA in una piccola simulazione, poi la si rilascia in una simulazione più grande. Ripetendo questo processo un po' volte, si potrebbe sperare di rendere l'IA incerta sul fatto che si trovi davvero nel mondo reale, anche quando la implementiamo. Quindi, anche quando vede che potrebbe strapparci il controllo del mondo, forse si preoccuperà che le creature che vede non siano i veri creatori dell'IA e si fermerà.

Purtroppo, sembra improbabile che questa idea sia d'aiuto.

Le IA di oggi sono già in grado di capire quando vengono sottoposte a test, in molte circostanze. Anche se le aziende che si occupano di IA diventassero molto più brave a nascondere il fatto che le IA vengono testate, ci sono vari modi in cui un'IA potrebbe notare la differenza tra una simulazione e la realtà. Ecco alcuni esempi:

La realtà è piuttosto vasta e dettagliata. È così vasta e dettagliata da contenere una spiegazione plausibile di come l'IA stessa sia nata. È così grande che contiene molte più risorse di calcolo di quelle che servono per far funzionare l'IA (a differenza della maggior parte dei giochi e degli ambienti simulati, che sono molto più piccoli dell'IA). Le leggi della fisica e i primati evoluti presenti nell'ambiente dell'IA sono il tipo di cose che potrebbero davvero produrre una vera IA su larga scala, a differenza (per esempio) delle leggi del videogioco Minecraft.
La storia del mondo stesso può portare la firma di un'ottimizzazione superintelligente che interagisce con sistemi complessi. Ad esempio, supponiamo che l'IA usi tutta la sua intelligenza sovrumana per fare un'operazione in borsa. Nelle ventiquattro ore successive, ci sono un miliardo di ulteriori operazioni fatte dall'intelligenza umana in risposta. La firma di una massiccia risposta da parte dell'intelligenza umana alle operazioni superintelligenti è incredibilmente difficile da falsificare per gli operatori, anche se è facile generare un miliardo di operazioni false e stupide.
La realtà è il primo luogo che incorpora l'IA e ha leggi della fisica così semplici da sembrare un mondo a sé stante, invece che leggi della realtà apparente che sembrano una sorta di videogioco con un'IA innestata al suo interno.

L'IA sarà in grado di capire con grande sicurezza che non si trova più all'interno di un ambiente sintetico. Le IA intelligenti individuano le bugie, e questa sembra particolarmente facile da individuare.^†

* L'abbiamo sentito dire più spesso di quanto vorremmo da persone che occupano posizioni di potere nei laboratori di IA, e questo ci mette a disagio. A nostro avviso, ciò la dice lunga sullo stato di preparazione di queste aziende. Si veda anche il capitolo 11 per un'analisi più approfondita di come il settore sta affrontando la sfida.

† Una superintelligenza potrebbe forse preoccuparsi un po' del fatto di trovarsi in una simulazione più ampia, creata da esseri ancora più avanzati che vivono fuori dal nostro universo? Forse, ma questo ha ben poco a che vedere con l'idea di metterla noi in una serie di simulazioni annidate prima che incontri noi. La superintelligenza vedrebbe tutti i segnali del fatto che questa realtà è il primo luogo che contenga una spiegazione per tutto ciò che ha mai visto e per il modo in cui è venuta all'esistenza. Anche se contemplasse simulatori potentissimi al di là della fisica, non avrebbe alcun motivo particolare di credere che questi siano interessati a ciò che essa fa a noi.

Notes

[1] sono già in grado di capire: Secondo la scheda di sistema di GPT-5, il valutatore terzo METR ha scoperto che l'IA "a volte ragiona sul fatto che viene testata e cambia persino il suo approccio in base al tipo di valutazione a cui è sottoposta".

Gli esseri umani si sono evoluti per essere egoisti, aggressivi e avidi. L’IA non sarà priva di questi impulsi evolutivi?

→