Gli sviluppatori possono semplicemente tenere l'IA in una scatola?

Non lo faranno.

Quindici anni fa, gli scettici obiettavano che nessuno sarebbe stato così stupido da dare tanta libertà d'azione a un'IA. Sicuramente chiunque costruisse un'intelligenza artificiale avanzata l'avrebbe tenuta in una scatola fisica e digitale, permettendole di influenzare il mondo solo attraverso l'interazione con guardiani altamente addestrati (e adeguatamente paranoici).

All'epoca, abbiamo risposto: non è così difficile impedire a un'IA di avere alcun effetto sul mondo. Ad esempio, si potrebbero seppellire i computer sotto una dozzina di metri di cemento e non lasciare mai che nessuno si avvicini.

Un'IA del genere è sicura, ma inutile. Se le si impedisce di influenzare il mondo in qualsiasi modo, allora certo, non influenzerà il mondo in alcun modo... ma d'altra parte, non influenzerà il mondo in alcun modo.

Non si può usarla per curare il cancro, rivoluzionare l'ingegneria o produrre nuove tecnologie miracolose. I costruttori dell'IA vogliono che essa influenzi radicalmente il mondo. All'inizio, si può provare a bloccare i canali di influenza dell'IA sul mondo. In pratica, "inventa questa nuova tecnologia per noi" è di per sé un canale di influenza incredibilmente ricco.

La motivazione dietro la costruzione di un'IA superintelligente è raggiungere imprese intellettuali di cui nessun essere umano è capace. Se volesste verificare che l'invenzione di una superintelligenza faccia esattamente quello che dice di fare e nient'altro, avreste più o meno le stesse possibilità che avreste di capire una macchina costruita da una razza aliena avanzata — una razza con un potente incentivo a trovare un modo per ingannarvi.

Questo era lo stato del dibattito quindici anni fa.

Al giorno d'oggi, l'intera idea che i laboratori di IA possano cercare di "tenere l'IA avanzata in una scatola" sembra piuttosto antiquata.

I laboratori stanno facendo ogni sforzo per collegare le loro IA a Internet. Mentre lo fanno, lasciano che le IA eseguano codice arbitrario. A volte cercano di limitare ciò che il codice può fare, ma questi limiti vengono regolarmente infranti. Gli attori più piccoli hanno l'abitudine di collegare le IA appena rilasciate a ogni strumento o funzionalità immaginabile appena possibile.

Dare potere alle IA è utile nel breve termine. Le IA che possono leggere le vostre e-mail e accedere al web possono generare maggiori profitti. Le aziende di IA daranno all'IA accesso a tutti i dati possibili; Microsoft e Apple stanno già spingendo l'IA che vede le vostre e-mail, foto e calendario e abbinando l'IA ai loro software e dispositivi. Questo crea troppe interazioni con l'IA per un monitoraggio umano efficace. A meno di un cambiamento radicale, l'umanità integrerà profondamente l'IA nell'economia mondiale perché fa guadagnare (molti) soldi alle persone.

Le persone che creano l'IA mirano a ottenere effetti enormi sul mondo. Lavorano il più duramente possibile per produrre IA con un enorme potere di influenzare il mondo. Se un'azienda non lo facesse, se tenesse la sua IA così strettamente limitata da non darle alcuna libertà di agire, allora il controllo del futuro apparterrebbe a un'altra IA sviluppata da un attore più spericolato.

Non funzionerebbe se lo facessero.

Nei pittoreschi dibattiti di un tempo, facevamo spesso notare che qualsiasi canale attraverso cui l'IA può influenzare il mondo è un canale che può usare per fare cose che non vi piacciono. Immaginate che l'IA possa parlare solo con una persona, che chiameremo "Alice". Voi sperate che, attraverso Alice, l'IA generi una nuova tecnologia miracolosa. Questo comporta quasi inevitabilmente che Alice compia molte azioni che lei stessa non comprende appieno, aiutando l'IA a costruire cose che nessun umano potrebbe costruire da solo. A quel punto, all'IA sono state essenzialmente date braccia e gambe. È solo che chiamiamo quelle braccia e quelle gambe "Alice".

Le persone spesso fraintendono quest'argomentazione pensando che dica che un'IA sufficientemente intelligente potrebbe manipolare anche il guardiano più paranoico per fargli fare ciò che vuole. Un'IA sufficientemente intelligente probabilmente potrebbe farlo.^* Ma il nostro punto è più generale: un'IA così limitata da non poter influenzare il mondo è sicura ma inutile, e una volta che le si permette di influenzare il mondo per usarla, si perde la sicurezza nel processo.

Non esistono mani che possono essere usate solo per scopi positivi. In principio, potremmo immaginare che un giorno l'umanità costruisca IA più intelligenti degli esseri umani che vogliono produrre risultati positivi. L'allineamento sembra un'opzione che potrebbe funzionare in linea di principio. Tenere l'IA in una scatola e allo stesso tempo usarla in qualche modo per produrre risultati positivi? Non proprio.

Così rispondevamo, comunque — ai tempi in cui l'IA era ancora così lontana che gli inguaribili ottimisti potevano cavarsela sostenendo che nessuna azienda sarebbe stata così avventata da collegare la propria IA a Internet senza guardiani, nei giorni molto prima che tutti iniziassero a collegare le loro IA più recenti e avanzate direttamente a Internet.

* Io (Yudkowsky) una volta l'ho dimostrato scommettendo con qualcuno 20 dollari contro 0 che, mentre io assumevo il ruolo dell'«IA» e lui quello del «guardiano» in una chat privata, sarei riuscito a convincerlo a farmi uscire dalla scatola. Ci sono riuscito. L'altra persona ha pagato. Non c'è stato nessun trucco intelligente; non ho barato e non ho offerto 21 dollari per farmi dare ragione. Ho semplicemente fatto le cose nel modo più difficile e ho vinto.

Notes

[1] regolarmente violato: Dall'abstract di un articolo dell'inizio del 2024: "La nostra indagine ha messo in luce diversi problemi di sicurezza, non solo all'interno del modello linguistico di grandi dimensioni stesso, ma anche nella sua integrazione con altri componenti. Abbiamo scoperto che, anche se OpenAI GPT-4 ha messo a punto un sacco di vincoli di sicurezza per migliorare le sue caratteristiche di sicurezza, questi vincoli sono ancora vulnerabili agli attacchi. Per dimostrare ancora di più le minacce reali delle vulnerabilità che abbiamo scoperto, abbiamo creato un attacco end-to-end in cui un avversario può ottenere illegalmente la cronologia delle chat dell'utente, senza bisogno di manipolare l'input dell'utente o di ottenere l'accesso diretto a OpenAI GPT-4.

[2] vede le vostre e-mail: Come riportato dalla CNN: "Apple Intelligence avrà accesso a un sacco di vostri dati personali, dalle vostre comunicazioni scritte alle foto e ai video che avete fatto, fino a un registro dei vostri eventi in calendario. Non sembra esserci un modo per impedire ad Apple Intelligence di accedere a queste informazioni, a meno di non usare le sue funzionalità..."

Non potremo sfruttare il punto debole dell'IA?

→