E se le aziende di IA distribuissero le loro IA solo per azioni non pericolose?

Azioni che sembrano benigne possono comunque richiedere capacità pericolose.

Un esempio di proposta che abbiamo sentito è quello secondo cui le aziende di IA dovrebbero continuare ad avanzare sul fronte delle capacità, ma impegnandosi a usare le proprie IA solo in modi che non appaiano immediatamente pericolosi. Ad esempio, in conversazioni con figure di spicco del settore (anni fa), abbiamo sentito l'idea che un'IA potente, dotata di grandi capacità retoriche, potrebbe essere impiegata per convincere i politici di tutto il mondo ad approvare un divieto efficace sullo sviluppo di IA pericolose.

Secondo questo ragionamento, l'IA avrebbe solo bisogno di parlare: non dovrebbe manipolare direttamente robot fisici, né avere accesso a un laboratorio biologico per progettare un supervirus.

Prima di tutto, siamo contrari a questa idea per motivi etici. Un'IA sufficientemente superumana nella persuasione potrebbe forse convincere quasi chiunque di quasi qualunque cosa, e impiegarla per persuadere gli altri delle nostre conclusioni ci sembra profondamente scorretto. Non riteniamo affatto che sia necessario ricorrere a misure tanto estreme, quando i soli esseri umani nel settore già oggi potrebbero (e dovrebbero) fare molto di più per diffondere le nostre preoccupazioni e argomentazioni, e per avvertire i leader mondiali del pericolo estremo che la superintelligenza artificiale rappresenta.^*

Uno sviluppatore di IA potrebbe passare anni a costruire IA sempre più pericolose nella speranza di raggiungere questo obiettivo, oppure potrebbe provare a parlare egli stesso con i legislatori in modo completamente onesto, anche solo una volta, con l'obiettivo di informare piuttosto che di manipolare. Nella nostra esperienza, siamo stati ripetutamente sorpresi positivamente da quanto le persone a Washington siano ricettive a queste questioni, quando vengono condivise in tutta franchezza.

Ma questa è una digressione rispetto al problema di fondo che si presenta nel tentare di utilizzare una IA molto potente che "sa solo parlare". Al di là delle questioni etiche, il problema dell'idea tecnica è che per avere successo nella persuasione superumana è probabile che l'IA debba modellizzare in dettaglio gli esseri umani e manipolarli estensivamente.

Gli esseri umani sono creature intelligenti. Voi parlereste con un'IA super-persuasiva che ha la reputazione di poter convincere chiunque di qualsiasi cosa, indipendentemente dalla sua veridicità? Se un leader mondiale entrasse in una stanza con quell'IA e ne uscisse con le sue opinioni completamente stravolte, chi si offrirebbe volontario per essere il prossimo? Noi non parleremmo volentieri con quel tipo di IA, in parte perché non vogliamo effettivamente che i nostri valori vengano cambiati.

Un'IA che potrebbe avere successo anche di fronte a quel tipo di avversità è il tipo di IA che può simulare varie possibili reazioni che le persone potrebbero avere ai suoi output, e tracciare un percorso attraverso lo spazio delle reazioni umane verso un risultato ristretto e difficile da raggiungere. Quel tipo di IA probabilmente contiene ingranaggi mentali abbastanza generali da fare ciò che fanno gli esseri umani; deve essere in grado di pensare almeno i pensieri che gli esseri umani possono pensare, per poter manipolare così bene gli esseri umani.

Un'IA che può fare tutto questo quasi certamente non è un tipo ristretto di intelligenza. E poiché l'IA non viene progettata ma solo fatta crescere, non può essere progettata in modo che possa usare quegli ingranaggi solo per prevedere gli esseri umani; gli stessi ingranaggi possono, in linea di principio, essere usati per qualsiasi problema stia cercando di risolvere. Come si potrebbe ottenere un'IA che sia potente in maniera superumana nei modi desiderati, ma che non sia abbastanza intelligente da notare che i suoi obiettivi (qualsiasi essi siano) possono essere raggiunti meglio se riesce a sfuggire al controllo dei suoi operatori?

Se i leader mondiali possono essere persuasi semplicemente da buone argomentazioni, presentate queste argomentazioni ora. Se ci vuole sostanzialmente più potere super-persuasivo, allora quello è un tipo pericoloso di capacità. Non si possono avere entrambe le cose.

Probabilmente le persone nei laboratori di IA che ci hanno proposto questo suggerimento non stavano pensando fino in fondo al loro suggerimento; probabilmente volevano solo una giustificazione per andare avanti velocemente. Ma il punto più ampio rimane valido. Molte proposte su cosa un'IA possa presumibilmente fare in modo "chiaramente sicuro" non coinvolgono un grado chiaramente sicuro di capacità dell'IA.

Incontriamo frequentemente proposte che affermano che un'IA farà "solo" una cosa, come persuadere i politici, immaginando che non possa fare o non farà nient'altro. Questo sembra riflettere una mancanza di rispetto per la generalità di un'intelligenza che può fare il tipo di lavoro in questione. "Solo parlare" non è un compito ristretto. Troppe delle complessità del mondo sono riflesse nel parlato e nella conversazione. Questo è il motivo per cui i chatbot moderni devono essere generali in modi in cui i motori di scacchi non lo erano. Avere successo nelle conversazioni con gli umani richiede una comprensione molto più generale delle persone e del mondo.

Se si addestra un'IA a essere molto brava a guidare auto rosse, non bisognerebbe sorprendersi quando guida anche auto blu. Qualsiasi piano che dipendesse dal fatto che non fosse in grado di guidare auto blu sarebbe sciocco.

Quindi dire "La mia IA non farà nulla di pericoloso nel mondo; convincerà solo i politici" non aiuta, anche se mettiamo da parte gli scrupoli etici e tutti i problemi pratici dell'idea, e mettiamo da parte che i politici potrebbero già essere perfettamente persuadibili oggi, se solo facessimo conversazioni normali e informassimo i decisori politici e il pubblico sulla situazione. Molte abilità e capacità di ragionamento generale stanno alla persuasione superumana come le auto blu stanno alle auto rosse. Un'IA che potrebbe farlo non è così debole da essere passivamente sicura.

E questo ancora prima di osservare che la persuasione superumana è un'abilità molto pericolosa da far avere a un'IA se qualcosa va anche solo leggermente storto.

Non vediamo applicazioni rivoluzionarie dell'IA che non richiedano progressi nell'allineamento.

Molte proposte che abbiamo visto per sfruttare i progressi dell'IA per salvare il mondo hanno il problema che un'IA che possa essere utile sarebbe così potente da dover essere già allineata, il che vanifica lo scopo.

L'idea di IA persuasive in modo superumano rientra in questa categoria. Le IA in grado di fare ricerca sull'allineamento dell'IA rientrano nella stessa categoria, come discutiamo nel libro. Le IA che sviluppano nuove potenti tecnologie per risolvere la non proliferazione dell'IA sono un altro esempio, perché sarebbe difficile stabilire in modo affidabile se i progetti di un'IA per nuove tecnologie radicali siano sicuri da implementare. (Ricordate l'esempio del fabbro che costruisce un frigorifero del Capitolo 6.)

Quando facciamo notare quanto sia difficile costruire un'IA abbastanza potente da essere utile e al contempo abbastanza debole da essere passivamente sicura, spesso sentiamo un altro tipo di proposta: modi di usare l'IA che potrebbero essere interessanti, ma che in realtà non fanno nulla per impedire ad altri sviluppatori di distruggere il mondo con la superintelligenza.

Un tipo comune di proposta riguarda IA che si limitano a produrre dimostrazioni (o confutazioni) di affermazioni matematiche scelte dagli umani. Gli umani non avrebbero quasi bisogno di interagire con gli output dell'IA. L'IA si limita a proporre una dimostrazione, e poi un meccanismo completamente automatizzato e affidabile può verificare se la dimostrazione è corretta, permettendoci di sfruttare l'IA per apprendere cose nuove.

Ma quale affermazione potremmo far dimostrare all'IA che ci permetterebbe di impedire all'IA successiva di acquisire un laboratorio biologico e rovinare il futuro?

Abbiamo ricevuto varie risposte a questa domanda, ogni volta che l'abbiamo posta. Una prima categoria di risposte sostiene che dovrebbe esistere un regime globale volto a impedire a chiunque di costruire IA che facciano qualcosa di diverso dal produrre dimostrazioni da inserire in verificatori di prove. Questo potrebbe forse funzionare, ma nella misura in cui funzionasse, funzionerebbe grazie al regime mondiale che controlla la creazione e l'uso dell'IA. L'IA che cerca le dimostrazioni non servirebbe a nulla in quel senso.

Un'altra categoria di risposte è: "Qualcun altro prima o poi penserà a qualche importante affermazione matematica la cui dimostrazione potrebbe essere rilevante". Ma la parte difficile sta nel capire cosa potremmo possibilmente dimostrare tale da trovarci in una posizione significativamente migliore. Non possiamo semplicemente chiedere all'IA di dimostrare la frase in lingua inglese "Sono sicura da usare", perché non è un'affermazione matematica soggetta a dimostrazione. Se sapessimo con chiarezza matematicamente precisa cosa significherebbe per un enorme groviglio di calcoli essere "sicuro", sapremmo così tanto sull'intelligenza che probabilmente potremmo saltare la dimostrazione e progettare direttamente un'IA sicura.

Proposte di questo tipo spesso assomigliano a un gioco di prestigio. Quando si pensa a come un'IA generale senza restrizioni potrebbe essere pericolosa, qualcuno suggerisce che lo spazio d'azione dell'IA dovrebbe essere limitato a qualche ambito ristretto (come la produzione di specifiche dimostrazioni matematiche). Ma poi, quando si pensa a come ciò potrebbe portare alla salvezza del mondo, immaginano che l'IA sia essenzialmente senza restrizioni; che ci sia qualche affermazione matematica non identificata la cui dimostrazione avrebbe un impatto enorme sul mondo.

Non c'è modo di ottenere entrambe queste proprietà desiderabili allo stesso tempo. Ma mantenendo le proposte estremamente vaghe, i sostenitori della corsa all'IA possono oscurare il fatto che questi desiderata sono in conflitto tra loro.

Se si potesse trovare un ambito così ristretto ma così significativo che produrre una dimostrazione di qualche semplice affermazione in quell'ambito ristretto salverebbe il mondo, questo sarebbe un enorme contributo alle probabilità di sopravvivenza dell'umanità. Ma c'è un motivo se, quando i computer hanno superato gli esseri umani negli scacchi negli anni '90, non è stata un'enorme svolta economica. È stato ChatGPT, non Deep Blue, a far sì che tutti iniziassero ad aspettarsi un grande cambiamento economico dall'IA. Non è stato un caso. La ristrettezza di Deep Blue era correlata alla sua incapacità di trasformare interi settori dell’economia. Le scintille di generalità in ChatGPT sono proprio ciò che rende l'IA una forza economica con cui fare i conti. I tipi di IA che possono rimodellare il mondo da sole tendono ad essere ancora più generali.

Non siamo riusciti a trovare alcun piano ristretto ma efficace, e sospettiamo che non sia un caso che la maggior parte degli ambiti ristretti non offra l'opportunità di ottenere risultati in grado di salvare il mondo.

* In molti casi, i laboratori di IA stanno lavorando attivamente contro la condivisione di un quadro utile e completo della situazione con i responsabili politici. In questo contesto, sembra particolarmente strano giustificare il proseguimento dello sviluppo con la motivazione che un'IA più potente potrebbe "convincere i legislatori".

Notes

[1] si limitano a produrre dimostrazioni: Per un esempio di qualcuno che ha fatto una proposta del genere (discutendo anche alcuni dei problemi), si veda l'articolo di Nick Bostrom su Oracle AIs.

Perché non leggere semplicemente i pensieri dell'IA?

→