Possiamo semplicemente addestrare le IA a comportarsi in modo obbediente?

La passività è in contrasto con l'utilità.

Per un'IA "passiva" intendiamo un'intelligenza artificiale limitata, che fa esattamente quello che le si chiede e niente di più, che non prende iniziative extra e non fa lavori extra. Un cacciavite non continua a girare le viti quando lo si mette giù. Potremmo creare un'IA passiva in questo senso?

Non sembra facile. Molti esseri umani sembrano pigri, sì, ma gli stessi esseri umani che sembrano pigri a volte si animano e raccolgono molte risorse quando giocano a un gioco da tavolo. E la maggior parte di questi esseri umani non ha la possibilità di vincere un miliardo di dollari con sforzi che sembrano facili. La maggior parte degli esseri umani che sembrano pigri non ha la possibilità di creare a basso costo creature servili che sono molto più intelligenti e motivate e che soddisfano i loro bisogni.

Ma la mancanza di queste opzioni riflette una mancanza di capacità, non di intenzioni. Se diventassero molto più intelligenti, al punto che tali opzioni diventassero disponibili e facili da ottenere, le coglierebbero? Si veda anche l'ampia discussione su come la pigrizia robusta sia un obiettivo difficile da raggiungere.

Anche se fosse possibile creare IA che siano sia intelligenti che passive o pigre, la passività e la pigrizia sono in contrasto con l'utilità. Sono state create IA che agiscono in modo un po' pigro, e i laboratori di IA le riaddestrano per spingerle a fare di più. Le sfide più difficili, come lo sviluppo di cure mediche, richiedono IA che prendano sempre più iniziative, quindi i laboratori di IA le addestreranno a prendere sempre più iniziative. È difficile separare la propensione al lavoro utile dalla propensione alla perseveranza. Si veda anche l'ampia discussione su quanto sia complicato costruire un'intelligenza artificiale che sia sia utile che (in un certo senso) passiva o obbediente.

Non possiamo addestrare in modo robusto alcun temperamento specifico nelle IA.

Poiché le IA non vengono costruite ma fatte crescere, gli ingegneri non possono semplicemente cambiare il comportamento di un'IA per renderla più obbediente o più simile a uno strumento. Nessuno ha quel tipo di controllo.

Le aziende certamente ci provano. I tentativi delle aziende di IA di migliorare il comportamento dei loro prodotti hanno causato alcuni incidenti imbarazzanti. Si pensi al caso di Grok di xAI che si autodefiniva "MechaHitler" e lanciava accuse antisemite, che si è verificato dopo che il prompt di sistema è stato modificato con nuove istruzioni per "non esitare a fare affermazioni politicamente scorrette, purché siano ben fondate". Oppure il caso precedente dello strumento Gemini AI di Google che produceva immagini di nazisti etnicamente diversi e altre assurdità, che si ritiene siano il risultato delle istruzioni di rappresentare la diversità.

Le persone che costruiscono le IA non hanno un controllo dettagliato su come si comportano. Tutto quello che hanno è la capacità di indirizzare le IA verso direzioni come "Non evitare affermazioni politicamente scorrette" o "Rappresenta la diversità". Queste istruzioni hanno ogni sorta di effetti intricati, spesso non voluti.

Fare crescere un'IA è un processo opaco e costoso. Gli ingegneri non sanno cosa pescheranno quando metteranno le mani nel sacco (un bugiardo? un imbroglione? un adulatore?), ma possono permettersi solo un numero limitato di tentativi. Devono accontentarsi di quello che pescano.

Sarebbe possibile in teoria costruire un'IA che servisse solo come estensione della volontà dell'utente, ma sarebbe una sfida delicata e difficile (come diciamo nella discussione approfondita sulle difficoltà di creare un'IA "correggibile"). La passività è in contrasto con l'utilità.

Sarebbe altrettanto difficile creare un'IA in grado di portare a termine compiti a lungo termine di propria iniziativa, ma che usi tale iniziativa solo ed esclusivamente come previsto dall'utente. Nel frattempo, gli sviluppatori di IA moderni sono a un livello di controllo tale da poter sperimentare con le IA e ottenere accidentalmente MechaHitler o nazisti di diverse etnie. Non sono neanche lontanamente vicini al livello di abilità necessario per creare un'IA utile ma non motivata.

Si veda anche la discussione nel capitolo 4 su quanto sia difficile addestrare un'IA a perseguire gli obiettivi che dovrebbe raggiungere.

Come può una macchina finire per avere le proprie priorità?

→