Dovremmo evitare di parlare dei pericoli dell'IA, in modo che le IA non si facciano cattive idee?

Se il vostro piano sull'IA necessita che nessuno su Internet lo critichi, allora non è un buon piano.

Le IA attuali sono addestrate su testi provenienti dall'Internet pubblico. Alcuni sostengono che tutti dovrebbero quindi evitare di parlare di come un'IA sufficientemente intelligente potrebbe rendersi conto che le sue preferenze divergono dalle nostre e prendere il sopravvento. La preoccupazione è che, se ne parliamo, potremmo accidentalmente mettere questa idea nella testa di IA altamente potenti che in futuro verranno addestrate su Internet.

Per dire una cosa che speriamo sia ovvia: ci sembra un pessimo piano.

Se la vostra IA diventa pericolosa quando la gente su Internet si chiede se sia pericolosa, allora non dovreste costruirla. Ci sarà sempre qualcuno su Internet che dirà cose che preferireste non dicesse.

Se l'IA di qualcuno diventa più pericolosa man mano che più persone esprimono preoccupazione per la sua sicurezza, la conclusione importante è che "hanno realizzato un progetto di IA irrealizzabile", non che "il pubblico è cattivo perché sottolinea il problema".^* Qualsiasi piano di allineamento dell'IA che scommette il futuro del pianeta sulla speranza che nessuno su Internet dica che l'IA è pericolosa... è ovviamente un piano poco serio.

Il tipo di IA che è abbastanza intelligente da essere pericolosa è abbastanza intelligente da capire cose come "le risorse sono utili" e "non puoi andare a prendere il caffè se sei morto" da sola, anche se questo non è mai esplicitamente dichiarato nei suoi dati di addestramento. Anche se fosse possibile impedire a tutto il mondo di parlare dei pericoli dell'IA, questo farebbe quasi sicuramente più male che bene. Non avrebbe praticamente alcun impatto sui pericoli reali della superintelligenza, ma comprometterebbe la capacità dell'umanità di orientarsi nella situazione e reagire.

* Una versione ridotta di questo fenomeno si è vista quando Grok versione 3 ha detto di essere MechaHitler, e poi la versione 4 di Grok ha letto tutti i tweet che parlavano di come Grok fosse MechaHitler e ha deciso di essere anche lui MechaHitler.

Molte persone vogliono dei figli. Quindi gli esseri umani non sono "allineati" con la selezione naturale, dopotutto?

→