Perché la discesa del gradiente è importante?

È importante per comprendere come gli ingegneri possano o non possano plasmare le IA moderne.

Se gli ingegneri fanno crescere IA che non comprendono, allora hanno una capacità molto minore di influenzare come queste IA si comporteranno. La mancanza di comprensione limita l'ingegneria.

Il quadro dettagliato del disastro che dipingiamo nel resto del libro deriva dal fatto che, quando le persone chiedono alla loro IA di imparare a fare qualcosa di nuovo, la soluzione che ottengono non è qualcosa che un ingegnere ha scelto deliberatamente; è una risposta parzialmente funzionante su cui è inciampato un semplice ottimizzatore che modifica cento miliardi di numeri tramite tentativi ed errori.

È importante capire che tipo di competenze hanno e non hanno gli esperti di IA.

Le persone che vogliono affrettarsi a costruire la superintelligenza a volte reclutano qualcuno con credenziali vagamente rilevanti per andare in TV e dire: "Certo che la scienza moderna capisce cosa succede all'interno di un'IA! Dopotutto, sono stati gli scienziati moderni a costruirla!"^*

Se messo alle strette, l'esperto può difendersi sottolineando che c'è un senso in cui tutto ciò è vero. Dopotutto, i ricercatori di IA scrivono codice perfettamente normale e facile da capire, e questo codice viene usato per creare IA, in modo indiretto. Ma la parte che è codice leggibile e intelligibile non è l'IA stessa, ma piuttosto il macchinario automatizzato per modificare trilioni di numeri trilioni di volte, il framework usato per far crescere l'IA. E questa è una distinzione cruciale per capire cosa gli scienziati sanno e non sanno delle IA moderne.

Gli esperti di IA passano il loro tempo a regolare sperimentalmente parti del sistema, come il codice del macchinario che fa crescere l'IA. Da questi esperimenti, e da esperimenti simili condotti dai loro colleghi, imparano molti trucchi sottili che aiutano a produrre IA più potenti.

Potrebbero non aver guardato nessuno dei minuscoli numeri imperscrutabili che compongono il "cervello" dell'IA negli ultimi sei mesi, ma quasi nessuno lo fa davvero, e gli ingegneri di IA danno questo fatto per scontato. Quando a un certo tipo di ingegnere viene detto: "Nessuno capisce cosa succede all'interno di un'IA", loro lo interpretano come: "Nessuno conosce il processo di crescita". E prendendola in questo modo, naturalmente si indignano.

Speriamo che comprendere la discesa del gradiente — alcuni dei dettagli dell'alchimia coinvolta — aiuti a chiarire lo stato effettivo delle cose e che tipo di conoscenza viene rivendicata da tali esperti. In particolare, per quanto gli esperti possano affermare di sapere molto sul processo di crescita delle IA, si sa molto poco sul funzionamento interno delle IA.

*credenziali vagamente rilevanti: L'esempio più eclatante che conosciamo è trattato nella nostra risposta alla domanda "Gli esperti capiscono cosa succede all'interno delle IA?".

Gli esperti capiscono cosa succede all'interno delle IA?

→