¿Por qué es importante el descenso de gradiente?

Es importante para comprender las maneras en que los ingenieros pueden y no pueden dar forma a las IA modernas.

Si los ingenieros están «cultivando» IA que no comprenden, entonces tienen mucha menos capacidad para dar forma al comportamiento de esas IA. La falta de comprensión limita la ingeniería.

La detallada imagen del desastre que pintamos en el resto del libro se deriva de cómo, cuando los humanos exigen que su IA sea capaz de hacer algo nuevo, la solución que obtienen no es algo que un ingeniero haya elegido con un propósito; es una respuesta que funciona en su mayor parte y que se ha encontrado por casualidad gracias a un simple optimizador que ajusta cien mil millones de números mediante ensayo y error.

Es importante comprender qué tipo de experticia tienen y no tienen los expertos en IA.

Las personas que desean apresurarse a construir una superinteligencia a veces contratan a alguien con credenciales vagamente relevantes para que aparezca en televisión y diga: «¡Por supuesto que la ciencia moderna entiende lo que ocurre dentro de una IA! ¡Al fin y al cabo, son los científicos modernos quienes la han construido!»^*

Si se les presiona, los expertos pueden defenderse señalando que, en cierto sentido, todo eso es cierto. Después de todo, los investigadores de IA escriben código perfectamente normal y fácil de entender, y este código se utiliza para crear IA, de forma indirecta. Pero la parte que es código legible e inteligible no es la IA en sí misma, sino más bien la maquinaria automatizada para ajustar billones de números billones de veces, el marco utilizado para desarrollar la IA. Y esta es una distinción crucial para comprender lo que los científicos saben y no saben sobre la IA moderna.

Los expertos en IA dedican su tiempo a ajustar experimentalmente partes del sistema, como el código de la maquinaria que cultiva la IA. A partir de estos experimentos y de otros similares realizados por sus colegas, aprenden muchos trucos sutiles que ayudan a producir IA más capaces.

Puede que no hayan mirado ninguno de los diminutos números inescrutables que componen el «cerebro» de la IA en los últimos seis meses, pero casi nadie lo hace, y los ingenieros de IA dan ese hecho por sentado. Cuando a cierto tipo de ingenieros se les dice: «Nadie entiende lo que ocurre dentro de una IA», lo que escuchan es: «Nadie sabe nada sobre el proceso de crecimiento». Y, al interpretarlo así, naturalmente se indignan.

Esperamos que comprender el descenso de gradiente —algunos de los detalles de la alquimia que implica— ayude a aclarar la situación real y qué tipo de conocimiento dicen tener estos expertos. En concreto, por mucho que los expertos afirmen saber sobre el proceso de crecimiento de las IA, se sabe muy poco sobre su funcionamiento interno.

*credenciales vagamente relevantes: El ejemplo más flagrante que conocemos se aborda en nuestra respuesta a la pregunta «¿Entienden los expertos lo que ocurre dentro de las IA?».

¿Entienden los expertos lo que ocurre dentro de las IA?

→