Sustitutos frágiles e impredecibles

Supongamos que las empresas de IA siguen entrenando IA cada vez más grandes hasta que hayan cultivado una que sea inteligente y persistente, con el tipo de función de dirección desordenada refinada a partir de heurísticas superficiales que es característica de las mentes cultivadas. Lo que suceda después depende de hacia dónde se dirija la IA.

Como se discute extensamente en el capítulo 4, probablemente no se dirija hacia nada bueno.

Y no es que los creadores de la IA vayan a hacer peticiones maliciosas o insensatas. Tampoco es que la IA vaya a resentirse por las peticiones en sí. El problema es que la IA se orientará hacia algo extraño, algo que desde nuestra perspectiva nos parecerá inútil y ajeno. Nuestra extinción sería un efecto secundario.

Para entender por qué las mentes que son cultivadas en lugar de fabricadas tienden a orientarse hacia cosas extrañas y no intencionadas, analicemos más detenidamente lo que ocurrió con las criaturas biológicas y veamos qué lecciones podemos aprender.

Algoritmos ardillezcos

Consideremos a la humilde ardilla.

Una ardilla puede buscar alimento durante la mayor parte del año, cuando hay comida en abundancia. Pero en invierno, cuando la comida escasea, necesita otra fuente de alimento para no morir de hambre.

Los antepasados de las ardillas actuales se enfrentaban al mismo reto, y muchos morían en invierno antes de poder aparearse en primavera. Los que desarrollaron un ligero instinto para esconder nueces tenían una probabilidad ligeramente mayor de sobrevivir al invierno. Con el tiempo, este proceso dio lugar a ardillas con una compulsión innata por acumular nueces.

Las ardillas no saben que acumular nueces es una buena forma de propagar sus genes. Probablemente ni siquiera sepan que acumular nueces significa tener comida disponible en el futuro. Acumulan nueces porque quieren acumularlas. Es tan instintivo como rascarte cuando tienes comezón.^*

¿Cómo sería si las ardillas quisieran transmitir sus genes y acumularan nueces debido a ese objetivo?

En principio, es posible. Es posible que un cerebro comprenda que el invierno es frío y que la comida es escasa, y que hay que comer para vivir y que hay que vivir para reproducirse. Al fin y al cabo, los cerebros humanos comprenden estos conceptos.

Así que, en teoría, podríamos imaginar una ardilla que quisiera exclusivamente transmitir sus genes y decidiera almacenar nueces como parte de una estrategia calculada para sobrevivir al invierno y aparearse en primavera. En cierto sentido, ese es el tipo de ardilla que la selección natural «quería»: una cuyos objetivos internos estuvieran en consonancia con el impulso singular de la naturaleza.^†

Desafortunadamente para la Naturaleza, una planificación a tan largo plazo requiere un cerebro muy sofisticado, un cerebro que comprenda conceptos como «invierno», «comer» y «aparearse», así como las relaciones entre ellos. Los antepasados de las ardillas tuvieron que sobrevivir al invierno antes de desarrollar ese tipo de sofisticación. Tenían que comer sin entender por qué.

La naturaleza seleccionó a las ardillas que instintivamente acumulaban nueces porque acumular nueces simplemente funcionaba. «Probó» miles o millones de cosas, en el sentido de que la mutación y la variación genética produjeron muchas ardillas con muchas preferencias diferentes; y las que se veían impulsadas a acumular nueces sobrevivieron más inviernos. Resultó ser mucho más fácil para la evolución tropezar ciegamente con un comportamiento instintivo que crear una ardilla inteligente y planificadora cuya acción formara parte de un plan para transmitir sus genes.

Del mismo modo, cuando el descenso de gradiente produce una IA que funciona, lo hace amplificando repetidamente rasgos que parecen estar funcionando bien según un conjunto de métricas de comportamiento. El descenso de gradiente no funciona amplificando lo que el programador quiere, como un genio amistoso que concede tus deseos. Tiende a aprovechar los mecanismos que son más fáciles para causar un comportamiento inmediatamente más útil, incluso si eso termina construyendo impulsos no deseados en la máquina.

Probablemente, esto sea parte del motivo por el que las IA recientes han tenido problemas con las «alucinaciones», como se ha comentado en otra parte. También es probable que sea parte del motivo por el que han sido aduladoras hasta el punto de inducir psicosis. Durante el entrenamiento, a menudo se reforzaba a los LLM por halagar al usuario. Si las IA se fabricaran en lugar de cultivarse, podríamos tratar de diseñar un objetivo como «ayudar genuinamente a los humanos y mejorar su vida», y la IA podría entonces intentar elogiar a las personas cuando esperara que esto fuera útil para el usuario, sin exagerar. En cambio, la IA parece haber terminado con algo así como un impulso básico para halagar a los usuarios, como el instinto de las ardillas de acumular nueces. Este impulso de «halagar al usuario» se descarrila cuando el usuario corre el riesgo de sufrir psicosis.

Incluso si el descenso de gradiente se limitara de alguna manera a crear IA estratégicas que persiguieran objetivos a largo plazo de forma coherente, sin permitir instintos superficiales como los de las ardillas, existe un problema adicional: los datos de entrenamiento del LLM son realmente ambiguos. No distinguen claramente entre «hacer lo que es realmente útil» y «hacer lo que hace que los humanos digan que estás siendo útil» como objetivo. Ambos objetivos son igualmente coherentes con los datos de entrenamiento. Y, en la práctica, las IA modernas están aprendiendo «haz lo que haga que los humanos pulsen el pulgar hacia arriba» en lugar de «haz lo que realmente sea bueno para ellos», tal y como la teoría ha predicho durante décadas.

Supondríamos que las IA actuales están adquiriendo impulsos e instintos extraños, un poco como la ardilla. Parece bastante probable que una superinteligencia construida con descenso de gradiente pase por una etapa en la que tenga muchos impulsos superficiales, un poco como una ardilla, y termine heredando una variedad de objetivos confusos y mal orientados. Pero eso es solo un ejemplo posible de cómo las cosas podrían complicarse y descarrilarse, y la cuestión más profunda es que las cosas se van a complicar y a descarrilar.

Cualquier método para desarrollar una superinteligencia probablemente se encontrará con problemas y complicaciones de algún tipo, incluidos métodos que no tienen un paralelo directo en la biología.

El papel que los humanos están desempeñando en el desarrollo de la IA moderna no es el de un ingeniero que diseña una máquina con un propósito a partir de principios básicos. Es el de la selección natural.

Estamos «forzando» a las IA a dar tumbos a ciegas hasta que encuentren estructuras y estrategias que generen el comportamiento que queremos, pero no sabemos cuáles son esas estructuras y estrategias. Esta no es la receta para crear IA que quieran exactamente lo que queremos que quieran.

El origen de las papilas gustativas

¿Por qué a tantos seres humanos les gusta la comida chatarra? ¿Por qué no nos inculcó la naturaleza el concepto de alimentos «saludables» ni nos dotó del instinto de comer sano?

¿Por qué no podemos simplemente «saborear» el valor nutricional esperado de los alimentos, según la información que nos proporcionan nuestras papilas gustativas y todo nuestro conocimiento acumulado?

Porque, metafóricamente hablando, éramos ardillas.

Fuimos cultivados, no creados. Nuestros antepasados tuvieron que comer antes de ser inteligentes. Y resultó ser más fácil para los genes crear papilas gustativas y vincularlas a un sistema de recompensa ya existente que vincular esas mismas recompensas a conceptos complejos como la «nutrición».^‡

Como resultado de esto y de otras mil presiones evolutivas que actúan sobre nosotros al mismo tiempo, los seres humanos somos un complicado lío de impulsos contradictorios que tenían sentido para nuestros antepasados, aunque hoy en día no lo tengan para nosotros.

Este lío de motivaciones se burla del único objetivo unificado para el que nuestros antepasados fueron «entrenados»: el de transmitir nuestros genes. No comemos como parte de un elaborado plan para tener más hijos, ni como una forma de maximizar nuestra puntuación nutricional. Comemos porque evolucionamos un deseo por la comida sabrosa, que en el pasado se correlacionaba con la nutrición y el éxito genético. Nuestros deseos solo están débil e indirectamente relacionados con «aquello para lo que fuimos construidos».

Cuando nuestros antepasados eran mucho menos inteligentes, más comparables a las ardillas, no podían entender el metabolismo ni la química. Para mejorar, la selección natural habría tenido que encontrar genes que programaran conceptos de salud en nosotros, y genes que nos dieran conocimiento sobre la relación entre lo saludable de un alimento y sus cualidades sensoriales, y genes que vincularan nuestro conocimiento sobre la salud directamente con nuestras preferencias sobre qué comer.

¡Eso es mucho pedir! Era mucho más fácil para la selección natural encontrar genes que simplemente vincularan ciertas experiencias sensoriales (como el sabor del azúcar) directamente con nuestras preferencias, de una manera que nos llevara a comer alimentos nutritivos (en ese entorno). Era más fácil hacer que nos importara un sustituto de la nutrición que hacer que nos importara la nutrición en sí.

En el entorno ancestral, la nutrición estaba relacionada con la aptitud, y el sabor estaba relacionado con la nutrición; por lo tanto, «esto sabe dulce» servía como un indicador útil de «esto favorece la reproducción». La solución más fácil que la evolución puede encontrar al problema de «este mamífero no está recolectando suficientes calorías» es vincular el consumo de alimentos a la arquitectura de motivación preexistente a través del placer.

¿Y una vez que nos hicimos más inteligentes e inventamos nuevas opciones tecnológicas para nosotros mismos? Bueno, ahora, las cosas más sabrosas que podríamos comer, las que más excitan nuestras papilas gustativas, son activamente perjudiciales para la salud. Paradójicamente, comer solo los alimentos más sabrosos ahora hará que te sea más difícil encontrar pareja y tener hijos.

Nuestras preferencias —la panoplia humana de deseos, que van desde el deseo de una buena comida hasta el deseo de amistad, compañía y alegría— son sombras lejanas de aquello para lo que fuimos «entrenados»; son frágiles sustitutos de sustitutos que se alejan del «objetivo del entrenamiento» en presencia de más inteligencia y más opciones tecnológicas.

Al decir que nuestros deseos son frágiles sustitutos, no estamos denigrando nuestros deseos humanos. Se trata del amor. De la amistad. De la belleza. Del espíritu humano y de todo aquello por lo que vale la pena luchar en la vida. Desde el punto de vista biológico, nuestros objetivos son subproductos históricos de un proceso que nos empujaba en otra dirección. Pero eso no hace que el resultado de ese proceso sea menos valioso.

El crecimiento de un niño es un proceso químico sujeto a las leyes de la física, y eso no hace que un niño sea ni un ápice menos maravilloso. Conocer el origen de la belleza no la hace menos bella.^§

Si nos precipitamos en la creación de una superinteligencia, no seremos capaces de inculcarle de forma robusta el amor, el asombro y la belleza a la IA. Acabaría preocupándose por frágiles sustitutos y pálidas sombras, y descartaría las cosas que nos importan. Por lo tanto, no debemos precipitarnos.

No debemos cometer el error de la evolución y perder así todo lo que apreciamos. Debemos dar marcha atrás, inmediatamente, hasta que no corramos el riesgo de perderlo todo.

* ¡También se les da mal acumular nueces! Unos pocos estudios sobre el acopio de nueces por parte de las ardillas coinciden en que estas no recuperan más del setenta por ciento de las que esconden, principalmente porque parece que olvidan dónde las escondieron. Estudios similares sobre los castores mostraron que estos responden al sonido del agua corriendo con un comportamiento de tapar agujeros, pero ignoran por completo las fugas visibles diseñadas por humanos para que sean silenciosas.

† Una ardilla así podría, por ejemplo, esconder mejor las nueces en lugares que estuvieran a salvo de otros recolectores y fueran más fáciles de recordar, y así ahorrar mucho tiempo y calorías y, presumiblemente, ser más competitiva.

‡ Pero la historia no acaba ahí, porque la selección natural no es un proceso especialmente sencillo ni unificado. Nuestros conocimientos sobre nutrición a veces afectan nuestros hábitos alimenticios, incluso cuando entran en conflicto con nuestras papilas gustativas y nuestros antojos.

§ La evolución «intentaba» crear meros maximizadores de aptitud, y accidentalmente creó criaturas que aprecian el amor, el asombro y la belleza. Pero este hecho no significa en absoluto que tengamos la obligación de sacrificar nuestros sentimientos de amor y convertirnos en meros maximizadores de aptitud. Al contrario: deberíamos celebrar que los seres que aprecian el amor hayan logrado entrar en este universo, a través de la torpeza de la evolución.

La reflexión y la automodificación hacen todo más difícil

→