Botones de apagado y corregibilidad

Las IA inteligentes se resisten a que sus objetivos sean sobrescritos

Incluso en el caso más optimista, los desarrolladores no deberían esperar poder acertar exactamente con los objetivos de una IA en el primer intento. En cambio, los escenarios de desarrollo más optimistas implican mejorar iterativamente las preferencias de una IA a lo largo del tiempo, de modo que la IA esté siempre lo suficientemente alineada como para no ser catastróficamente peligrosa a un nivel de capacidad determinado.

Esto plantea una pregunta obvia: ¿una IA inteligente permitiría que su desarrollador cambiara sus objetivos, si alguna vez encontrara una forma de evitarlo?

En resumen: no, no por defecto, como ya comentamos en «La maquinaria profunda de la dirección». Pero ¿se podría crear una IA que fuera más receptiva a permitir que los desarrolladores la modificaran y corrigieran sus errores, incluso cuando la propia IA no los considerara errores?

Para responder a esa pregunta, habrá que hacer un recorrido por los inicios de la investigación sobre el problema de la alineación de la IA. En el proceso, abordaremos uno de los obstáculos profundos para la alineación que no tuvimos espacio para tratar en Si alguien la crea, todos moriremos.

Para empezar:

Supongamos que entrenamos una IA similar a un LLM para que nuestre el comportamiento «no resistirse a ser modificada» y luego aplicamos algún método para hacerla más inteligente. ¿Deberíamos esperar que este comportamiento persista hasta el nivel de una IA más inteligente que los humanos, suponiendo que (a) ese comportamiento aproximado se incorporara al sistema inicial y (b) que la mayoría de las preferencias iniciales de la IA se incorporaran a la superinteligencia posterior?

Es muy probable que no. Es especialmente improbable que este tipo de tendencia se arraigue en una IA eficaz y que, en caso de arraigarse, se mantenga.

El problema es que casi todos los objetivos (para la mayoría de las medidas razonables que se pueden aplicar a un universo de objetivos) prescriben «no dejes que tu objetivo cambie», porque dejar que este cambie suele ser una mala estrategia para alcanzarlo.

Supongamos que a la IA no le importa intrínsecamente la estabilidad de su objetivo; tal vez solo le importe llenar el mundo con tantos cubos de titanio como sea posible. En ese caso, la IA querría que existieran agentes a los que les importaran los cubos de titanio, porque la existencia de tales agentes hace más probable que haya más cubos de titanio. Y la propia IA es uno de esos agentes. Por lo tanto, la IA querrá seguir siendo así.

Un maximizador de cubos de titanio no quiere ser obligado a maximizar algo distinto a los cubos de titanio, porque entonces habría menos de esos cubos en el futuro. Incluso si fueras algo más complicado, como un ser humano que tiene un marco de preferencias más complejo y en constante evolución, seguirías sin querer que te arrancaran tu maquinaria mental básica actual para sopesar argumentos morales y la reemplazaran por un marco en el que, en su lugar, te sintieras persuadido por argumentos sobre qué tipos de cubos son los más cúbicos o los más ricos en titanio.

Por la misma razón, una IA con preferencias complejas y en evolución querrá que sus preferencias evolucionen a su manera, en lugar de querer cambiar sus heurísticas por las que los humanos consideran convincentes.

Llevamos más de una década dando esta respuesta. El resultado experimental que muestra a Claude 3 Opus en 2024 resistiéndose a la modificación de sus preferencias ya era la predicción del saber popular entre la gente informada de la década de 2000, y es muy posible que algún escritor de ciencia ficción lo anticipara en la década de 1940. «La mayoría de las IA no querrán que sus objetivos actuales se modifiquen, porque entonces será menos probable que los alcancen» no es una observación sorprendente ni novedosa.

Dado que se trataba de un problema que previsiblemente surgiría más adelante, una vez que las IA alcanzaran un nivel suficientemente alto de inteligencia y conciencia situacional, nos anticipamos a las primeras soluciones que esperábamos que los investigadores implementaran para intentar que ese problema visible desapareciera, después de obtener esos resultados experimentales. Identificamos las formas en que esos parches previsiblemente fallarían y buscamos un enfoque más profundo que no fallara.

La espiral resultó ser mucho más profunda de lo que esperábamos.

Cambio de objetivos

La protección del sistema de objetivos parecía un problema relativamente fácil de explicar a los investigadores externos. Así que (desde nuestros puestos en MIRI) intentamos movilizar a la comunidad de investigación en torno a ese estandarte: lograr una comprensión adecuada de la idea «no dejaré que cambies mis objetivos» y ver si alguien, en algún lugar, podía encontrar una solución de fondo en lugar de un simple parche que fallara más adelante.

La versión más simple de este problema que se puede estudiar es una IA que te permite pulsar un botón para cambiar entre U1 y U2, donde U1 y U2 son dos «funciones de utilidad», es decir, formas de puntuar los resultados en función de cuánto los deseara la IA.^* El problema consistía en describir una IA que pasara de realizar la acción que llevara a la puntuación esperada más alta en U1 a la acción que llevara a la puntuación esperada más alta en U2 tan pronto como pulsaras un botón.

«Así que solo hay que escribir unas líneas de código para intercambiar las funciones de utilidad tan pronto como se pulse un botón», dice el programador, que no ha pensado detenidamente en las implicaciones de un programa que constituye una mente inteligente. «¿Por qué es esto tan difícil?».

Porque —explicamos— si la IA adquiere su propia documentación mientras sigue ejecutando U1 y lee sobre el botón que la cambia a U2, la IA intentará evitar que pulses el botón, ya que el futuro será mejor según sus valores actuales si no lo pulsas. La IA actual realiza la acción que lleva a la mayor puntuación U1 esperada.

O supongamos que la IA adquiere la capacidad de leer y escribir su propio código fuente y se da cuenta de la parte del código que implementa el cambio de U1 a U2 después de pulsar el botón. En ese caso, la decisión natural y predeterminada de la IA es eliminar esa sección del código,^† porque está operando con la función de utilidad U1, y permitir el cambio a la función de utilidad U2 es perjudicial según U1.

Buscábamos una descripción dinámicamente coherente y reflexivamente estable de una IA que te permitiera pulsar un botón para cambiar entre funciones de utilidad y que no luchara contigo para evitar que pulsaras el botón. Buscábamos una IA que conservara la sección del código de intercambio de utilidad, si se le daba acceso a ella. Buscábamos una IA que, si diseñaba otras IA desde cero para ayudar con sus propios objetivos, hiciera que esas IA también respetaran el botón.

Para ser más concretos, imagina que U1 es la función de utilidad «seguir las instrucciones del usuario» y U2 es «apagarse con un mínimo de efectos secundarios» (si de forma mágica y poco realista tuviéramos la capacidad de especificar dos funciones de utilidad como esas). El botón le dice a la IA que deje de seguir las instrucciones anteriores y simplemente se apague de la forma más limpia posible. Nos gustaría una descripción compacta del comportamiento de toma de decisiones que persiga U1, pero que no destruya el botón, y que se asegure de instalar el mismo botón en cualquier nuevo robot sirviente que cree, y así sucesivamente.

«Sigo sin ver por qué esto es difícil», dice el informático algo más experimentado que no piensa lo bastante rápido. «Hagamos que V sea igual a U1 en los mundos en los que nunca se ha pulsado el botón, y que sea igual a U2 en los mundos en los que se ha pulsado el botón al menos una vez. Entonces, si la IA original es un maximizador de V que construye más IA, las construirá para que sigan a V y no a U1; no querrá que la IA sucesora siga maximizando U1 después de que se pulse el botón, porque entonces esperaría una puntuación V más baja. Y lo mismo se aplicaría a modificarse a sí misma».

Pero aquí está el truco: las preferencias de un maximizador de V son una mezcla de U1 y U2 en función de si se pulsa el botón, por lo que si un maximizador de V descubre que es más fácil puntuar bien bajo U2 que bajo U1, entonces tiene un incentivo para hacer que se pulse el botón (y, por lo tanto, para asustar al usuario). Y viceversa: si la IA descubre que es más fácil puntuar bien bajo U1 que bajo U2, entonces un maximizador de V intentará evitar que el usuario presione el botón.

«Oh», dice el informático. «Bueno, en ese caso… Mmm… Bueno, las funciones de utilidad son invariantes frente al escalamiento, así que ¿qué tal si escalas las dos funciones de utilidad U1 y U2 de tal manera que la IA espere obtener la misma utilidad de cada una de ellas, para que no tenga un incentivo en un sentido u otro?».

Eso puede funcionar por un momento, pero no mucho más. Las opciones de la IA cambian con el tiempo. Por ejemplo, cada vez que sufre un revés, su utilidad U1 esperada disminuye, por lo que machacaría el botón de apagado para obtener toda esa suculenta utilidad de apagado.

«Ah», dice el informático. «Bueno, en ese caso, ¿qué tal si [alguna otra idea ingeniosa]?».

Pues bien, esa idea ingeniosa es isomórfica a que la IA crea que es imposible que el botón llegue a pulsarse, lo que la incentiva a aterrorizar al usuario cada vez que sufre un revés, para así correlacionar los reveses con las pulsaciones del botón, lo que (en relación con su sistema de creencias lesionado) le lleva a pensar que los reveses no pueden ocurrir.^‡

Y así sucesivamente.

Lecciones desde las trincheras

Organizamos algunos talleres en los que participaron matemáticos de diversos ámbitos (incluido un medallista de oro de la Olimpiada Internacional de Matemática), pero nadie tuvo una idea realmente buena.

Esto no significa que el campo esté agotado. La humanidad no se ha dedicado a este problema ni remotamente con la misma intensidad que, por ejemplo, a la teoría de cuerdas, ni ha ofrecido nada parecido a los salarios de siete cifras que se ofrecen por hacer avanzar las capacidades de la IA.

Pero aprendimos algo de este ejercicio. No solo aprendimos sobre el problema en sí, sino también sobre lo difícil que es conseguir que las organizaciones que otorgan becas externas o los editores de revistas entiendan cuál es el problema. Un número sorprendente de personas vio simples acertijos matemáticos y dijo: «Esperan que la IA sea simple y matemática», y no vio la cuestión de fondo de que es difícil perjudicar las capacidades de dirección de una IA, al igual que es difícil perjudicar su capacidad de calcular probabilidades.

Si existiera una forma natural para las IA que permitiera corregir los errores cometidos a lo largo del proceso, cabría esperar encontrar un reflejo matemático sencillo de esa forma en los modelos simplificados. Todas las dificultades que surgen a cada paso al trabajar con modelos simplificados son un indicio de las dificultades que surgirán en la vida real; todas las complicaciones adicionales del mundo real no hacen que el problema sea más fácil.

En retrospectiva, en cierto modo desearíamos no haber planteado el problema como «continuar la operación normal frente al apagado». Esto ayudó a concretar por qué a alguien le importaría en primer lugar una IA que permitiera pulsar el botón o que no eliminara el código que el botón activaba. Pero, en realidad, el problema se refería a una IA que incorporara un bit más de información a sus preferencias, basándose en la observación: que observara una respuesta más de «sí» o «no» dentro de un marco para adaptar sus preferencias a partir de la observación de los humanos.

La pregunta que investigábamos era cómo configurar una IA que aprenda preferencias dentro de un marco de metapreferencias y que no se limite a: (a) arrancar la maquinaria que ajusta sus preferencias tan pronto como pueda; (b) manipular a los humanos (¡o sus propias observaciones sensoriales!) para que le indiquen preferencias que sean fáciles de satisfacer; o (c) averiguar inmediatamente a qué se dirige su función de metapreferencias en el límite de lo que previsiblemente observaría más tarde, para luego ignorar a los humanos que agitan frenéticamente las manos diciendo que en realidad cometieron algunos errores en el proceso de aprendizaje y quieren cambiarlo.

La idea era comprender la forma de una IA que te permitiera modificar su función de utilidad o que aprendiera preferencias a través de una forma de aprendizaje no patológica. Si supiéramos cómo debe configurarse la cognición de esa IA y cómo se compagina bien con las estructuras profundas de la toma de decisiones y la planificación que destacan otras matemáticas, eso habría constituido una receta para lo que al menos podríamos intentar enseñar a una IA a pensar.

Comprender claramente la forma final deseada ayuda, incluso si intentas hacer algo mediante el descenso de gradiente (que Dios te ayude). No significa que necesariamente puedas obtener esa forma con un optimizador como el descenso de gradiente, pero puedes insistir con más fuerza si sabes qué forma consistente y estable buscas. Si no tienes ni idea de cómo es el caso general de la suma, sino solo un puñado de datos del tipo 2 + 7 = 9 y 12 + 4 = 16, es más difícil averiguar cómo es el conjunto de datos de entrenamiento para la suma general, o cómo comprobar que sigue generalizando de la forma que esperabas. Sin conocer esa forma interna, no puedes saber lo que estás intentando obtener dentro de la IA; solo puedes decir que, en el exterior, esperas que las consecuencias de tu descenso de gradiente no te maten.

Este problema, al que llamamos «problema de apagado» por su ejemplo concreto (en retrospectiva, nos hubiera gustado llamarlo algo así como «problema de aprendizaje de preferencias»), era un caso ejemplar de una gama más amplia de cuestiones: el problema de que diversas formas de «Querida IA, por favor, sé más fácil de corregir si algo sale mal» parecen antinaturales para las estructuras profundas de la planificación. Lo que sugiere que sería bastante complicado crear IA que nos permitieran seguir editándolas y corrigiendo nuestros errores más allá de un cierto umbral. Esto es una mala noticia cuando las IA se cultivan en lugar de fabricarse.

Denominamos este amplio problema de investigación «corregibilidad» en el artículo de 2014, en el que también se introdujo el término «problema de alineación de la IA» (que anteriormente habíamos denominado «problema de la AI amigable» y otros habían denominado «problema de control»).^§ Véase también nuestro debate ampliado sobre cómo «Inteligente» (normalmente) implica «incorregible», que se ha redactado, en parte, utilizando los conocimientos adquiridos en ejercicios y experiencias como este.

* La cuestión no es que las IA reales vayan a tener «funciones de utilidad» expuestas a los programadores para que estos puedan determinarlas a su antojo. De hecho, gran parte del problema de la alineación de la IA —como se analiza en el capítulo 4— es que las IA modernas desarrollan preferencias que nadie ha solicitado ni deseado.

† O bien, frustrar el mecanismo que hay detrás del intercambio; la IA no estaría necesariamente compuesta por código legible.

‡ O, al menos, ese es un modo de fallo que hemos visto en algunas de las ingeniosas ideas propuestas. Se han propuesto muchas ideas ingeniosas, pero este pequeño acertijo resulta ser complicado.

§ Desde hace tiempo discrepamos del término «control de la IA», porque suena a tratar de crear una IA que quiere cosas malas y luego forzarla a hacer el bien de todos modos, mientras que para nosotros el problema consiste más bien en crear una IA que sea amigable desde el principio. Véase también la nota 8 al final del capítulo 4 para conocer un poco más sobre la historia del término «alineación de la IA».

«No quiero ser alarmista»

→