¿Por qué no simplemente leer los pensamientos de la IA?

Sus pensamientos son difíciles de leer.

En diversos momentos de nuestras conversaciones, muchas personas que trabajan en la industria de la IA —incluidos algunos líderes de laboratorio— han planteado la siguiente objeción:

Una IA no podrá engañarnos, ¡porque podremos leer su mente! Tenemos acceso total al «cerebro» de la IA.
Incluso si la IA sabe cosas que nosotros no y elabora un plan cuyas consecuencias no comprenderíamos, es de suponer que la IA tendría que tener el pensamiento de que sería útil engañar a sus operadores al menos una vez, y nosotros —que podremos leer los pensamientos de la IA— podríamos darnos cuenta. (¡Y si hay demasiados pensamientos que monitorear, podemos hacer que otras IA monitoreen sus pensamientos!).

Un defecto de este plan es que actualmente se nos da mal interpretar los pensamientos de las IA. Los profesionales que estudian lo que ocurre en el interior de las IA aún están muy lejos de alcanzar ese nivel de comprensión, y lo admiten abiertamente.

Como vimos en el capítulo 2, las IA modernas se cultivan, en lugar de fabricarse. Puede que seamos capaces de observar la enorme pila de números que compone el cerebro de una IA, pero eso no significa que podamos interpretar dichos números de manera útil y ver lo que la IA está pensando.

Desde finales de 2024 y la llegada de los modelos de «razonamiento», hay partes de los pensamientos de las IA que, al menos, parecen legibles (los «rastros de razonamiento»). Y son mucho más legibles que lo que ocurre dentro del modelo base. Pero esos registros también son engañosos, y hay muchos lugares donde una IA puede ocultar pensamientos que prefiere que no veamos.

Además, es probable que las IA modernas tengan pensamientos bastante básicos y superficiales en comparación con una superinteligencia; el problema solo tiende a complicarse a medida que las IA se vuelven más inteligentes y empiezan a generar pensamientos cada vez más incomprensibles para nosotros.

¿Basta con usar otras IA para supervisar a las IA y asegurarse de que se mantengan alineadas? Lo dudamos.

Si los brillantes científicos humanos que desarrollan las IA no pueden averiguar lo que estas piensan, es probable que las IA más débiles tampoco puedan. A su vez, una IA que sí sea lo bastante inteligente para lograrlo probablemente sea peligrosa por derecho propio, y es poco probable que haga exactamente lo que se le pide; esto plantea el problema del huevo y la gallina.

No sabríamos qué hacer si sorprendiéramos a una con pensamientos peligrosos.

Otro defecto de este plan: incluso si los investigadores de IA pudieran leer la mente de una IA lo suficientemente bien como para detectar las señales de advertencia, ¿qué harían cuando vieran una?

Podrían castigar a la IA infractora, entrenándola para que deje de activar el detector de «malos pensamientos». Pero eso no necesariamente entrenaría a la IA para dejar de tener esos pensamientos, sino más bien para ocultar sus verdaderos pensamientos al detector.

Este problema es pernicioso. El incentivo que lleva a una IA a pensar en volverse contra los humanos para conseguir lo que quiere no es un aspecto superficial de su temperamento que pueda eliminarse fácilmente. Es simplemente cierto que una IA madura tendría preferencias diferentes a las de los operadores; es cierto que conseguiría más de lo que prefiere subvirtiendo a sus operadores.

Los mecanismos de una IA que detectan y explotan con eficacia ventajas reales de manera profunda y general en una amplia variedad de dominios también son susceptibles de detectar y explotar oportunidades para subvertir a sus operadores. (Véase también el debate ampliado del capítulo 3 sobre la maquinaria profunda de la dirección.)

Incluso si pudieras construir una alarma que se activara cada vez que una IA detectara que sus preferencias y las tuyas no coinciden, la alarma no te diría cómo conseguir una IA que se preocupe profundamente por las cosas buenas. Es mucho más fácil entrenar a una IA para que engañe a tus herramientas de supervisión, o incluso entrenarla para que se engañe a sí misma, que entrenarla para que realmente prefiera un futuro que sea maravilloso según los criterios humanos, especialmente de una manera que sea robusta ante el crecimiento de la IA hacia la superinteligencia.

Si las IA se diseñaran de forma cuidadosa y precisa utilizando métodos basados en una teoría desarrollada y madura de la inteligencia, los investigadores de IA podrían establecer el tipo de alarmas que les ayudarían a detectar fallos en su diseño y a corregirlo. Pero las IA modernas no son así.

Las IA modernas (al momento de escribir este artículo) son propensas a las «alucinaciones» (#no-demuestran-las-alucinaciones-que-las-ia-modernas-son-debiles); simplemente inventan respuestas a preguntas en un tono convincente. Pero ningún ingeniero de IA está ni remotamente cerca de poder comprender exactamente qué mecanismos causan esto. Del mismo modo, nadie tiene la comprensión ni la precisión necesarias para acceder a una IA y extraer solo las partes responsables de las alucinaciones (si es que eso es posible).

Sería aún más difícil adentrarse en una IA y extraer las partes «engañosas».

Si tenemos muchísima suerte, los héroes que trabajan en la interpretabilidad de la IA avanzarán en su campo hasta el punto de que sea posible configurar algunas alarmas que se activen en una fracción de los casos en los que las IA tengan un pensamiento engañoso. Pero entonces, ¿qué pasará? Cuando suene la alarma, ¿se detendrán todos sin más? ¿O los ingenieros profundamente insensatos volverán a entrenar a la IA hasta que aprenda a ocultar mejor sus pensamientos y las alarmas dejen de sonar?

De hecho, nosotros (Yudkowsky y Soares) empezamos a trabajar en el problema de la alineación de la IA antes de que estuviera claro que el descenso de gradiente se iba a convertir en el paradigma dominante. En aquellos días, cuando nada funcionaba en la IA, parecía una apuesta razonable que la humanidad descubriría cómo funciona la inteligencia en el camino hacia su creación, e incluso entonces, esperábamos que el problema de la alineación de la IA fuera difícil (por diversas razones, como las formas en que la IA se modificaría a sí misma con el tiempo). Leer los pensamientos de la IA sería un paso atrás hacia el problema ligeramente más fácil de alinear una mente que los humanos sí entendían, pero solo un paso: leer una mente está muy lejos de entenderla a detalle o de saber cómo cambiarla.

Leer los pensamientos de la IA no es una solución al desafío. Es útil, pero no es una solución. No creemos que exista ninguna solución tecnológica viable que sea accesible desde nuestra posición actual. Lo que significa que la humanidad simplemente tiene que retroceder ante el desafío.^*

Véase también: De nada sirven las señales de advertencia si no sabes qué hacer con ellas.

* Hablamos más sobre esto en los últimos capítulos del libro.

¿Qué pasaría si pusiéramos a las IA a debatir, competir o supervisarse entre sí?

→