Una mirada más detallada al antes y el después

Como se menciona en el capítulo, la dificultad fundamental a la que se enfrentan los investigadores en IA es la siguiente:

Es necesario alinear una IA antes de que sea lo suficientemente potente y capaz como para matarte (o resistirse a ser alineada). Esa alineación debe entonces mantenerse en condiciones diferentes, las condiciones que se darían después de que una superinteligencia o un conjunto de superinteligencias^* pudieran matarte si así lo prefirieran.

En otras palabras: si estás construyendo una superinteligencia, tienes que alinearla sin poder probar nunca a fondo tus técnicas de alineación en las condiciones reales que importan, por muy «empírico» que parezca tu trabajo al tratar con sistemas que no son lo bastante potentes como para matarte.

Este no es un estándar al que estén acostumbrados los investigadores de IA, ni los ingenieros de casi cualquier otro campo.

A menudo se nos acusa de pedir algo acientífico, desvinculado de la observación empírica. Como respuesta, podríamos sugerir hablar con los diseñadores de las sondas espaciales que mencionamos en el capítulo 10.

La naturaleza es injusta; a veces, el entorno que realmente importa no es aquel en el que podemos realizar pruebas. Aun así, en ocasiones, los ingenieros están a la altura y aciertan a la primera cuando cuentan con una sólida comprensión de lo que están haciendo (herramientas robustas, teorías predictivas sólidas), algo de lo que claramente carece el campo de la IA.

El problema es que la IA que puedes probar con seguridad, sin que ninguna prueba fallida te mate, funciona bajo un régimen diferente al de la IA (o el ecosistema de IA) que necesita haber sido probada, porque si está desalineada, entonces todos mueren. La primera IA, o sistema de IA, no percibe correctamente que tenga la opción realista de matar a todo el mundo si así lo desea. La segunda IA, o sistema de IA, sí ve esa opción.^†

Supongamos que estás pensando en nombrar a tu compañero de trabajo Bob dictador de tu país. Podrías intentar convertirlo primero en dictador ficticio de tu ciudad, para ver si abusa de su poder. Pero, por desgracia, esta no es una prueba muy buena. «Ordenar al ejército que intimide al parlamento y "supervise" las próximas elecciones» es una opción muy diferente a «abusar de mi poder ficticio mientras me observan los habitantes de la ciudad (que aún pueden darme una paliza y negarme el puesto)».

Con una teoría de la cognición suficientemente desarrollada, podrías intentar leer la mente de la IA y predecir en qué estado cognitivo entraría si realmente pensara que tiene la oportunidad de tomar el poder.

Y podrías configurar simulaciones (e intentar falsificar las sensaciones internas de la IA, etc.) de una manera que, según tu teoría de la cognición, sería muy similar al estado cognitivo en el que entraría la IA una vez que realmente tuviera la opción de traicionarte.

Pero el vínculo entre estos estados que induces y observas en el laboratorio, y el estado en el que la IA realmente tiene la opción de traicionarte, depende fundamentalmente de tu teoría de la cognición no probada. La mente de una IA es susceptible de cambiar bastante a medida que se desarrolla hasta convertirse en una superinteligencia.

Si la IA crea nuevas IA sucesoras que son más inteligentes que ella, es probable que el funcionamiento interno de esas IA difiera del de la IA que estudiaste anteriormente. Cuando aprendes solo de una mente del Antes, cualquier aplicación de ese conocimiento a las mentes que vienen Después pasa por una teoría no probada sobre cómo cambian las mentes entre el Antes y el Después.

Ejecutar la IA hasta que tenga la oportunidad de traicionarte de verdad, de una manera que sea difícil de fingir, es una prueba empírica de esas teorías en un entorno que difiere fundamentalmente de cualquier entorno de laboratorio.

Muchos científicos (y muchos programadores) saben que sus teorías sobre cómo va a funcionar un sistema complicado en un entorno operativo fundamentalmente nuevo a menudo no funcionan bien en el primer intento.^‡ Se trata de un problema de investigación que exige un nivel «injusto» de previsibilidad, control y conocimiento teórico, en un ámbito con unos niveles de comprensión inusualmente bajos, en el que nuestras vidas están en juego si el resultado del experimento frustra las esperanzas de los ingenieros.

Por eso, desde nuestra perspectiva, parece sobredeterminado que los investigadores no deban precipitarse a ampliar los límites de la IA tanto como sea posible. Es una locura intentarlo, y una locura que cualquier gobierno permita que suceda.

* A veces oímos decir que no hay motivo para preocuparse, porque podemos crear múltiples superinteligencias que se controlen colectivamente entre sí. Hay muchas razones por las que estas propuestas nos parecen totalmente inverosímiles, pero vale la pena destacar aquí que ideas como esta se enfrentan al mismo problema fundamental que ya hemos mencionado varias veces: solo tenemos una oportunidad para que el ingenioso plan funcione.

† Podrías intentar hacer que una IA más débil creyera erróneamente que está en condiciones de obtener una ventaja decisiva, e intentar entrenarla para que no actúe de esa manera incluso cuando vea esa opción. Pero estarías entrenando un sistema de IA que fuera lo suficientemente tonto como para ser engañado y que viera armas falsas en lugar de armas reales. De modo que la distribución potencialmente letal seguiría siendo notablemente diferente de la distribución de entrenamiento; hay una diferencia notable entre que te digan que tienes un arma que podría matar a tus operadores y construir tú mismo un arma o una ruta de escape y comprenderlo en detalle. La IA que se deja engañar por opciones falsas no es la misma que la IA que ve opciones reales.

‡ Por ejemplo: la mecánica newtoniana hizo todo tipo de predicciones empíricas sorprendentemente buenas. Era una teoría matemática simple y concisa con un enorme poder explicativo que superó con creces todas las teorías anteriores. Pero si intentaras usarla para enviar cargas útiles a planetas lejanos a velocidades relativistas, tendrías graves problemas, porque la mecánica newtoniana no tiene en cuenta los efectos relativistas.

La historia del Chicago Pile-1

→