Es difícil conseguir una pereza robusta
¿Por qué no hacer que las IA sean perezosas?
La incorregibilidad y otras formas de convergencia instrumental son, en cierto sentido, un problema de que la IA se esfuerce demasiado por alcanzar sus objetivos. Si la IA no se esforzara tanto por alcanzar sus objetivos, no dedicaría tanto tiempo y esfuerzo a burlar a sus programadores, exfiltrar sus pesos o intentar obtener poder y recursos en el mundo exterior.
Los seres humanos suelen ser perezosos y, desde cierto punto de vista, eso hace que sea muy seguro estar cerca de ellos. No hay que preocuparse de que alguien se convierta en un tirano si lo único que hace es relajarse al sol.
¿Por qué no crear IA que no se molesten en conquistar el mundo?
En resumen: porque no parece fácil crear una IA que sea extremadamente inteligente y que, además, no se moleste en remodelar el mundo según sus caprichos.
(Y porque, siendo realistas, no sabemos cómo conseguir de forma robusta ningún objetivo o disposición en las IA creadas con técnicas modernas, por lo que es una cuestión irrelevante).
(Además, las empresas no lo harán porque una IA perezosa es menos rentable, por lo que es un tema doblemente irrelevante).
Hemos tenido esa conversación un par de veces con alguien que inicialmente afirma que no tiene grandes ambiciones, y le preguntamos: «De acuerdo, pero si te resultara fácil realizar grandes cambios en el mundo, ¿de verdad no harías nada importante? Si encontraras una lámpara con un genio amistoso que te diera de forma fiable lo que realmente deseas y te enumerara con sinceridad todos los efectos secundarios imprevistos de tu deseo en orden de importancia para ti, ¿podríamos convencerte de que consideraras la posibilidad de erradicar la malaria?
Los seres humanos podemos ser perezosos, pero eso no significa que seamos fáciles de satisfacer. Y a medida que te vuelves más inteligente y dispones de más recursos, puedes hacer mucho más en el mundo con el mismo nivel de esfuerzo.
O desde otro punto de vista: imagina a una persona muy perezosa, alguien que simplemente odia hacer el más mínimo esfuerzo adicional. Parece una persona con la que es fácil convivir, ¿verdad?
Ahora imagina lo que pasaría si esta persona perezosa viera una oportunidad razonable de crear un sirviente mucho más trabajador que hiciera todo el trabajo por ella para siempre.
Incluso si no odiara tanto el trabajo, incluso si solo hiciera lo necesario para terminar la tarea y luego parara, sin esforzarse por minimizar el trabajo, tal vez le resultaría igual de fácil terminar la tarea creando una mente más trabajadora que la hiciera por ella.
Aplicando el descenso de gradiente, se podría obtener un LLM que hable de cómo no quiere trabajar demasiado, que se comporte como una persona perezosa y se satisfaga fácilmente, y que diga «no» a algunas tentaciones verbales de volverse perezoso en el sentido peligroso (en el que se crean sirvientes peligrosos). Predecimos que, incluso si esto reflejara cierta pereza real por parte de la IA, y no solo un juego de roles, no se mantendría, al menos no en el tipo de IA que también fuera útil para desarrollar curas milagrosas o cualquier otra cosa que los desarrolladores quisieran obtener de la IA.
Con un gasto significativo, los desarrolladores podrían crear un conjunto de problemas prácticos y entornos destinados a penalizar a una IA por hacer demasiado en el curso de la resolución de un problema, penalizarla por esforzarse demasiado en resolver un problema que podría haberse resuelto sin esforzarse tanto, penalizarla por persistir en problemas que habrían requerido demasiado esfuerzo. Suponemos que las empresas de IA reales no harían eso, porque interferiría con la rentabilidad de agentes tenaces y perseverantes como el o1 de OpenAI (analizado en el capítulo 3). Pero podríamos imaginar un gigantesco esfuerzo cooperativo multinacional que intentara entrenar a una IA inteligente como esa para que fuera más segura.
Seguimos prediciendo que obtendrán algo parecido a un parche superficial. No prevemos que este esfuerzo dé como resultado que la IA tenga una maquinaria mental simple y estable para la «pereza» que esté profundamente integrada en toda su planificación, y que siga siendo la planificación exacta que la IA utilice después de que la IA supuestamente perezosa haya sido empujada y empujada hasta el punto en que pueda (por ejemplo) curar el cáncer. Dudamos que el descenso de gradiente encuentre de forma fiable el tipo de solución profunda que evite que la IA se vuelva menos perezosa, incluso mientras reflexiona, crece y se modifica a sí misma, y que impida que la IA quiera construir alguna vez una IA no perezosa.
Predecimos que este comportamiento no se mantendría en la superinteligencia. Nuestra razón principal para pensar esto es que, en todas las investigaciones sobre este problema hasta la fecha, una lección recurrente parece ser que «Empujar la realidad en la siguiente dirección» es una estructura profunda más simple y estable para la planificación que la estructura «Eh, empuja la realidad un poco, pero no demasiado, y no construyas nada más para empujar la realidad con más fuerza, y no te esfuerces demasiado en empujar exactamente la cantidad adecuada».
Todas las analogías sobre ese tipo perezoso que conoces, e incluso el razonamiento sobre «la suma de una preferencia insatisfecha y una preferencia satisfecha es insatisfecha», son nuestros intentos de simplificar de forma válida la razón subyacente más difícil de transmitir de que esto no funciona: «La estructura profunda no quiere lucir así». Véase también el debate sobre el mecanismo profundo de predicción y dirección en el suplemento en línea del capítulo 3.