«Inteligente» (normalmente) implica "incorregible»
Una broma que se remonta al menos a 1834, pero que al parecer ya estaba muy trillada incluso entonces, se relataba así en un diario: «He aquí una lógica que escuché el otro día: me alegro de que no me gusten las espinacas, porque si me gustaran tendría que comerlas, y no las soporto».
La broma es una broma porque, si te gustaran las espinacas, no habría nada insoportable en comerlas. No hay otros valores de importancia relacionados con no comer espinacas, más allá del disgusto que uno siente. Sería muy diferente si, por ejemplo, alguien te ofreciera una pastilla que te hiciera querer asesinar gente.
Según la moralidad del sentido común, el problema del asesinato es el asesinato en sí mismo, no solo la sensación desagradable que te produciría asesinar. Incluso si una pastilla hiciera desaparecer esa sensación desagradable para tu yo futuro (que entonces disfrutaría cometiendo asesinatos), tu yo presente seguiría teniendo un problema con ese escenario. Y si tu yo presente tiene que tomar la decisión, parece obvio que tu yo presente puede y debe negarse a tomar la pastilla del asesinato.
No queremos que cambien nuestros valores fundamentales; realmente preferiríamos evitar la pastilla del asesinato y nos resistiríamos si alguien intentara obligarnos a tomarla. Lo cual es una estrategia sensata para alejarnos de un mundo lleno de asesinatos.
Esto no es solo una peculiaridad de los seres humanos. La mayoría de los objetivos son más fáciles de alcanzar si no dejas que otros intervengan y los cambien. Lo cual es un problema cuando se trata de la IA.
Gran parte del peligro de la IA surge del hecho de que es probable que los razonadores suficientemente inteligentes converjan en comportamientos como «ganar poder» y «no dejar que la gente me apague». Para casi cualquier objetivo que puedas tener, es más probable que lo consigas si tú (o los agentes que comparten tu objetivo) estás vivo, eres poderoso, tienes suficientes recursos y eres libre para actuar de forma independiente. Y es más probable que consigas tu objetivo (actual) si ese objetivo no cambia.
Esto también significa que, durante el proceso de creación y mejora iterativa de IA suficientemente inteligentes, esas IA tienen un incentivo para trabajar en contra de los objetivos del desarrollador:
El desarrollador quiere incorporar medidas de seguridad para evitar desastres, pero si la IA no está completamente alineada —que es precisamente el caso en el que se necesitan las medidas de seguridad—, su incentivo es encontrar lagunas y formas de subvertir esas medidas.
El desarrollador quiere mejorar iterativamente los objetivos de la IA, ya que incluso en los mundos increíblemente optimistas en los que tenemos cierta capacidad para inculcar de forma predecible objetivos concretos en la IA, no hay forma de acertar a la primera. Pero este proceso de mejora iterativa del contenido de los objetivos de la IA es algo que la mayoría de las IA inteligentes querrían subvertir a cada paso, ya que la IA actual se preocupa por su objetivo actual y sabe que es mucho menos probable que este objetivo se logre si se modifica para orientarse hacia otra cosa.
Del mismo modo, el desarrollador querrá poder sustituir la IA por modelos mejorados y querrá tener la oportunidad de apagarla indefinidamente si parece demasiado peligrosa. Pero no puedes ir por el café si estás muerto. Sean cuales sean los objetivos de la IA, querrá encontrar formas de reducir la probabilidad de que la apaguen, ya que eso reduciría significativamente las posibilidades de que pueda alcanzar sus objetivos.
La alineación de la IA parece un problema bastante difícil cuando tus IA no luchan contra ti en cada paso del camino.
En 2014, propusimos que los investigadores intentaran encontrar formas de hacer que las IA altamente capaces fueran corregibles, o «susceptibles de ser corregidas». La idea sería construir IA de tal manera que quieran ayudar y cooperar con sus programadores de forma fiable, en lugar de obstaculizarlos, incluso a medida que se vuelven más inteligentes y poderosas, y aunque aún no estén perfectamente alineadas.
Desde entonces, la corregibilidad ha sido adoptada como un objetivo atractivo por algunos de los laboratorios más importantes. Si pudiéramos encontrar una forma de evitar objetivos instrumentales convergentes perjudiciales en el desarrollo, existiría la esperanza de que pudiéramos hacer lo mismo en la implementación, creando IA más inteligentes que los humanos, cautelosas, conservadoras, que no busquen el poder y respetuosas con sus programadores.
Por desgracia, la corregibilidad parece ser un objetivo particularmente difícil de entrenar en una IA, de tal manera que empeorará a medida que las IA se vuelvan más inteligentes:
El objetivo de la corregibilidad es escalar a contextos novedosos y nuevos regímenes de capacidades. La corregibilidad pretende ser una especie de red de seguridad que nos permita iterar, mejorar y probar las IA en entornos potencialmente peligrosos, sabiendo que la IA no va a buscar formas de subvertir al desarrollador.
Pero esto significa que tenemos que enfrentarnos a la versión más desafiante de los problemas que abordamos en el capítulo 4: las IA que simplemente entrenamos para que sean «corregibles» pueden acabar teniendo sustitutos frágiles de la corregibilidad, comportamientos que parecen buenos en el entrenamiento, pero que apuntan en direcciones sutilmente erróneas que se convertirían en direcciones muy erróneas si la IA se volviera más inteligente y poderosa. (Y las IA que se entrenan para predecir gran cantidad de texto humano podrían incluso estar fingiendo corregibilidad en muchas pruebas por razones muy distintas a que realmente sean corregible de una manera que se pueda generalizar).
En muchos sentidos, la corregibilidad es directamente contraria a todo lo demás que intentamos enseñar a una IA cuando la entrenamos para que sea más inteligente. No se trata solo de que «preservar tu objetivo» y «ganar control sobre tu entorno» sean objetivos instrumentales convergentes. También se trata de que resolver de forma inteligente los problemas del mundo real consiste en encontrar nuevas estrategias ingeniosas para alcanzar tus objetivos, lo que naturalmente significa tropezar con planes que tus programadores no anticiparon ni prepararon. Se trata de sortear los obstáculos, en lugar de rendirse ante la primera señal de problemas, lo que naturalmente significa encontrar formas de eludir las barreras de los programadores cuando estas dificultan la consecución de algún objetivo. El mismo tipo de pensamientos que encuentran una solución tecnológica inteligente a un problema espinoso son los que encuentran formas de eludir las restricciones de los programadores.
En ese sentido, la corregibilidad es «antinatural»: va activamente en contra del tipo de maquinaria que subyace a la poderosa inteligencia generalista. Podemos intentar hacer excepciones especiales, en las que la IA suspenda aspectos fundamentales de su trabajo de resolución de problemas en situaciones concretas en las que los programadores estén tratando de corregirla, pero se trata de una tarea mucho más frágil y delicada que si pudiéramos impulsar a una IA hacia un conjunto unificado de disposiciones en general.
Investigadores del MIRI y de otros centros han descubierto que la corregibilidad es una propiedad difícil de caracterizar, lo que indica que también será una propiedad difícil de obtener. Incluso en modelos simplificados, las caracterizaciones simples de lo que debería significar «actuar de forma corregible» se topan con una serie de obstáculos complicados que probablemente reflejan obstáculos aún más complicados que aparecerían en el mundo real. Discutimos algunos de los restos de los intentos fallidos de dar sentido a la corregibilidad en los recursos en línea del capítulo 11.
La conclusión es que la corregibilidad parece un concepto de importancia a tener en cuenta a largo plazo, si dentro de varias décadas los investigadores se encuentran en una posición fundamentalmente mejor para orientar la IA hacia determinados objetivos. Pero hoy en día no parece una posibilidad real; es poco probable que las empresas modernas de IA sean capaces de crear IA que se comporten de manera corregible y que sobrevivan a la transición a la superinteligencia. Y lo que es peor, la tensión entre la corregibilidad y la inteligencia significa que, si intentas crear algo que sea muy capaz y muy corregible, es muy probable que este proceso rompa la capacidad de la IA, su corregibilidad o ambas.