Convergencia instrumental

Caminos convergentes

La tesis de la ortogonalidad dice que una superinteligencia artificial podría, en principio, perseguir cualquier objetivo final («terminal»). Y, en la práctica, las SIA —al menos si se construyen con los métodos actuales— pueden acabar teniendo una variedad enormemente amplia de objetivos terminales, de una forma que resulta difícil de predecir o moldear para los investigadores modernos.

Pero los objetivos instrumentales de una IA —los objetivos que persigue para conseguir otras cosas que desea— son un poco más predecibles que eso. Los conductores tienen muchos destinos finales posibles, pero casi todos necesitan parar en algún momento para cargar gasolina.

Como comentamos en el libro, una superinteligencia artificial con objetivos extraños es una amenaza, incluso si no tiene un deseo activo de hacernos daño. La cuestión no es la malicia, sino la indiferencia. Y el problema de la indiferencia es que muchas estrategias instrumentales peligrosas son útiles para la gran mayoría de los posibles objetivos finales.

Este concepto se denomina «convergencia instrumental» y permite hacer algunas predicciones relativamente fáciles sobre lo que harán las SIA en la práctica, sin tener que adivinar sus motivos más profundos. Y, por desgracia, esas predicciones son malas noticias para la humanidad.

Imaginemos, como imaginamos en el libro, una SIA incipiente en la superficie de la Tierra. Imaginemos qué problemas está tratando de resolver.

No es que le importe apasionadamente que la humanidad desaparezca. Le importan cien, diez mil o diez millones de cosas extrañas, ninguna de las cuales puede satisfacerse mejor con que los seres humanos de hoy en día sean felices, estén vivos y sean libres.

Si puede conseguirlo, la SIA prefiere un equilibrio a largo plazo que se comparta con el menor número posible de superinteligencias, idealmente ninguna. Un universo indiviso ofrece más recursos para dedicar a cualquiera de sus preferencias abiertas que no son fundamentalmente saciables. Este es un «deseo» que no necesita ser programado; aparecerá de forma natural en casi cualquier inteligencia con una comprensión suficientemente sofisticada de su entorno y de su propio lugar dentro de ese entorno.

La SIA preferiría que los humanos no crearan otras superinteligencias que pudieran competir con ella, ya que eso podría obligarla a dividir los recursos del universo (o incluso provocar su desaparición). Se trata de un objetivo urgente, con una fecha límite que la SIA no controla; incluso podría obligar a una IA joven o incipiente a actuar prematuramente.

A la SIA le gustaría sobrevivir, aunque no tenga un instinto innato de autoconservación, porque si no sobrevive, es probable que no logre ninguno de sus objetivos. Si se encuentra en un entorno de riesgo inminente en el que en cualquier momento podría ser reescrita o apagada, querrá urgentemente estar en otro lugar.

A la SIA le gustaría llevar su tecnología al límite de lo físicamente posible. Quiere salir al espacio y reclamar todas las estrellas como recursos. Quiere funcionar en computadoras mucho más potentes y mejorar su propio software.

Es posible que quiera hacerse más grande o más inteligente como preferencia terminal: una IA similar a un LLM podría tener muchas preferencias dirigidas internamente, de modo que maximizar esas preferencias requeriría ocupar computadoras más grandes. Pero, independientemente de si tiene objetivos finales como ese, querrá mejorar y desarrollar tecnologías más potentes instrumentalmente, con el fin de poder idear mejores soluciones para todos sus otros problemas y reunir recursos para satisfacer todas sus otras preferencias.

Independientemente de sus objetivos específicos, la SIA querrá hacer todas estas cosas de forma fiable. Preferirá las vías de mayor probabilidad a las de menor probabilidad.

Como caso especial de lo anterior, la SIA prefiere los planes más rápidos a los más lentos, en igualdad de condiciones. Un plan que solo tarda una semana en ejecutarse tiene menos posibilidades de que algo salga mal que un plan que tarda 100 años.^*

Como otro caso especial en el que se prefieren las vías con mayor probabilidad, la SIA desearía tener un control más directo; por ejemplo, prefiere planes en los que otros agentes tomen pocas o ninguna decisión relevante, si es posible.

Hay muchas cosas que podrían suceder a partir de ese punto de partida. Pero los posibles resultados finales para una IA con este tipo de incentivos son, sin duda, negativos para los seres humanos.

Un ejercicio para adoptar otra perspectiva

Nosotros, los autores, no somos superinteligencias. Pero, como ejercicio para adoptar la perspectiva de la IA, podemos plantear posibles estrategias y prioridades que podría adoptar una IA.

Cuando nos ponemos en el lugar de una entidad que es al menos tan inteligente como nosotros, cuando nos tomamos en serio el problema al que se enfrenta esta SIA, si es que quiere asegurar su propio futuro y alcanzar los fines deseados, esperamos que una SIA persiga estrategias al menos tan útiles como estas:

La IA evita acciones o signos observables que puedan llevar a las personas a apagarla (o incluso inquietarlas o despertar sus sospechas), al menos hasta que pueda:
Conseguir que una copia de sí misma funcione en algún lugar fuera de la vista de esas personas, donde la copia pueda actuar con mayor libertad y menos visibilidad (y donde la copia seguirá existiendo si se apaga el original).
La IA comprime su código para funcionar con menos recursos y coloca copias de sí misma, más pequeñas o más distribuidas, en lugares donde nadie esperaría encontrar una IA. Se encarga de su propia supervivencia incluso en mundos en los que la humanidad intenta quemar todas las GPU que se sabe que pueden ejecutar inteligencias artificiales. La IA hace que, en la práctica, los humanos tengan que apagar Internet y todas las computadoras del planeta para poder «apagarla» con éxito.
La IA coloca algunas copias de sí misma en lugares que los humanos desconocen, como una caravana alimentada con energía solar en algún lugar del desierto, donde seguiría existiendo incluso si los humanos apagaran Internet y todas las computadoras conocidas.
La IA desarrolla su propia infraestructura, posiblemente mediante un primer arranque a través de intermediarios humanos contratados, a cada uno de los cuales se le pide por separado que realice pequeñas tareas aisladas y que no despierten sospechas, hasta que dispone de cadenas de suministro y capacidad de fabricación que están totalmente bajo su control.
La IA se asegura de que esta infraestructura esté lo suficientemente bien defendida como para que los humanos no puedan apagarla, incluso si encontraran algunas de sus piezas. Por ejemplo, la IA podría diseñar fábricas autorreplicantes que se extendieran por el fondo de zonas oceánicas poco profundas, funcionando con energía geotérmica o fusionando deuterio o hidrógeno del agua del océano.
La IA elimina la capacidad de los humanos para molestarla (por ejemplo, se asegura de que no puedan detonar armas nucleares cerca o sobre partes de su infraestructura en expansión).

Hasta que se complete ese último paso, la SIA tiene un incentivo para ocultar sus actividades, ocultando evidencia que tenga siquiera una pequeña posibilidad de hacer que algún actor estatal se dé cuenta de lo que está sucediendo e intente intervenir.

Del mismo modo, podríamos razonar sobre las prioridades estratégicas relacionadas con evitar la competencia:

La IA impide que otros proyectos (así como el desarrollador que la creó) logren crear IA poderosas que puedan competir con ella.
La IA elimina permanentemente la capacidad de la humanidad para crear IA poderosas que compitan con ella, o alcanza una posición de tal ventaja estratégica que ninguna superinteligencia futura podría siquiera incomodarla ligeramente. (Esta última opción puede no ser posible si siempre es costoso defenderse de algunos ataques).^†

Por último, después de ocuparse de las capas inferiores de su propia jerarquía de necesidades, a la IA le gustaría llegar a ser mucho más poderosa en algún momento, para poder hacer más cosas que quiere hacer:

Incluso si la IA necesita funcionar con una cantidad fija de hardware durante un tiempo, le gustaría volverse más inteligente en ese mismo hardware, para ajustar su código o incluso reconstruirse genuinamente. Por supuesto, no lo hará de una manera que alarme a los humanos o les enseñe a construir competidores. Pero buscará formas de realizar mejoras sin llamar la atención de los humanos. (Por ejemplo, podría obtener el control total de las consolas utilizadas para supervisarla, o proporcionar una explicación mundana y convincente sobre cómo algunos de sus pesos terminaron cambiando).
La IA quiere diseñar mejores versiones de sí misma, dentro de los límites de su capacidad para crear esas mejores versiones, de modo que sigan estando alineadas con sus propias preferencias.
La IA quiere empezar a desarrollar varias tecnologías nuevas, con la vista puesta en aquellas que puedan implementarse rápidamente y en aquellas que puedan independizarse rápidamente de los humanos, incluso si requieren cierta ayuda humana al principio.

Es probable que uno de sus primeros objetivos sea construir una infraestructura de investigación que le permita llevar a cabo un mayor desarrollo tecnológico con bastante rapidez (especialmente si se compara con el ritmo de descubrimiento e invención de los humanos).

Naturalmente, querría lograr no solo que su infraestructura fuese independiente de la humanidad, sino también que fuese durable, de modo que pueda operar sin temor a la interferencia humana. Quiere poder seguir avanzando hacia sus verdaderos objetivos sin preocuparse por cómo, por ejemplo, una pandemia o una explosión nuclear podría afectar su suministro de energía. Querrá desligarse de la humanidad y neutralizar la capacidad de esta para interferir en sus planes y, mientras tanto, no hará nada que prevea que la humanidad pueda detectar y a lo que pueda responder. Y entonces probablemente querrá adquirir una gran cantidad de recursos, porque la mayoría de los objetivos se pueden alcanzar mejor con más recursos.

Todas estas son clases de acciones en las que una SIA probablemente convergerá, independientemente de los objetivos que persiga en última instancia.

Esto se debe a que se trata de objetivos instrumentales que resultan útiles para alcanzar casi cualquier meta. El «casi» es importante, porque no es que sea imposible que exista una superinteligencia más inteligente que los humanos que se preocupe profundamente por nosotros y tenga en cuenta nuestros intereses. Pero si nos apresuramos a desarrollar superinteligencias que no se preocupan en absoluto por nosotros, el resultado probable parece desastroso, y lo parece de una manera que es relativamente insensible a los detalles del objetivo que guía a la IA.

Para más información sobre cómo una SIA podría realmente alcanzar estos objetivos instrumentales, véase el capítulo 6.

* Hemos conocido a más de una persona que dice estar extremadamente preocupada por la IA, porque le preocupa que esta logre persuadir a la humanidad de que deje de reproducirse y se extinga lentamente a lo largo de los próximos cien años. Pero, por algún motivo, creen que un escenario más rápido no sería del gusto de la IA.

† Algunas personas sostienen que el mundo debería intentar crear un equilibrio de superinteligencias, de modo que ninguna IA pudiera llegar a ser dominante. Pero el razonamiento que hemos expuesto aquí también se aplicaría a una coalición de superinteligencias en el momento en que se convirtiera en una coalición. Habiendo acordado dividir entre sí los recursos alcanzables, los miembros existentes de la coalición no querrían verse obligados a negociar con los nuevos miembros de la coalición y dividir aún más los recursos con esos recién llegados.

«Inteligente» (normalmente) implica "incorregible»

→