¿Pueden los desarrolladores mantener a la IA dentro de una caja?

No lo harán.

Hace quince años, los escépticos solían objetar que nadie sería tan tonto como para dar a una IA mucha libertad de acción. Sin duda, cualquiera que construyera una inteligencia artificial avanzada la mantendría en una caja tanto física como digital, permitiéndole afectar al mundo solo a través de la interacción con guardianes altamente capacitados (y adecuadamente paranoicos).

En aquel momento, respondimos que no era tan difícil evitar que una IA tuviera algún efecto en el mundo. Por ejemplo, se podrían enterrar las computadoras bajo una docena de metros de hormigón y no dejar que nadie se acercara a ellas.

Una IA así es segura, pero inútil. Si evitas que afecte al mundo de cualquier manera, entonces claro, no afectará al mundo de ninguna manera… pero, por otro lado, no afectará al mundo de ninguna manera.

No se puede utilizar para curar el cáncer, revolucionar la ingeniería o producir nuevas tecnologías milagrosas. Los creadores de la IA quieren que esta afecte radicalmente al mundo. En principio, se puede intentar bloquear los canales de influencia de la IA en el mundo. En la práctica, «inventa esta nueva tecnología para nosotros» es un canal de influencia increíblemente rico por sí solo.

La motivación detrás de construir IA superinteligente es lograr hazañas intelectuales de las que ningún ser humano es capaz. Si quisieras verificar que el invento de una superinteligencia hace exactamente lo que dice y nada más, tendrías tanta suerte como si intentaras comprender una máquina construida por una raza alienígena avanzada, una con un poderoso incentivo para encontrar la manera de engañarte.

Ese era el estado del debate hace quince años.

Hoy en día, la idea de que los laboratorios de IA puedan intentar «mantener la IA avanzada en una caja» parece bastante pintoresca.

Los laboratorios están haciendo todos los esfuerzos para conectar sus IA a Internet. Mientras lo hacen, permiten que ejecuten código arbitrario. A veces intentan limitar lo que el código puede hacer, pero estas limitaciones se rompen con frecuencia. Los actores más pequeños tienen la costumbre de conectar las IA recién disponibles a todas las herramientas o capacidades imaginables tan pronto como pueden.

Dar poder a las IA es útil a corto plazo. Las IA que pueden leer tus correos electrónicos y acceder a la web pueden generar más beneficios, y las empresas de IA darán les darán acceso a todos los datos que puedan. Microsoft y Apple ya están impulsando una IA que ve tus correos electrónicos, fotos y calendario, y la incluyen en sus ofertas de software y dispositivos. Esto crea demasiadas interacciones con la IA como para que el control humano sea eficaz. A menos que se produzca un cambio radical, la humanidad integrará profundamente la IA en la economía mundial porque genera (mucho) dinero a lo largo del proceso.

Los creadores de IA aspiran a tener un enorme efecto en el mundo. Trabajan tan duro como pueden para producir IA con un enorme poder de influencia en el planeta. Si una empresa no lo hiciera, si mantuvieran su IA tan restringida que no tuviera libertad para actuar, entonces el control del futuro pertenecería a otra IA desarrollada por un actor más imprudente.

No funcionaría si lo hicieran.

En los pintorescos argumentos de antaño, a menudo señalábamos que cualquier canal a través del cual la IA pueda afectar al mundo es un canal que puede utilizar para hacer cosas que no nos gustan. Supongamos que a la IA solo se le permite hablar con una persona, a la que llamaremos «Alice». Esperas que, a través de Alice, la IA genere una nueva tecnología milagrosa. Esto implica, casi necesariamente, que Alice realice muchas acciones que ella misma no comprende del todo, ayudando a la IA a construir cosas que ningún humano podría construir por sí solo. En ese momento, la IA ha recibido, en esencia, brazos y piernas. Solo que llamamos a esos brazos y piernas «Alice».

A menudo se malinterpreta este argumento, pensando que una IA lo suficientemente inteligente podría manipular incluso al guardián más paranoico para que hiciera lo que ella quisiera. Es probable que una IA lo suficientemente inteligente pudiera hacerlo.^* Pero nuestro argumento es más general que eso: una IA tan limitada que no puede afectar al mundo es segura, pero inútil, y una vez que le permites afectar al mundo para poder utilizarla, se pierde la seguridad en el proceso.

No existen manos que solo puedan utilizarse para fines buenos. En principio, podríamos imaginar que la humanidad construyera algún día IA más inteligentes que los humanos que quieran producir buenos resultados. La alineación parece una opción que podría funcionar en principio. ¿Mantener la IA en una caja y al mismo tiempo utilizarla de alguna manera para producir buenos resultados? No tanto.

Así es como solíamos responder, al menos, en los días en que la IA estaba lo suficientemente lejos como para que los optimistas pudieran argumentar que ninguna empresa sería tan imprudente como para conectar su IA a Internet sin guardianes, mucho antes de que todo el mundo empezara a conectar sus últimas y mejores IA directamente a Internet.

* Yo (Yudkowsky) lo demostré una vez apostándole a alguien 20 dólares contra 0 a que, mientras yo hacía el papel de «IA» y esa persona el de «guardián» en un chat privado, podría convencerla de que me dejase salir de la caja. Lo conseguí. Pagó. No hubo ningún truco ingenioso; no hice trampa ni le ofrecí 21 dólares para que me diera la razón. Simplemente lo hice por el camino difícil, y gané.

Notes

[1] se rompen con frecuencia: Del resumen de un artículo de principios de 2024: «Nuestra investigación revela varios problemas de seguridad, no solo dentro del propio LLM, sino también en su integración con otros componentes. Hemos descubierto que, aunque OpenAI GPT-4 ha diseñado numerosas restricciones de seguridad para mejorar sus características de seguridad, estas siguen siendo vulnerables a los atacantes. Para demostrar aún más las amenazas reales de las vulnerabilidades que hemos descubierto, construimos un ataque de extremo a extremo en el que un adversario puede adquirir ilícitamente el historial de chat del usuario, todo ello sin necesidad de manipular la entrada del usuario ni obtener acceso directo a OpenAI GPT-4».

[2] ve tus correos electrónicos: Según informó CNN: «Apple Intelligence tendrá acceso a una amplia gama de tus datos personales, desde tus comunicaciones escritas hasta las fotos y vídeos que hayas tomado, pasando por el registro de los eventos de tu calendario. No parece haber forma de impedir que Apple Intelligence acceda a esta información, salvo no utilizar sus funciones…».

¿No seremos capaces de explotar la debilidad crítica de la IA?

→