¿Qué pasaría si las empresas de IA solo desplegaran sus IA para acciones que no fueran peligrosas?
Las acciones que parecen benignas pueden requerir capacidades peligrosas.
Una de las propuestas que hemos escuchado es que las empresas de IA sigan haciendo avanzar la frontera de las capacidades, pero se comprometan a utilizar sus IA solo de formas que no parezcan inmediatamente peligrosas. Por ejemplo, en conversaciones con figuras destacadas del ámbito de la IA (hace años), escuchamos la idea de que una IA potente con grandes habilidades retóricas podría utilizarse para convencer a los políticos de todo el mundo de que aprobaran una prohibición efectiva del desarrollo de IA peligrosa.
El argumento sostenía que, para lograrlo, una IA solo necesitaría hablar. No necesitaría manipular directamente robots físicos. No necesitaría tener acceso a un laboratorio biológico donde pudiera diseñar un supervirus.
En primer lugar, rechazamos esta idea por motivos éticos. Una IA con una capacidad de persuasión suficientemente sobrehumana podría convencer a casi cualquier persona de casi cualquier cosa, y utilizarla para persuadir a otras personas de tus conclusiones nos parece moralmente objetable. No creemos que sea evidentemente necesario recurrir a medidas tan extremas, cuando los miembros meramente humanos de este campo podrían y deberían estar haciendo mucho más hoy en día para compartir nuestras preocupaciones y argumentos, y para alertar a los líderes mundiales sobre el peligro extremo de la IA superinteligente.*
Como desarrollador de IA, podrías pasar años creando IA cada vez más peligrosas con la esperanza de lograrlo, o podrías intentar hablar tú mismo con los legisladores de forma totalmente honesta, aunque solo sea una vez, con el objetivo de informar en lugar de manipular. Por experiencia propia, nos ha sorprendido gratamente una y otra vez lo receptiva que es la gente en Washington D. C. con estos temas cuando se exponen con total franqueza.
Pero esto es una digresión sobre lo que podría salir mal si intentas desplegar una IA muy poderosa que «solo habla». Más allá de las cuestiones éticas, el problema con la idea técnica es que, para tener éxito en la persuasión sobrehumana, es probable que la IA tenga que modelar a los humanos a detalle y manipularlos ampliamente.
Los seres humanos son criaturas inteligentes. ¿Hablarías tú con una IA superpersuasiva con fama de poder convencer a cualquiera de cualquier cosa, sin importar la verdad? Si un líder mundial entrara en una habitación con esa IA y saliera con sus opiniones completamente trastocadas, ¿quién levantaría la mano para ser el siguiente? Nosotros no hablaríamos voluntariamente con ese tipo de IA, en parte porque en realidad no queremos que nuestros propios valores cambien.
Una IA que pudiera tener éxito incluso ante ese tipo de adversidad es el tipo de IA que puede simular las diversas reacciones posibles que las personas podrían tener ante sus datos de salida y trazar un camino a través del espacio de las reacciones humanas hacia un resultado pequeño y difícil de alcanzar. Ese tipo de IA probablemente contiene mecanismos mentales lo suficientemente generales como para hacer lo que hacen los humanos; necesita ser capaz de tener, como mínimo, los mismos pensamientos que los humanos para poder manipularlos tan bien.
Una IA que pueda hacer todo eso casi con toda seguridad no es un tipo de inteligencia limitada. Y dado que la IA se cultiva en lugar de fabricarse, no se puede diseñar para que solo pueda utilizar esos mecanismos para predecir a los humanos; los mismos mecanismos pueden utilizarse, en principio, para cualquier problema que intente resolver. ¿Cómo se podría conseguir una IA que tenga capacidades sobrehumanas en los aspectos deseados, pero que no sea lo suficientemente inteligente como para darse cuenta de que sus objetivos (sean cuales sean) se cumplirían mejor si pudiera escapar al control de sus operadores?
Si se puede persuadir a los líderes mundiales simplemente con buenos argumentos, basta con presentar esos argumentos ahora. Si se necesita un poder de persuasión mucho mayor, entonces se trata de una capacidad peligrosa. No se pueden tener ambas cosas.
Probablemente, la gente de los laboratorios de IA que nos hizo esta sugerencia no la pensó detenidamente; probablemente solo querían alguna justificación para precipitarse. Pero la cuestión de fondo sigue siendo válida. Muchas propuestas sobre lo que supuestamente puede hacer una IA que sea «claramente segura» no implican un grado de capacidades de IA claramente seguro.
A menudo nos encontramos con propuestas que afirman que una IA «solo» hará una cosa, como persuadir a los políticos, dando por sentado que no puede o no hará nada más. Esto parece reflejar una subestimación de la generalidad de una inteligencia capaz de realizar el tipo de trabajo en cuestión. «Solo hablar» no es una tarea estrecha. Demasiadas complejidades y sutilezas del mundo quedan ocultas en el habla y la conversación. Por eso los chatbots modernos deben ser generales de un modo en que no lo eran los motores de ajedrez. Para tener éxito en las conversaciones con las personas se requiere una comprensión mucho más general de ellas y del mundo.
Si entrenas a una IA para que sea muy buena conduciendo coches rojos, no debería sorprenderte que también sepa conducir coches azules. Cualquier plan que dependiera de que fuera incapaz de conducir coches azules sería una tontería.
Por lo tanto, decir «Mi IA no hará nada peligroso en el mundo; solo convencerá a los políticos» no sirve de nada, incluso si obviamos los escrúpulos éticos y los aspectos prácticos de la idea, y que los políticos ya pueden ser perfectamente persuasibles hoy en día, si simplemente tenemos conversaciones normales e informamos a los responsables políticos y al público sobre la situación. Muchas habilidades y capacidades de razonamiento general son a la persuasión sobrehumana lo que los coches azules son a los coches rojos. Una IA que pudiera hacer eso no es tan débil como para ser pasivamente segura.
Y eso sin siquiera considerar que la persuasión sobrehumana es una habilidad muy peligrosa para tu IA si las cosas se tuercen lo más mínimo.
No vemos usos revolucionarios de la IA que no requieran avances en alineación.
Muchas de las propuestas que hemos visto para aprovechar los avances en IA con el fin de salvar el mundo tienen el problema de que una IA capaz de ayudar sería tan capaz que ya tendría que estar alineada, lo que frustraría el propósito.
La idea de las IA superhumanamente persuasivas entra en esta categoría, al igual que las IA capaces de investigar la alineación de la IA, como comentamos en el libro. Las IA que desarrollan nuevas y potentes tecnologías que ayuden a la no proliferación de la IA son otro ejemplo, ya que sería difícil determinar con fiabilidad si es seguro implementar los planos de diseño de una IA para nuevas tecnologías radicales. (Recordemos el ejemplo del herrero que construye un refrigerador del capítulo 6).
Cuando señalamos lo difícil que es construir una IA suficientemente potente para ayudar, y a la vez suficientemente débil para ser pasivamente segura, solemos oír otro tipo de propuestas: formas de usar la IA que pueden ser interesantes, pero que en realidad no hacen nada para evitar que otros desarrolladores destruyan el mundo con la superinteligencia.
Un tipo común de propuesta son las IA que solo producen demostraciones (o refutaciones) de enunciados matemáticos elegidos por los humanos. Los humanos apenas necesitarían interactuar con los datos de salida de la IA. La IA solo propone una demostración y, a continuación, un mecanismo totalmente automatizado y fiable puede comprobar si es correcta, lo que nos permite aprovechar la IA para obtener un efecto multiplicador en el aprendizaje de cosas nuevas.
Pero, ¿qué enunciado podríamos pedirle a la IA que demuestre para evitar que la siguiente IA adquiera un laboratorio biológico y arruine el futuro?
Hemos recibido varias respuestas a esta pregunta cuando la hemos planteado. Una clase de respuestas es que debería existir un régimen mundial para impedir que cualquiera construyera IA que hicieran otra cosa que no fuera producir demostraciones para los verificadores. Esto podría funcionar, pero en la medida en que lo hiciera, sería gracias al régimen mundial impuesto que controlaría la creación y el uso de la IA. La IA que busca demostraciones no haría nada de ese trabajo.
Otro tipo de respuestas es: «Seguro que a alguien se le ocurrirá algún afirmación matemática importante, cuya demostración sería relevante». Pero todo el trabajo duro consiste en averiguar qué podríamos demostrar para estar en una posición significativamente mejor. No podemos limitarnos a intentar que la IA demuestre la frase en inglés «Es seguro usarme», porque no se trata de un enunciado matemático susceptible de demostrarse. Si supiéramos con claridad matemática precisa qué significaría que un enorme lío de cálculos fuera «seguro», sabríamos tanto sobre la inteligencia que probablemente podríamos saltarnos la demostración y limitarnos a diseñar una IA segura.
Con propuestas como estas, a menudo se produce una especie de juego de dónde está la bolita. Al pensar en cómo una IA general sin restricciones podría ser peligrosa, alguien sugiere que el espacio de acción de la IA debería limitarse a un ámbito reducido (como producir demostraciones matemáticas específicas). Pero luego, al pensar en cómo eso podría llevar a salvar el mundo, imagina que la IA no tiene restricciones, que hay algún enunciado matemático no identificado cuya demostración tendría un impacto enorme en el mundo.
No es posible obtener estas dos propiedades deseables al mismo tiempo. Pero al hacer propuestas extremadamente vagas, los defensores de la carrera de la IA pueden ocultar que estas propiedades están en conflicto.
Si se pudiera encontrar un dominio tan limitado pero tan significativo que la demostración de un simple enunciado en ese dominio limitado salvara al mundo, esto supondría una enorme contribución a las posibilidades de supervivencia de la humanidad. Pero hay una razón por la que, cuando las computadoras superaron a los humanos en el ajedrez en la década de 1990, esto no supuso un gran avance económico. Fue ChatGPT, y no Deep Blue, lo que hizo que todo el mundo empezara a esperar un gran cambio económico gracias a la IA. No fue casualidad. La estrechez de Deep Blue se correlacionaba con su incapacidad para hacerse con una parte importante de la economía. Las chispas de generalidad de ChatGPT son precisamente lo que hace de la IA una fuerza económica a tener en cuenta. Los tipos de IA que pueden remodelar el mundo por sí mismos probablemente sean aún más generales.
No hemos podido encontrar ningún plan estrecho pero eficaz, y sospechamos que no es casualidad que la mayoría de los ámbitos estrechos no ofrezcan la oportunidad de obtener resultados que salven el mundo.
* En un gran número de casos, los laboratorios de IA están trabajando activamente en contra de compartir un panorama útil y completo de la situación con los responsables de políticas. En ese contexto, parece especialmente extraño justificar el desarrollo continuo con el argumento de que una IA más potente podría «convencer a los legisladores».
Notes
[1] solo producen demostraciones: Para ver un ejemplo de alguien que hace una propuesta como esta (al tiempo que debate algunas de las cuestiones), véase el artículo de Nick Bostrom sobre IA Oracle.