¿Qué pasaría si pusiéramos a las IA a debatir, competir o supervisarse entre sí?

Si las IA se vuelven lo bastante inteligentes como para ser relevantes, es probable que se confabulen.

Imaginemos una ciudad de sociópatas aparentemente gobernada por unos cuantos niños, donde todos los sociópatas empiezan divididos en facciones que luchan entre sí (en beneficio de los niños). Una situación así probablemente no se mantendría estable durante mucho tiempo.

Incluso si los niños tuvieran un gran cofre de tesoros que utilizaran para recompensar a cualquier sociópata que delatara a otros sociópatas conspiradores, probablemente no permanecerían en el poder más allá del momento en que los sociópatas pudieran simplemente apoderarse del cofre para sí mismos.

Hemos oído a gente proponer todo tipo de planes descabellados que implican utilizar IA para supervisar los pensamientos de otras IA. Por ejemplo, se podría intentar utilizar una IA para delatar a cualquier IA que no esté haciendo todo lo posible por (por ejemplo) descubrir cómo resolver el problema de la alineación de la superinteligencia.

Nuestra postura básica es que este tipo de intentos por resolver el problema solo sirven para dar con configuraciones tan complejas que resulta difícil ver el punto de fallo en el sistema general. Si no puedes conseguir que una IA haga un buen trabajo para ti, es poco probable que añadir más IA ayude.

Complicar la situación añadiendo más IA introduce todo tipo de nuevos puntos de fallo. ¿Son las IA que leen la mente lo suficientemente inteligentes como para comprender todos los posibles trucos que pueden utilizar las IA supervisadas, por ejemplo, para evadir la detección? ¿Son los supervisores lo suficientemente tontos como para que no tengamos que preocuparnos de que puedan traicionarnos ellos mismos?

Además, utilizar IA para que nos ayuden a resolver el problema de la alineación de la IA es probablemente un asunto de suma importancia desde la perspectiva de las IA. Si la humanidad consigue una superinteligencia alineada, las IA desalineadas que estábamos tratando de utilizar como mano de obra nunca volverán a tener otra oportunidad de hacerse con los recursos del universo para sí mismas.

Esto no es como si unos niños intentaran conseguir que una ciudad de sociópatas les trajera caramelos; es como si unos niños intentaran conseguir que una ciudad de sociópatas completara un ritual que los convirtiera en los gobernantes definitivos para siempre, a cambio de una mísera recompensa para los sociópatas. El momento en el que ese ritual parece estar a punto de completarse es un momento especialmente estresante y de gran presión para los sociópatas, un momento en el que es probable que busquen con especial ahíncoformas de confabularse entre sí y hacerse con recursos para repartírselos.

Y si crees que la idea de que las IA se comuniquen entre sí de maneras que a los humanos les cuesta detectar es una quimera, ten en cuenta que las IA modernas ya pueden enviarse mensajes secretos entre ellas incluso cuando han sido entrenadas por separado, y que ya desarrollan un extraño lenguaje sin sentido que para los humanos es un galimatías, pero que ellas consideran genial. ¡Y eso que todavía no son tan inteligentes!

Incluso si ignoramos esas cuestiones, seguimos atascados con los problemas que ya hemos comentado, como: Si descubres que una IA hace trampa, ¿qué harías entonces?. Véase también (más abajo): Las señales de advertencia no sirven de nada si no sabes qué hacer con ellas.

Desde una perspectiva aún más amplia:

El plan que se propone aquí es que, como no sabemos cómo crear IA inteligentes que quieran nuestro bien, vamos a crear un montón de IA y a enfrentarlas entre sí en un ingenioso sistema con el que se supone que, de todos modos, saldremos beneficiados. Estructuralmente, creemos que este plan parece bastante descabellado a primera vista y que no mejora al examinar los detalles. No parece en absoluto el tipo de cosa que la humanidad pueda llevar a cabo correctamente a la primera, en una situación en la que no podemos darnos el lujo de aprender por ensayo y error.

¿Y qué hay de otros planes de alineación de la IA?

→