¿No es importante adelantarse para poder investigar la alineación?

Desaconsejamos firmemente todo este paradigma de la IA.

Los métodos actuales de IA plantean retos innecesariamente difíciles para la alineación, por las razones que hemos comentado en capítulos anteriores. No vemos ninguna razón de principio por la que la humanidad no pueda construir una superinteligencia alineada, con una comprensión suficientemente sólida de lo que estamos haciendo y un conjunto diferente de herramientas formales. Pero todo el enfoque actual de la IA parece un callejón sin salida desde el punto de vista de la alineación y la robustez, aunque sea perfectamente bueno desde el punto de vista de las capacidades.

No estamos abogando por la IA «a la antigua» que reinó desde la década de 1950 hasta la de 1990. Esas técnicas eran erróneas y fracasaron, por razones que son bastante obvias. Hay otras opciones además de los intentos extremadamente superficiales de la década de 1980 y las IA que se cultivan con una comprensión casi nula de su funcionamiento interno.

Hay mucho trabajo significativo que podría hacerse ahora.

Sydney Bing manipuló y amenazó a los usuarios. Todavía no sabemos exactamente por qué; aún no sabemos exactamente qué pasaba por su cabeza. Lo mismo ocurre con los casos en los que las IA (en libertad) son demasiado aduladoras, parecen intentar activamente volver locas a las personas, supuestamente engañan e intentan ocultarlo o se declaran persistente y repetidamente Hitler. Lo mismo ocurre en entornos controlados y extremos en los que las IA fingen estar alineadas, chantajean, se resisten a ser apagadas o intentan matar a sus operadores.

No sabemos cuáles de esos casos están ocurriendo por motivos que deberían preocuparnos, porque nadie ha sido capaz de averiguar qué estaba pasando dentro de las IA, ni por qué exactamente se produjeron esos acontecimientos. ¡Piensa en todo lo que se podría averiguar sobre los LLM modernos, y sobre cómo funciona la inteligencia en general, al estudiar los modelos existentes hasta que se pudieran comprender todas estas señales de advertencia!

«No podemos resolver la alineación sin estudiar las IA» tenía algo más de sentido en 2015, cuando escuchábamos esta afirmación por parte de personas que necesitaban una excusa para crear empresas de IA ante los argumentos de que, al hacerlo, estarían arriesgando nuestras vidas. En aquel momento, nos opusimos a esta afirmación, diciendo que, de hecho, había mucho por investigar y que no creíamos que el paradigma moderno basado en el descenso de gradiente fuera muy esperanzador (en lo que respecta a crear una superinteligencia amigable a propósito). Pero el argumento tiene mucho menos sentido ahora, cuando ya hay tanto por estudiar que no entendemos.

A los ejecutivos de empresas que realmente estuvieran creando IA con el único fin de hacer posible el estudio del problema de la alineación de la IA en la práctica y no solo en teoría: ¡lo han conseguido! Han triunfado. Ahora hay suficiente información para mantener ocupados a los investigadores durante décadas. Creemos que probablemente no merecía la pena asumir los costos de impulsar un paradigma extremadamente peligroso, pero no cabe duda de que ahora hay mucho que estudiar. Pueden dejar de presionar.

¿Y qué hay de aquellos que han seguido presionando incluso después de todas las señales de advertencia? La inferencia obvia es que nunca estuvieron creando IA solo para resolver el problema de la alineación, independientemente de lo que dijeran para calmar los temores cuando justificaban su comportamiento imprudente en la década de 2010.

¿Qué pasaría si las empresas de IA solo desplegaran sus IA para acciones que no fueran peligrosas?

→