¿No habrá alertas tempranas que sirvan a los investigadores para identificar problemas?

De nada sirven las señales de advertencia si no sabes qué hacer con ellas.

En los recursos del capítulo 2, examinamos algunos problemas de confiar en las señales de advertencia en los blocs de notas de cadena de pensamiento en inglés que se encuentran en algunos modelos de razonamiento.

Uno de los problemas que tratamos es que las empresas de IA no han reaccionado de manera significativa a las señales de advertencia que ya han recibido.

Probablemente se deba a que hay una gran diferencia entre tener señales de advertencia y poder hacer algo al respecto.

En 2009, el empresario y explorador de aguas profundas Stockton Rush cofundó OceanGate, una empresa de turismo submarino. OceanGate construyó un sumergible para cinco personas, el Titan, que llevó a clientes adinerados a ver los restos del Titanic a una aplastante profundidad de cuatro kilómetros bajo la superficie.

Una de las medidas de seguridad que utilizó OceanGate fue una serie de sensores acústicos y medidores de tensión para medir la integridad del casco. Lo presentaron como un contraargumento a quienes decían que su casco de fibra de carbono fallaría. Reconocieron que, a la larga, podría fallar, pero que estarían bien, porque lo estaban midiendo. Lo estaban monitoreando. Podrían ver las señales de advertencia.

En enero de 2018, el director de operaciones marítimas de OceanGate, David Lochridge, informó a la alta dirección que el diseño del sumergible no era seguro, que los ciclos repetidos de presión podrían dañar el casco y que la supervisión por sí sola no era suficiente, ya que una falla catastrófica podría ocurrir en milisegundos. Lochridge se negó a autorizar las pruebas tripuladas hasta que se hubiera escaneado el casco para detectar fallas.

OceanGate lo despidió.

Dos meses después, expertos del sector y oceanógrafos, sumamente preocupados, escribieron a OceanGate una carta en la que advertían a la empresa de que su imprudente experimentación podría precipitar un desastre.

(Se puede establecer un paralelismo evidente con el estado actual de la investigación en IA, en la que las primeras advertencias son ignoradas, los empleados preocupados son despedidos en circunstancias dudosas o renuncian por frustración, y los denunciantes dentro de la industria escriben cartas abiertas para sonar la alarma.)

El 15 de julio de 2022, después de que los pasajeros informaran haber oído un fuerte estruendo durante el ascenso, las mediciones revelaron un cambio permanente en los niveles de deformación del casco. En retrospectiva, probablemente fue un indicio de que el casco de fibra de carbono estaba a punto de colapsar.

Nadie en OceanGate reconoció esto como una emergencia. Hicieron algunas inmersiones profundas más con el submarino, que salieron bien. Luego, el 18 de junio de 2023, volvieron a sumergirlo; el submarino implosionó y mató a Stockton Rush y a todos los demás a bordo.

De poco sirven las señales de advertencia si no sabes cómo interpretarlas.

Las señales de advertencia no sirven de mucho si no sabes qué hacer con ellas.

Para un optimista, siempre es fácil descartar con una excusa u otra incluso las señales de advertencia que a alguien le parecen preocupantes.

Si OceanGate hubiera tenido una teoría consolidada sobre los cascos de fibra de carbono que les indicara exactamente qué mediciones y lecturas eran peligrosas, tal vez hubieran podido prestar atención a las señales de advertencia. Pero estaban trabajando con una tecnología que nadie entendía del todo de esa manera, por lo que los cambios cuidadosamente medidos en los niveles de deformación no sirvieron de nada.

En el caso de la superinteligencia, no disponemos de suficiente teoría para hacer un buen uso de las señales de advertencia. ¿Cómo van a cambiar los pensamientos de una IA a medida que se vuelva más inteligente? ¿Qué fuerzas internas impulsan su comportamiento y cómo cambiarán esos equilibrios a medida que desarrolle la capacidad de crear opciones nuevas y más extremas por sí misma? ¿Cómo se evalúa a sí misma tras la reflexión, y cómo se cambiaría a sí misma una vez que adquiriera la capacidad de hacerlo?

Si alguna de esas preguntas tiene respuestas preocupantes, ¿cuáles son las señales de advertencia? Por ejemplo, los sistemas actuales de IA a veces pueden ser inducidos a intentar matar a sus operadores en experimentos controlados de laboratorio.^*

Si tuviéramos una teoría madura sobre la inteligencia, probablemente podríamos observar en las IA modernas todo tipo de señales de advertencia de que sus impulsos y preferencias van a cambiar de formas que no nos gustan, una vez que se vuelvan más inteligentes. Si la humanidad pudiera aprender de este problema mediante ensayo y error, si pudiéramos reiniciar el mundo después de destruirlo e intentarlo de nuevo varias docenas de veces, entonces podríamos aprender a interpretar las señales. Probablemente hay todo tipo de indicios sutiles que se verían más claros en retrospectiva, como la tensión del casco que detectó el sistema de monitorización del sumergible Titan.

Pero aún no hemos llegado a ese punto. Los ejecutivos de las empresas de IA son como Stockton Rush: los expertos desde fuera gritan «¡Esa nueva tecnología matará a gente!», y los ejecutivos responden «No se preocupen, lo estoy midiendo», sin tener ni idea de a) qué significan esas mediciones, ni b) qué hacer si esas mediciones son preocupantes. Solo que, esta vez, toda la especie humana va a bordo del submarino metafórico.

La IA no es un campo de ingeniería maduro que esté equipado para este tipo de problemas.

Stockton Rush trabajaba en un campo en el que, tras la implosión de su submarino, los expertos podían examinar los restos y analizar la causa exacta del fallo.^† El campo de la ingeniería estaba lo suficientemente maduro como para que los expertos pudieran prever los problemas técnicos de antemano, y esclarecerlos de forma concluyente a posteriori.

No sería lo mismo con la IA. Si la humanidad se aniquilara a sí misma mañana con la superinteligencia y luego, milagrosamente, retrocediera en el tiempo hasta una semana antes de que comenzara el desastre, los expertos aún no sabrían qué había estado pensando la IA. Tal vez podrían estudiar el fallo y aprender un poco más sobre cómo funciona realmente la IA. Quizás eso sería un paso más en el camino hacia la madurez de la disciplina de la ingeniería de la IA, hacia el tipo de campo que podría tener manuales de seguridad y una descripción detallada de las presiones que afectan a un tipo concreto de mente artificial a medida que se vuelve más inteligente.

Pero hoy por hoy, el campo no está ahí. Ni de cerca.

La ingeniería humana suele madurar a través del ensayo y el error. Los submarinos militares modernos rara vez implosionan, pero los primeros submarinos (incluidos los militares) a menudo se estrellaban, se inundaban o explotaban, y así maduró la disciplina, en parte.

Pero la humanidad no puede permitirse el lujo de hacer madurar el campo de la alineación de la IA de esta manera.

Esto nos lleva a uno de los puntos centrales que quisimos recalcar en el capítulo 11: la diferencia entre un campo incipiente y un campo maduro.

La alquimia era un campo incipiente en comparación con la madurez de la química actual.

Cuando se oye que los «investigadores de seguridad» de las empresas de IA han presentado media docena de planes para la supervivencia, se podría pensar que seguramente al menos uno de ellos tiene posibilidades de funcionar.

Pero cuando un gran número de alquimistas en el año 1100 presentaron media docena de planes para convertir el plomo en oro, ninguno de ellos iba a funcionar. Si la clase de médicos que hablaban de los cuatro humores propusieran un montón de tratamientos para salvarte de la rabia, ninguno de ellos funcionaría.

Los expertos en el campo maduro de la química pueden averiguar cómo transmutar pequeñas partículas de plomo en oro, utilizando conocimientos de la física atómica. Los expertos en el campo maduro de la medicina pueden tratar fácilmente la rabia si intervienen poco después de que el paciente haya sido mordido. Pero alguien en un campo inmaduro no tiene ninguna posibilidad.

La alineación de la IA todavía se encuentra en una fase incipiente.

En un campo inmaduro hay mucha gente que dice: «Bueno, yo solo estoy trabajando en medirlo», porque medir los datos de salida es mucho más fácil que desarrollar la teoría de lo que constituye una señal de advertencia y qué hacer si se ve una. Un campo maduro contaría con expertos que debatirían sobre la dinámica que rige los mecanismos internos de una IA y cómo estos pueden cambiar a medida que aumenta la inteligencia de la IA o cambia su entorno. Tendrían teorías sobre qué cambiará exactamente a medida que la IA se vuelva un poco más inteligente y compararían diferentes teorías con datos observados específicos. Sabrían qué partes de la cognición de la IA deben supervisarse y comprenderían con precisión el significado de todas las señales.

En un campo inmaduro, mucha gente dice: «Simplemente haremos que las IA lo resuelvan de alguna manera y se encarguen de la alineación».

Quizás no puedas entrar en todos los debates sobre un plan concreto y decir si tiene posibilidades de funcionar o no. Pero esperamos que puedas dar un paso atrás y ver lo vagos que son todos estos «planes», y cómo están atascados en el terreno de «no te preocupes, lo mediremos», en el de «esperemos que sea fácil» y en el de «dejaremos que las IA hagan las partes difíciles». Esperamos que, si das un paso atrás, te quede claro que este campo no se encuentra en la fase de descripciones técnicas formales y precisas de lo que funciona y lo que no, y por qué. Todavía se encuentra en la fase de la alquimia.

Y eso no augura nada bueno para la humanidad, que no se puede dar el lujo de aprender por ensayo y error.

* No está claro en qué medida estas señales de advertencia provienen de que la IA esté interpretando un papel —actuando como cree que una IA debe comportarse— y en qué medida de que esté pensando estratégicamente. El hecho de que no podamos distinguir qué señales de advertencia son reales no es alentador; significa que los ingenieros son mucho más propensos a seguir adelante sin más, diciendo: «bueno, esa probablemente no era real». Puede que incluso tengan razón la mayoría de las veces, pero «la mayoría de las veces» no es suficiente cuando un solo fallo es letal.

† Delaminación por ciclos de presión. En términos sencillos: los esfuerzos de muchas inmersiones separaron las capas del casco, debilitándolo hasta que implosionó.

Más sobre algunos de los planes que criticamos en el libro

→