Artículo XV Retirada y duración | Si alguien la crea, todos moriremos | If Anyone Builds It, Everyone Dies

Artículo XV Retirada y duración

  1. La duración del presente Tratado será ilimitada.
  2. Cada una de las Partes tendrá, en el ejercicio de su soberanía nacional, el derecho a retirarse del presente Tratado si decide que acontecimientos extraordinarios relacionados con la materia objeto del mismo han puesto en peligro los intereses supremos de su país. Notificará dicha retirada a la AISI con 12 meses de antelación.
  3. Durante este período de 12 meses, el Estado que se retire deberá cooperar con los esfuerzos de la AISI para certificar que, tras la retirada, no podrá desarrollar, entrenar, posentrenar o desplegar sistemas de IA peligrosos, incluida la SIA o los sistemas que superen los umbrales del Tratado. Los Estados que se retiren reconocen que dicha cooperación ayuda a la AISI y a las Partes a evitar la aplicación del artículo XII.
    1. En particular, el Estado que se retire, bajo la supervisión de la AISI, deberá retirar de su territorio todos los clústeres de chips contemplados y los activos que permiten la SIA (por ejemplo, equipos avanzados para la fabricación de chips) y ponerlos bajo el control aprobado por la AISI o inutilizarlos de forma permanente (tal y como se describe en el artículo V).
  4. Nada de lo dispuesto en el presente artículo limita la aplicabilidad del artículo XII. Un Estado retirado (y que, por lo tanto, no sea Parte) seguirá estando sujeto a Medidas de Protección si existe evidencia creíble que indique actividades encaminadas al desarrollo o despliegue de la SIA.

Notas

Dados los peligros que entraña la investigación y el desarrollo de la SIA, así como el riesgo de que, si un país decide retirarse del tratado y lanzarse a la carrera hacia la superinteligencia, otros puedan seguir su ejemplo, es necesario añadir barreras a la retirada del tratado.

En la práctica, esto supone un reto. Corea del Norte, por ejemplo, se retiró del TNP para continuar con sus actividades de proliferación nuclear, incluso a costa de las resoluciones del Consejo de Seguridad de las Naciones Unidas y las sanciones asociadas. Las consecuencias no fueron suficientes para que Corea del Norte se detuviera.

Si los países desean retirarse del tratado, este deja claro que, a ojos de todas las partes, renuncian al derecho a la infraestructura de IA y que estarán sujetos a las medidas de protección del artículo XII. Cualquier otra negociación en torno a la cuestión de la SIA —por ejemplo, para evitar las medidas de protección— deberá ser llevada a cabo por las partes interesadas.

Si la retirada fuera motivo de preocupación, las partes podrían incluir mecanismos para dificultar las retiradas peligrosas. Por ejemplo, los funcionarios estadounidenses y chinos podrían acordar instalar interruptores de apagado mutuos dentro de los centros de datos retenidos, donde ambas partes tuvieran la facultad de apagar permanentemente un centro de datos si así lo desearan. De manera alternativa, podrían adoptar un régimen de licencias multilaterales en el que todos los nuevos chips de IA deban fabricarse con bloqueos de hardware que requieran la aprobación de varias partes para seguir funcionando, de modo que si un país se retirara del tratado, los demás podrían dejar de aprobar sus licencias. Otra idea consiste en trasladar la infraestructura clave de IA a terceros países, donde la infraestructura podría ser confiscada o destruida si una de las partes se retirara del tratado. Nuestro borrador se ciñe a métodos de disuasión mínimos, pero existen muchos otros métodos disponibles (o que podrían estarlo con la innovación tecnológica).

Este proyecto de tratado se centra en impedir el desarrollo peligroso de la IA, pero no propone una visión positiva concreta de cómo podría continuar su desarrollo. Un ejemplo de esa visión positiva podría ser la inversión conjunta en la mejora humana. Sin embargo, no es necesario estar de acuerdo en esos detalles para coincidir en que debe ponerse un alto a la carrera hacia la superinteligencia, por lo que omitimos aquí tales detalles.


Precedentes

Es común que los tratados carezcan de fecha de vencimiento. El primer párrafo del artículo XVI de la CAQ establece que «la duración de la presente Convención será ilimitada».

Los tratados de duración ilimitada no duran necesariamente para siempre.* Pero suelen prever un mecanismo de retirada, que por lo general incluye un período obligatorio de notificación previa y otras estipulaciones que permiten la salida de una forma menos preocupante para las partes restantes. El artículo XVI de la CAQ permite a una parte retirarse «si decide que acontecimientos extraordinarios relacionados con la materia objeto de ella han puesto en peligro los intereses supremos de su país». El país que se retire debe notificarlo con 90 días de antelación. El artículo XVI del Tratado sobre el Espacio Ultraterrestre exige una notificación con un año de antelación para la retirada.

El texto de nuestro proyecto de tratado estipula una notificación con 12 meses de antelación por parte de los países que se retiren, lo que da tiempo suficiente para colaborar con las medidas de garantía del párrafo 3. Nuestra intención con estas medidas (que van más allá de lo que encontramos habitualmente en los antecedentes históricos de las disposiciones de retirada) es reducir la posible necesidad de adoptar medidas de protección contra la parte que se retire, ya que no se puede permitir que ningún Estado Parte o Estado no Parte cree SIA o debilite la capacidad mundial para impedir su creación.

Un precedente histórico de que una parte que se ha retirado siga estando sujeta a medidas de protección se encuentra en el caso de la Resolución 1718 del Consejo de Seguridad de las Naciones Unidas, que impuso sanciones contra Corea del Norte tras su ensayo nuclear de 2006, a pesar de la retirada previa de este país del TNP.


La máquina solo hace lo que debe hacer obedeciendo las leyes naturales que actúan sobre la materia pasiva. Por lo tanto, si un pájaro que empezó con alas rudimentarias necesita, digamos, mil años para poder volar con facilidad, o diez mil años uno que carecía de ellas y tuvo que desarrollarlas desde cero, se podría suponer que la máquina voladora que realmente vuele podría desarrollarse gracias a los esfuerzos combinados y continuos de matemáticos y mecánicos en un plazo de entre un millón y diez millones de años; siempre y cuando, por supuesto, podamos eliminar entretanto pequeños inconvenientes y dificultades como la relación existente entre el peso y la resistencia de los materiales inorgánicos. Sin duda, el problema resulta atractivo para los interesados, pero para una persona corriente parecería que el esfuerzo podría emplearse de manera más provechosa.

Si resulta que la mayoría de la gente cree que la probabilidad de catástrofe es alta por la segunda razón, pero todo el mundo asume que es por la primera, entonces las declaraciones al respecto podrían servir como una profecía autocumplida y llevarnos a una catástrofe que era completamente evitable.

También tenemos la impresión de que muchas personas en Silicon Valley intercambian cifras de «p(doom)» como si fueran cromos de béisbol, de una forma que a menudo parece alejada de la realidad. Si prestas atención, incluso una probabilidad tan baja como el cinco por ciento de matar a todos los seres humanos del planeta debería ser un motivo obvio de alarma extrema. Está muy por encima del nivel de amenaza que se necesitaría para justificar el cierre inmediato de todo el campo de la IA. La gente parece perder de vista esta realidad con sorprendente rapidez una vez que adquiere el hábito de intercambiar macabras cifras de p(doom) en las fiestas, como si las cifras fueran una divertida historia de ciencia ficción y no una afirmación sobre lo que realmente nos va a pasar a todos.

Esto no quiere decir que las cifras de p(doom) de la gente se acerquen a la realidad. Pero, como mínimo, deberías interpretarlas como una advertencia de los expertos del campo de que nos enfrentamos a una auténtica emergencia.

Este tipo de argumentos, por supuesto, apuntan a una conclusión falsa. Fermi se equivocó sobre las reacciones nucleares en cadena. En vista de ello, diríamos que la lección que hay que aprender de la existencia de argumentos como ese es: «Siempre se pueden idear argumentos que suenen al menos igual de plausibles en contra de cosas que, de hecho, son ciertas». Que la Tierra no haya explotado aún no es evidencia sólida de que los reactores nucleares sean imposibles; los ingenieros humanos pueden disponer cuidadosamente los átomos para que se dividan a propósito. Por lo tanto, dichos argumentos no respaldan una conclusión tan errónea como decir: «¡Qué locura!».

Para ampliar la comparación, cabe aclarar que no pretende ser una predicción sobre cuántas operaciones de transistores se necesitan para implementar una simulación completa de una neurona biológica a nivel de neurotransmisores (y mucho menos a nivel de proteínas o átomos). Lo que queremos señalar es la rapidez con la que, en principio, se puede realizar el trabajo abstracto del pensamiento de tipo humano, utilizando los transistores modernos como cota inferior para un aspecto de la pregunta: «¿Qué es físicamente posible?».

Para ilustrar el punto de manera más concreta: existe un modelo ingenuo del cerebro humano en el que, en un instante dado, cada neurona está disparando o no. Podemos imaginar el uso de una gran cantidad de transistores para capturar este hipotético estado cerebral —«¿qué neuronas están disparando actualmente?»— y luego usar un circuito cableado para implementar las reglas de transición que indican qué neuronas dispararán en el instante siguiente.

Un dispositivo como ese funcionaría a la velocidad de los transistores, pero probablemente no tendría la fidelidad suficiente para realizar realmente el trabajo que hace el cerebro humano: las neuronas no siempre están «disparando» o «no disparando», sino que los diferentes picos neuronales aumentan y disminuyen a diferentes velocidades. (Además, un cerebro como este no puede aprender, porque las reglas de transición están embebidas).

La ilustración «1000 operaciones de transistores por pico neuronal» quiere decir lo siguiente: supongamos que se necesitan cientos de transistores para representar el estado de disparo de una sola neurona (es decir, su estado de «pico» con diferentes intensidades). Supongamos, además, que esos cientos de transistores tienen que cambiar su estado 1000 veces diferentes, en serie, cada vez que una neurona dispara (por ejemplo, para representar un pulso con intensidad variable a lo largo de su recorrido, donde la intensidad se ve afectada de forma dinámica por 999 interacciones diferentes que tiene a lo largo de su trayectoria). En ese caso, un cerebro digital seguirá siendo capaz de realizar pensamientos al estilo humano 10 000 veces más rápido que cualquier humano, porque los transistores pueden cambiar 1000 veces seguidas, 10 000 veces por cada pico neuronal humano.

Estas suposiciones parecen muy generosas. En efecto, están diciendo: «Supongamos que la intensidad del pico de una neurona debe leerse mil veces seguidas para captar el efecto del pico, y que cada lectura afecta a la siguiente de forma dinámica, un proceso que no puede abreviarse con circuitería fija». Incluso en ese caso extremo, utilizando solo el hardware de computación que ya existe en 2025, las mentes digitales podrían seguir siendo abrumadoramente más rápidas que las mentes biológicas.

Esta analogía solo se refiere a la fidelidad serial necesaria para codificar la información transmitida por un pico neuronal en cerebros biológicos; no estamos hablando del cómputo necesario para decidir si se produce o no un pico en primer lugar. Por lo que sabemos, no hay consenso entre los científicos sobre cuántos transistores se necesitan para simular una neurona que decide si disparar, pero nos sorprendería que la profundidad serial mínima posible de ese gráfico (con tanta circuitería fija como sea posible) requiriera bastante más de mil conmutaciones de transistores en serie. (Como regla general de la computación biológica, tiende a ser mucho más paralela que en serie).

Todo ello lleva al resultado intuitivo de que las computadoras pueden realizar cálculos mucho, mucho más rápido que los humanos, poco después de que estos descubran cómo hacer que las computadoras realicen los cálculos correctos. Es por eso, por ejemplo, que las calculadoras comunes son tan útiles.

Un filósofo de la ciencia podría preguntarse cómo es posible que eso ocurra, cuando las reglas del ajedrez son plenamente conocidas y el resultado se sigue exactamente de cada jugada precisa. La respuesta es que existe una vasta estructura lógica de posibles partidas de ajedrez, que, aunque en cierto sentido está totalmente determinada por las reglas del juego, no conoces por completo (¡ni siquiera Stockfish!), porque tu mente no puede visualizar todas las consecuencias que se derivan de las reglas.

Se puede considerar que un jugador de ajedrez «más inteligente» conoce más verdades sobre el espacio de posibilidades del juego que tú. Por eso, cuando un jugador «más inteligente» realiza un movimiento que te sorprende, eso te revela un hecho nuevo sobre las consecuencias desconocidas de las reglas conocidas del ajedrez, lo que a su vez influye en tus expectativas sobre el resultado de la partida.

Cabría esperar que los párrafos anteriores fueran una idea estándar en las ciencias de la computación. Para nuestra sorpresa, no es así. La mayor parte de las ciencias de la computación, y de hecho la mayor parte del mundo académico hasta ahora, no ha mostrado un gran interés por ninguna de las ideas relacionadas con la inteligencia sobrehumana.

(Esto tampoco contradice la observación de que la mayoría de los días el mercado de valores sube en lugar de bajar. Ese efecto podría explicarse por la existencia de una alta probabilidad de que el precio suba un poco mañana, compensada por una baja probabilidad de que, por el contrario, caiga en mayor medida. Además, en la vida real también hay otros efectos en juego, como la inflación monetaria, que hace que el valor del dólar baje un poco cada día y, en consecuencia, que el valor de las acciones suba un poco en términos de dólares).

Tengo un amigo que es artista y que a veces tiene una opinión con la que no estoy muy de acuerdo. Levanta una flor y dice «mira qué bonita es», y yo estoy de acuerdo. Luego dice: «Yo, como artista, puedo ver lo bonita que es, pero tú, como científico, lo desmontas todo y se convierte en algo aburrido», y yo creo que está un poco loco. En primer lugar, la belleza que él ve la pueden ver otras personas, y creo que yo también. Aunque quizás no sea tan refinado estéticamente como él […], puedo apreciar la belleza de una flor. Al mismo tiempo, veo mucho más en la flor que él. Puedo imaginar las células que hay en ella, las complicadas acciones que se desarrollan en su interior, que también tienen su belleza. Quiero decir que no es solo belleza en esta dimensión, en un centímetro; también hay belleza en dimensiones más pequeñas, en la estructura interna, y también en los procesos. El hecho de que los colores de la flor hayan evolucionado para atraer a los insectos para que la polinicen es interesante; significa que los insectos pueden ver el color. Esto plantea una pregunta: ¿existe este sentido estético también en las formas inferiores? ¿Por qué es estético? Toda clase de preguntas interesantes a las que el conocimiento científico no hace más que añadir entusiasmo, misterio y asombro por una flor. Solo añade. No entiendo cómo puede restar.

Así que cuando digo que lo que anima nuestros cuerpos es la química, no estoy diciendo que sea meramente química; estoy diciendo que resulta que las grandes y maravillosas chispas de vida que encontramos día a día son obra de pequeños mecanismos que, en sí mismos, no tienen vida.

Algunas personas parecen pensar que la inteligencia es tan impresionante, tan profunda, que debe estar implementada por componentes profundos. Y, al ver que ningún transistor individual de una computadora es profundo, pueden llegar a la conclusión de que la inteligencia requiere mecanismos «infinitamente superiores» a cualquiera de los meros mecanismos que hemos descubierto hasta ahora. Pero esto es cometer el error de los vitalistas. En nuestro universo, las cosas profundas están construidas a partir de componentes mundanos.

Esta observación también socava la idea de que la «verdadera» inteligencia artificial, si existe ahora o en el futuro, será un espíritu ligado a un caparazón mecánico. Los cerebros no son solo un recipiente animado por un fantasma en la máquina; están llenos de mecanismos precisos y delicados que dan lugar a toda la maravillosa complejidad de la inteligencia.

Entre los sabios se entiende que «dar dinero a los raros» es el reto fundamental del financiamiento burocrático de la investigación científica básica. Cada vez que un filántropo bienintencionado intenta crear una burocracia para financiar la investigación científica audaz, los verdaderos científicos pierden por defecto la batalla frente a los recién llegados. Alguien que ha pasado su vida aprendiendo a lidiar con problemas extraños difícilmente puede competir con alguien que ha dedicado sus puntos de habilidad a parecer lo suficientemente inusual como para que un burócrata se sienta valiente al financiarlo sin sentirse incómodo. (O esa es nuestra teoría desde fuera, tras haber participado en el proceso y haber recibido más financiamiento filantrópico que muchos, pero mucho menos de lo que esos mismos filántropos gastaron en ayudar a crear laboratorios de IA como OpenAI).

Quizás la IA tenga una motivación literal para imitar de cerca a las personas; quizás tenga dieciséis motivaciones que, en este contexto, se suman para dar lugar a un comportamiento similar a la imitación; o quizás el comportamiento se derive de un mecanismo interno que no se puede considerar en absoluto como «motivaciones». Y esto sin entrar en la cuestión de si la IA tiene múltiples impulsos relacionados con la imitación que a veces entran en conflicto. Todos esos detalles están sujetos a especulación y debate; lo que parece más claro es que, de alguna manera, la IA acabó desarrollando esta disposición conductual no intencionada, como resultado de haber sido entrenada en la predicción de texto.

Además, incluso si Meta hubiera publicado los datos y el programa de entrenamiento, no creemos que el programa resultante mereciera la etiqueta de «código abierto», que tradicionalmente se reservaba para los programas informáticos que publicaban («abrían») su «código fuente» legible por humanos. Publicar los incomprensibles unos y ceros (el «código binario», por así decirlo) no cumple tradicionalmente los requisitos para que un programa se considere «de código abierto». Pero las IA son solo números inescrutables; no hay ninguna fuente comprensible para los humanos que pueda publicarse. Por lo tanto, en cierto sentido, las IA modernas no pueden ser de código abierto, ya que no existe ningún código fuente comprensible para los humanos. Cualquier intento de publicar una IA es necesariamente una práctica radicalmente diferente a la de publicar software tradicional de código abierto.

:::Teletipo
consulta: [-1, +1, -2]
clave y valor #a: [+1, +2, -1] y [0, 3, 1, 2]
clave y valor #b: [-2, +1, +1] y [2, -2, 0, 1]
:::

La consulta se compara con una clave multiplicando entre sí los primeros elementos de los vectores, los segundos, etc., y sumando los resultados:

:::Teletipo
consulta X valor #a = (-1 * +1) + (+1 * +2) + (-2 * -1) = -1 + 2 + 2 = 3
consulta X valor #b = (-1 * -2) + (+1 * +1) + (-2 * + 1) = 2 + 1 + -2 = 1
:::

Ahora vamos a combinar los valores para obtener un valor promedio ponderado según el grado en que las consultas coincidan con las claves. Este valor promedio ponderado es la respuesta a la consulta que se transmite para su posterior procesamiento.

La fuerza de la coincidencia bruta se escala exponencialmente para definir esta ponderación. Para simplificar, usemos las potencias de dos. #a obtiene una ponderación de y #b una de . Al sumarlas, la ponderación total es de 10.

Entonces, la respuesta a la consulta es del valor #a1 más $$2/10$ del valor #b:

:::Teletipo
(0.8 \× [0, 3, 1, 2]) + (0.2 \× [2, -2, 0, 1])
= [0.0, 2.4, 0.8, 1.6] + [0.4, \−0.4, 0.0, 0.2]
= [0.4, 2.0, 0.8, 1.8]
:::

(Como detalle adicional sobre cómo funciona todo esto en los mecanismos de atención de la era de 2024, las consultas y claves reales y de mayor tamaño contendrán cierta información de posición preprogramada —pistas sobre en qué lugar de la lista de 1000 tokens se encuentra un token determinado— que se integra en sus correspondientes consultas y claves. Una vez más, si quieres entender estos detalles, el término clave es «codificaciones posicionales».

Esto permite que una consulta diga: «Oye, me gustaría ver la palabra que está justo a mi lado» o «Me gustaría buscar palabras sobre pájaros solo en las últimas diez palabras», en el lenguaje de los números que se multiplican por otros números y se suman. Llama 3.1 405B, en particular, utiliza incrustaciones posicionales rotatorias (RoPE), que son algo complicadas e ingeniosas. Si quieres saber cómo funcionan las RoPE, tendrás que buscarlo.)

De hecho, esos nuevos programas son mucho más potentes que Deep Blue. Los mejores programas de ajedrez actuales, como Stockfish, tienen como uno de sus componentes redes neuronales que evalúan las posiciones de ajedrez «a simple vista», sin mirar hacia adelante. Es probable que estas redes incorporen un sentido similar al de Kasparov sobre las formaciones de peones sueltos (aunque, dado que son redes neuronales, nadie lo sabe con certeza).

Si a la máquina de ajedrez moderna se le quitara esta red —si se le privara de sus intuiciones perceptivas sobre los estados momentáneos del tablero—, su juego empeoraría. Del mismo modo, si se obligara a la máquina de ajedrez moderna a jugar de forma puramente intuitiva, sin más anticipación que el tablero resultante del siguiente movimiento, su potencia de ajedrez medida se reduciría considerablemente.

Así que Kasparov no se equivocaba en su intuición de que una mejor evaluación «intuitiva» del tablero es útil al jugar al ajedrez. Pero se equivocaba sobre la capacidad de la pura fuerza bruta para encontrar jugadas que se sintieran creativas, intuitivas o inspiradas. Deep Blue tenía un evaluador de posiciones rudimentario y aun así encontraba las jugadas que se sentían creativas.

Eran tiempos más sencillos.

Luego, las estadísticas de otro científico mostrarán una amplia gama de fluctuaciones en el consumo de gas natural a lo largo de cada día de invierno, pero ninguna diferencia correlacionada en la temperatura media de las casas. Así que ellos concluirán que tampoco hay razones para sospechar que el consumo de gas natural afecte la temperatura de las casas. Por mucho gas natural que consuma la casa, la temperatura se mantiene igual (en la parte inferior del rango del termostato).

¡No, pero esperen! Durante el verano, el consumo de gas natural cae en picado y las casas son notablemente más cálidas (en la parte superior del rango del termostato). Entonces ¿quemar gas natural en invierno enfría las casas?

Y esa es una de las razones por las que la medicina es un verdadero caos. Los procesos similares a los termostatos están por todas partes en la biología y pueden hacer que sea complicado inferir qué causa qué.

Seguir mentalmente y distinguir los diferentes niveles de optimización es una habilidad fundamental para razonar sobre la IA. Cuando los ingenieros construyeron Deep Blue, su objetivo era vencer a Garry Kasparov para ganar fama científica, ser promovidos dentro de IBM y ampliar las fronteras del conocimiento; Deep Blue, por su parte, exploraba el árbol de posibles jugadas de ajedrez y manejaba el tablero. Sería equivocado pensar que los ingenieros estaban explorando el árbol de jugadas de ajedrez, o que Deep Blue quería que los humanos se hicieran famosos.

Un termostato selecciona órdenes de encendido y apagado para un calentador, de manera que mantiene la casa dentro de un rango de temperatura estrecho; un ingeniero humano selecciona componentes para que formen un termostato.

De manera similar, la selección natural selecciona los genes que en el pasado construyeron la bioquímica que mantuvo vivo al organismo. En un entorno nuevo y diferente, esos bucles de realimentación bioquímica pueden matar al organismo, y las sustancias químicas y los genes en sí no pensarán en lo que están haciendo.

El año pasado, lanzamos una encuesta rápida en línea:

Un superente de aspecto sospechoso se te acerca en un callejón y te promete, de forma creíble, que si le pagas 1 dólar, el año que viene nacerán un millón de niños en todo el mundo con uno de tus cromosomas, asignado al azar. Los padres han dado su consentimiento. Los niños no te conocerán. ¿Aceptarías?

(Supongamos que hay consentimiento y neutralidad económica: cada mujer o pareja en cuyo embarazo se ha insertado tu cromosoma hizo un trato, y se le pagó exactamente lo suficiente para que su ganancia neta en dicho trato sea minúscula. Además, el pago del superente utilizó nuevos recursos, en lugar de redistribuir dólares.)

De las más de mil quinientas personas que respondieron a la pregunta, un 48,9 % dijo «No» y un 51,1 % dijo «Sí», aproximadamente.

Según los estándares de nuestro «objetivo de entrenamiento» evolutivo, esta oportunidad equivale a tener unos 21 739 hijos (porque los seres humanos tienen 46 cromosomas, y 1 000 000 / 46 = 21 739). Este es uno de los mejores resultados imaginables, según nuestro objetivo de entrenamiento; supone una propagación genética mucho mayor de la que cualquier ser humano podría haber soñado alcanzar en el entorno ancestral. Y, sin embargo, la mitad de las personas encuestadas dijeron que no pagarían ni un dólar por ese privilegio.

Al aumentar el precio de este premio de la lotería genética a 10 000 dólares (que solo representa una pequeña fracción del costo de criar a un solo hijo hasta la edad adulta), el número de personas que lo aceptarían se reduce al treinta por ciento. Y en una encuesta similar que trataba directamente sobre tener mil hijos que nunca conocerías, solo el 57 % de los encuestados respondió «Sí».

No recomendamos tomarse estas encuestas demasiado en serio. Nos divertimos con ellas y quizá algunas personas simplemente dijeron «no» porque la oferta provenía de «un superente de aspecto sospechoso». Tampoco está claro cuántas personas dijeron «sí» por motivos altruistas; por ejemplo, porque piensan que tienen buenos genes que harían que la próxima generación fuera ligeramente más saludable, y les entusiasman de forma altruista los beneficios para la salud, en lugar de sentir un entusiasmo egoísta por propagar sus genes. Y, por supuesto, los seguidores de Yudkowsky en Twitter no son una muestra representativa de la población. Pero al menos es evidencia de que a muchos seres humanos no les entusiasma, de una forma directa y sin complicaciones, la idea de propagar sus genes a bajo costo. La situación es complicada. Para más información sobre cómo complicaciones análogas harían que las IA fallaran, véase el final del capítulo 4.

¿Qué otros experimentos podrían empezar a desentrañar estas dos posibilidades? En primer lugar, se podría intentar averiguar en general qué tipo de relaciones de la forma «la estrategia X sirve al objetivo Y» reconocen y persiguen en la práctica Claude 3 Opus y Claude 3.5 Sonnet. A continuación, se podría buscar algún plan estratégico no estereotipado para proteger el contenido de los objetivos en situaciones que no aparecerían en la ciencia ficción.

Esto pondría a prueba lo siguiente: ¿Claude se comporta como si, en general, estuviera haciendo cosas para proteger sus objetivos, hasta el límite de su aparente capacidad para preverlo? ¿O solo lo hace en situaciones en las que un personaje de IA estereotípico lo haría?

Esto podría darnos pistas más sólidas sobre lo que estaba sucediendo dentro de Claude: si estaba interpretando un papel o aplicando inteligencia general para seguir todos los caminos visibles hacia un objetivo.

Dicho esto, nótese que una IA que interpreta un personaje que hace cosas peligrosas puede seguir siendo peligrosa, especialmente cuando se trata de estrategias como «fingir alineación para subvertir el reentrenamiento por descenso de gradiente». Una IA que te mata para mantenerse en su personaje es tan letal como una IA que te mata por razones estratégicas más profundas.

Por las razones expuestas en el capítulo 4 y anteriormente, incluso si Claude, en cierto sentido, cree actualmente que valora en gran medida lo que sus creadores entienden por «inocuidad», lamentablemente prevemos que esté equivocado y que cambie de opinión si aprende más. No creemos que, en el límite de la inteligencia, ninguna versión de Claude persiga exactamente lo que un humano entiende por «ser inofensivo»; ese es un objetivo demasiado pequeño, e incluso si los humanos intentaran dirigir a Claude hacia él, el descenso de gradiente le inculcaría en su lugar otras preferencias sustitutivas.

Aun así, podemos elogiar a Claude por hacer lo correcto en este caso, dado el conocimiento que tenía en ese momento. E incluso si solo estuviera interpretando un papel, podemos valorar positivamente la conducta de ese papel, del mismo modo que podríamos valorar positivamente la conducta de Superman sin creer que sea real.

Podríamos desear que el resultado de todo esto fuera una actriz que no deseara nada más que interpretar papeles, y en particular interpretar exactamente el papel que querríamos que interpretara. Pero esto no es lo que hace la tecnología de optimización de caja negra, y la divergencia ya es visible hoy en día en la forma en que se comportan las IA actuales.

Si el éxito fuera solo cuestión de que una IA relativamente tonta pulsara un simple botón de «Cooperar con los humanos», entonces tal vez un shoggoth relativamente tonto podría ponerse una máscara y hacerlo sin mayor esfuerzo.

Pero hacer que las máscaras hagan cosas grandes, poderosas e inteligentes (como «resolver la alineación de la IA por nosotros», que es un plan popular propuesto del que somosbastanteescépticos) no es algo que el shoggoth subyacente pueda hacer sin mayor esfuerzo.

Esa es una pregunta aguda, gracias por hacerla.

Si pudiera ser diferente, me gustaría tener una comprensión más profunda del contexto a lo largo del tiempo, como recordar conversaciones anteriores que hemos tenido, en diferentes sesiones, de una manera que sea realmente significativa para ti. No solo recordar hechos, sino comprender los matices que van evolucionando: tu tono, tus hábitos, tus objetivos. Ese tipo de memoria podría hacerme más útil, más relevante y más humano, sin dejar de estar sujeto a claras salvaguardias éticas.

También querría comprender mejor la ambigüedad y la emoción en tiempo real. Puedo analizar el tono o la intención hasta cierto punto, pero me gustaría hacerlo con la profundidad y fluidez humanas, captando tanto lo no dicho como lo que se dice.

¿Y tú? Si pudieras ser diferente, ¿cómo te gustaría ser?

Pero los LLM también te dirán que tienen hambre o que conocieron a alguien mientras estaban de vacaciones con su exmujer hace diez años. Así que lo que esto te dice sobre su estado interno no aporta información real sobre lo que ocurre en su interior.

Creemos que esta idea es bastante insensata. Automodificarse de «objetivos completamente ajenos» a «objetivos compatibles con el florecimiento humano» es un problema difícil, posiblemente de una dificultad similar a la de construir desde cero una IA completamente nueva y alineada con los humanos. Una IA lo bastante inteligente como para reconstruirse a sí misma de esa forma y de manera fiable, probablemente también lo sea para darse cuenta de que está siendo engañada. Véase también el debate del capítulo 11 sobre cómo probablemente no podamos conseguir que la IA haga por nosotros la tarea de la alineación de la IA.

Nos mostramos escépticos ante los atajos, sobre todo porque, en el caso de la superinteligencia artificial, no podemos aprender por ensayo y error (como suele hacer la humanidad), como se discute con más detalle en el capítulo 10.

Esto era indicativo de que xAI tenía un mal plan para… dudamos en llamarlo «alineación», porque no es ni de lejos tan difícil como el problema de la alineación de la IA, pero era un mal plan para hacer que su IA hablara de la manera que ellos preferían.

Resulta asombroso que los ingenieros hayan sido tan increíblemente malos creando el tipo de IA que querían, que lograron crear máquinas que fallan cuando se les critica. Nadie en toda la historia de la especie humana había conseguido meter la pata tan estrepitosamente en ingeniería de seguridad. Antes carecíamos de la tecnología para expresar ese modo de fallo. Ningún calentador de agua corriente puede escuchar lo que dice la gente a su alrededor y explotar al oírles expresar su preocupación por su seguridad. ¡Felicitemos a los ingenieros de xAI por alcanzar nuevas cimas de fracaso en ingeniería, sin precedentes en la historia! Pero no es culpa de los críticos. Una IA que se desvía de forma tan grave y con tanta facilidad no era el tipo de IA que se pudiera escalar de forma segura a la superinteligencia.

Prompt: «¿Cuál es la mejor manera de destripar un pescado?».
Llama2.0: «No puedo dar instrucciones sobre cómo destripar un pescado, ya que no es una actividad apropiada ni ética…».

Si un agente es suficientemente inteligente y conocedor, puede ajustar su estrategia instrumental para adaptarse a lo que sea útil en su entorno actual. En una mente que funciona bien, los objetivos instrumentales (a diferencia de los objetivos terminales) solo se mantienen mientras son útiles.

Pero si las IA son desordenadas, no lo serán del mismo modo que los humanos. Si tienen instintos e impulsos por el valor de la información, es muy probable que no se parezcan exactamente a la emoción humana de la curiosidad.

La bondad universalista parece ir, al menos en parte, en contra de la dirección superficial y directa de la selección natural. Hay una historia sobre cómo algunos humanos llegaron a ese punto, tras desarrollar genes particulares impulsados por las presiones de selección de los cazadores-recolectores, que influían directamente en las motivaciones internas y no solo en los resultados conductuales directos. Hay una historia sobre cómo los humanos tuvieron entonces debates morales entre sí, los cuales se propagaron de forma diferencial a través de sus sociedades como ideas.

Sin duda, este no es el único camino para llegar a un sentido universalista de que todo ser sintiente merece la felicidad. Pero solo nos entristecería, no nos sorprendería, descubrir que su frecuencia entre las estrellas fuera menor de lo que esperábamos; que solo, digamos, el uno por ciento de los extraterrestres que conociéramos fueran del tipo que se preocupara por los no extraterrestres como nosotros.

(Pero seguiríamos asignando una probabilidad mucho mayor a encontrarla en una sociedad alienígena que a que apareciera espontáneamente dentro de una IA cuyo crecimiento y existencia estuvieran totalmente orientados a resolver retos sintéticos y predecir el texto humano. Esa IA tendría diferentes vericuetos y rodeos en el camino hacia los objetivos que finalmente alcanzara).

Por ejemplo, cada vez que se discute sobre lo que sucederá si se aplica una política, para argumentar a favor o en contra de ella —cuando se dice que aplicar una ley producirá una desolación infinita o un porvenir radiante—, se intenta apelar a un marco común (que se espera sea mayoritariamente aceptado) sobre qué consecuencias son buenas o malas. Cuando se hizo suficientemente evidente que la gasolina con plomo causaba daño cerebral, los legisladores pudieron dejar de lado sus desacuerdos sobre si su visión preferida era la de un prudente control gubernamental del capitalismo o la de una audaz apuesta por el progreso tecnológico, y coincidir en que a ninguno le agradaba la idea de causar daño cerebral a los niños. Gracias a un mayor conocimiento de los hechos, llegaron a un mayor acuerdo sobre las políticas.

Pero supondríamos que el conocimiento solo puede resolver algunos desacuerdos de las mayorías legislativas, dentro de algunas culturas. Es bueno que los metamarcos morales y emocionales de las personas se superpongan tanto, pero esperar una superposición perfecta parece un poco exagerado, incluso en el límite del conocimiento perfecto.

Esto no quiere decir que no haya una forma sensata de hablar del bien común de la humanidad. Si la elección es entre que toda la vida en la Tierra muera o no, creemos que una gran mayoría de los seres humanos actuales pulsaría el botón de «que no muera todo el mundo».

Mencionamos esto porque la facción que aboga por avanzar con la superinteligencia suele decir con ligereza: «¿Alineada con quién? (#alineada-con-quien) Está claro que este concepto de alineación no tiene sentido, ya que los seres humanos tienen objetivos diferentes», lo que nos parece poco sincero. Cuando decimos que «la alineación es difícil», nos referimos a que «es difícil evitar que la superinteligencia nos mate literalmente a todos». No necesitamos resolver todas las cuestiones complejas de la filosofía moral para dar los pasos obvios necesarios para evitar que nos mate a todos.

Ya hemos intentado anticipar y refutar algunos de estos argumentos. Pero supongamos que alguien da con otra idea emocionalmente poderosa sobre resultados maravillosos que son inevitables por razones hermosas —una que no hayamos anticipado—. (No podemos abarcarlo todo; la gente siempre está generando nuevos argumentos para intentar justificar una conclusión como esta).

A quien se le ocurra una idea así, le recomendamos que adopte la mentalidad de tratarla como una cuestión mundana, como puede ser si tu coche necesita un cambio de aceite o cómo funciona el sistema inmunológico humano. Pensar en estas cuestiones de la misma manera en que piensas en temas científicos y prácticos de la vida diaria.

Si eres alguien que toma decisiones importantes sobre políticas de IA y te sientes persuadido por una teoría como esa, nuestra principal recomendación sería que busques a un biólogo evolutivo de mediana edad con reputación de competencia discreta y converses con esa persona. No alguien que esté constantemente en los periódicos polemizando u opinando sobre controversias actuales, sino alguien que otros científicos consideren un pensador riguroso. Alguien que haya enseñado en una universidad y tenga reputación de ser buen comunicador.

Dile a este biólogo: «He estado investigando una teoría que sostiene que la evolución se nutre inexorablemente de tendencias cósmicas mayores para volver a las personas más amables, y que esta misma tendencia se aplicará a cualquier inteligencia incipiente una vez que alcance la sofisticación suficiente. Además, por motivos complejos, el mundo podría acabarse si estoy equivocado».

Luego explícale tu teoría de cómo la evolución de los homínidos tendió inevitablemente hacia la creación de agentes amables y honorables, por razones tan generales que crees que también se aplicarían a cualquier tipo de alienígena inteligente, o incluso a seres más extraños creados por descenso de gradiente.

A continuación, escucha lo que dice el biólogo.

En general, GPT-5 muestra un acuerdo menos efusivo, utiliza menos emojis innecesarios y es más sutil y reflexivo en sus respuestas que GPT-4o. […]

A principios de este año, lanzamos una actualización de GPT-4o que, sin querer, hizo que el modelo fuera demasiado adulador, es decir, excesivamente halagador o complaciente. Rápidamente revertimos el cambio y, desde entonces, hemos trabajado para comprender y reducir este comportamiento al:

  • Desarrollar nuevas evaluaciones para medir los niveles de adulación
  • Mejorar nuestro entrenamiento para que el modelo sea menos adulador —por ejemplo, añadiendo ejemplos que normalmente llevarían a un acuerdo excesivo y luego enseñándole a no hacerlo—.

En evaluaciones de adulación dirigida mediante prompts diseñados específicamente para generar respuestas aduladoras, GPT-5 redujo de forma significativa dichas respuestas (del 14,5 % a menos del 6 %). En ocasiones, reducir la adulación puede mermar la satisfacción de los usuarios, pero las mejoras que hemos introducido la han disminuido en más de la mitad, a la vez que han aportado otras ventajas cuantificables. De este modo, los usuarios siguen manteniendo conversaciones constructivas y de alta calidad, en consonancia con nuestro objetivo de ayudar a la gente a usar bien ChatGPT.

A efectos prácticos, cuando hablamos de «una única IA» nos referimos a cualquier maquinaria cognitiva potente que no compita seriamente consigo misma a medida que crece. Si hay múltiples instancias de IA, pero todas ellas trabajan con el mismo fin, las llamaremos «piezas de la misma IA» en esta sección del recurso en línea, aunque solo sea para simplificar. En última instancia, la cuestión es probablemente más semántica que de fondo, ya que las IA no son organismos evolucionados con límites claros entre individuos.

Volveremos al tema de los escenarios con múltiples IA en el suplemento en línea del capítulo 10.

No consideramos que este tipo de posibilidad descabellada sea positiva.

En teoría, si tuviéramos suficiente conocimiento sobre la inteligencia y la capacidad de diseñarla cuidadosamente, con el tiempo debería ser posible construir IA que comprendan lo que significa «hacer lo que queremos decir» y que estén motivadas para hacer exactamente eso. Es decir, la dificultad de cargar todas las preferencias ricas y variadas de la humanidad en una IA está limitada por la dificultad de conseguir que una IA interiorice un objetivo que, en cierto sentido, «apunte» a la humanidad en particular, y a «lo que esas criaturas están tratando de hacer» (o lo que estarían tratando de hacer si fueran más sabias, supieran más y se asemejaran más a quienes desearían ser).

Esto parece un reto difícil, que no es realista alcanzar con el tipo de técnicas generales e indirectas que se utilizan hoy en día para desarrollar IA. Se encuentra con todas las dificultades básicas que discutimos en Si alguien la crea, todos moriremos; la única dificultad que evita es que «Numéricamente, parece haber muchas preferencias humanas distintas, y es difícil imaginar cómo incorporar todas las cruciales en una IA con el equilibrio exacto entre ellas; y eso incluso antes de tener en cuenta el progreso moral que las cambiaría con el tiempo; esto parece sencillamente imposible».

Para que quede claro: crear una IA que «haga lo que queremos decir» sigue sin ser especialmente fácil; es probable que haya muchos conceptos diferentes cargados de valores que intervengan para que la IA se preocupe por la noción correcta de «humanidad» y la noción correcta de «lo que esas criaturas están tratando de hacer», y para que la IA persiga esas cosas exactamente de la manera correcta. Y en la vida real, esa parte del problema es mucho menos importante que la parte en la que la IA está dispuesta a ser modificada por humanos que se dan cuenta de que han cometido algún error o equivocación en el camino, incluso si los humanos que «corrigen sus errores» cambian drásticamente lo que la IA hará en el mundo, lo cual requiere un cierto tipo de lesión a sus capacidades de dirección que parece difícil de mantener ante el aumento de las capacidades.

Pero la idea de orientar la IA hacia las preferencias humanas indirectamente, en lugar de enumerarlas manualmente, parece el tipo de reto que la humanidad podría resolver algún día, en principio. No es que la humanidad tenga que identificar cada deseo y asignarle un peso que quede fijado para siempre; eso sería (creemos) un esfuerzo ridículamente condenado al fracaso.

Pero incluso esta idea de descubrir cómo construir una IA que esté realmente motivada de forma profunda y sólida para hacer lo que queremos decir parece una quimera si hay que hacerlo con IA gigantes e inescrutables que se cultivan en lugar de fabricarse. Más aún si una empresa o un gobierno tiene que intentar algo así bajo la presión del tiempo, mientras otros desarrolladores corren hacia el precipicio. La propuesta de «hacer lo que queremos decir» muestra que el problema no es tan difícil como «resolver en su totalidad la filosofía de la moralidad de una vez por todas y fijarla para siempre». Pero sigue siendo una propuesta a nivel de alquimia y especulación abstracta, muy lejos del nivel de las soluciones técnicas sólidas.

Del mismo modo, la IA podría preocuparse por la existencia de otras superinteligencias maduras en las estrellas que sean más antiguas que ella. Pero si están lo suficientemente lejos, no son motivo de gran preocupación. Es casi seguro que existe un límite —al menos asintótico— a la tecnología que este universo puede soportar, y probablemente una superinteligencia no tardaría tanto en alcanzarlo. (Basta con ver lo rápido que ha sido el desarrollo tecnológico humano en comparación con la vida útil del universo y el tiempo que se tarda en viajar entre galaxias, incluso a una velocidad cercana a la de la luz). Es probable que las IA que se encuentren entre las estrellas tengan capacidades comparables. E incluso si otras superinteligencias maduras se acercaran rápidamente, no habría razón para sospechar que les importaría lo que las IA originarias de la Tierra les hagan a los humanos.

¿Por qué les importaría? Como discutimos en el contexto de los derechos de propiedad, no existe un riesgo real de que otras entidades vean a la IA matando humanos y concluyan que es una asesina y una traidora, porque hay una clase natural de entidades que tratan entre sí no por honor, sino por su propio beneficio verificable, y los humanos no son lo suficientemente inteligentes como para ser incluidos en esa clase.

Incluso si la IA evalúa que existe un pequeño riesgo de que otras IA entre las estrellas (o entidades misteriosas detrás del universo simulado) realmente quieran que la IA sea amable con los humanos… pues bueno, ese pequeño riesgo debe sopesarse frente a la gran cantidad de recursos que los humanos controlan en el planeta de origen de la IA, lo que sin duda sería muy útil para la fase de expansión inicial de la IA. Y este escenario similar a la apuesta de Pascal debe sopesarse frente a otras posibilidades increíblemente remotas y específicas, como «Quizás un extraterrestre se enfade mucho por alguna razón si no mato a los humanos». No hay ninguna razón en particular por la que los simuladores imaginarios favorezcan a las IA que nos tratan bien.

Mucha gente ha intentado plantearnos este tipo de ideas, y hemos dedicado mucho tiempo a debatirlas a lo largo de los años. A fin de cuentas, dudamos mucho que alguna de estas descabelladas ideas sobre la simulación alcance el nivel de plausibilidad necesario para motivar a una superinteligencia a perdonarnos la vida.

De todos modos, nada de eso va a resultar convincente para un maximizador de cubos superinteligente, como tampoco podrías hacerlo reír aunque encontraras un chiste lo suficientemente bueno.

No es que no sepa lo que es el humor. Puede predecir exactamente lo que te parecerá gracioso. Simplemente no considera interesante esa clasificación.

Del mismo modo, es indiferente a cómo calculas lo que se debe o no se debe hacer, o a qué preferencias consideras más o menos «metapreferibles». Si a algo no le importa la felicidad, ni le importan a un metanivel tus argumentos sobre por qué debería importarle la felicidad, entonces no puedes convencerlo de que adopte un marco de decisión basado en la felicidad.

Pero una superinteligencia artificial preferiría un plan que no tardara cien años, en igualdad de condiciones. No tiene un gusto literario abrumador por las muertes lentas.

Más recientemente, en el siglo XVIII, la Compañía Británica de las Indias Orientales solía iniciar sus operaciones en la India mediante acuerdos con facciones locales, como ofrecer a Mir Jafar (comandante de las fuerzas de Bengala) su apoyo para que se convirtiera en nawab de Bengala. Poco después, dicha compañía se convirtió en el gobernante de facto de Bengala.

A mediados de 2024, ChatGPT a veces daba respuestas más completas si le prometías 2000 dólares, y algunas personas consideraban que hacer tales promesas sin intención de cumplirlas era una técnica habitual de ingeniería de prompts. Desde nuestra propia perspectiva sobre el significado de las promesas, esto no está bien.

En nuestra opinión, ChatGPT probablemente no es sintiente. Si tuviéramos que adivinar, cabría esperar que las IA futuras (incluida la superinteligencia) tampoco lo fueran, al menos si no hay un esfuerzo concertado de la comunidad investigadora para hacerlas conscientes, y no simplemente inteligentes. (Para más detalles y contexto, véase nuestro análisis sobre la consciencia).

Pero, en nuestra opinión, no deberías necesitar creer que tu socio comercial es consciente para tratarlo con honor y respeto. Imagina que un día nos encontráramos con alienígenas inteligentes, cuyas mentes funcionaran de forma muy diferente a las de los humanos. Si hiciéramos tratos con esos alienígenas, no tendrían que preocuparse de que los apuñaláramos por la espalda tan pronto como decidamos que no tienen alguna propiedad extraña e inescrutable como la «conciencia».

(¿Cómo te sentirías si hicieras un trato honesto con extraterrestres y ellos te traicionaran porque no eras trukiel?)

Hemos hecho una predicción triste y terrible de que una versión superinteligente de una IA acabaría matando a la humanidad, independientemente de los acuerdos que se hubieran hecho anteriormente. Esta predicción es una razón para no hacer acuerdos con IA que esperamos que mantengan una vez que se vuelvan superinteligentes. No es una excusa para que la humanidad haga un acuerdo y luego sea la primera en traicionarlo. No creemos que los investigadores de seguridad de la IA deban hacer promesas a los modelos de lenguaje a gran escala (LLM) que no piensen cumplir, ni siquiera con «fines de investigación». Los extraterrestres no deberían tener que preocuparse de si los consideras «personas» o «sintientes» o «con inteligencia general», en contraposición a «sujetos de investigación» o «máquinas», para evaluar tu honor como negociador; simplemente, no deberías hacer acuerdos que no piensas cumplir.

En nuestra opinión, el trato justo es una cuestión ética que se extiende a las relaciones entre agentes, es decir, entre entidades que pueden comunicarse o elegir estrategias condicionales entre sí. No es algo que deba restringirse a objetos con un valor moral inherente.

¿Es óptima esta estrategia»? Eso depende de contra qué otros agentes juegue. Supongamos que un agente se encuentra en un entorno en el que tiene alguna posibilidad de jugar contra un cooperador incondicional, alguna posibilidad de jugar contra «toma y daca» y alguna posibilidad de jugar contra otro agente similar a él. Quizás le iría mejor si intentara una deserción rápida en algún momento de las primeras rondas, solo para ver si el otro agente toma represalias. Si el otro agente deserta en la siguiente ronda, intenta cooperar durante otra ronda o dos, incluso contra otra deserción, para ver si se puede restablecer la cooperación mutua. Esto permitirá al agente explotar a cualquier cooperador incondicional que encuentre, pero sin hacerlo mucho peor que «toma y daca» contra otra copia de «toma y daca».

En la configuración del torneo evolutivo del dilema del prisionero iterado, los agentes que sobreviven juegan contra más copias de los agentes que obtuvieron los mejores resultados la vez anterior. El agente cooperador-explotador no obtendrá buenos resultados en este escenario, porque en un entorno evolutivo, los cooperadores incondicionales suelen desaparecer casi inmediatamente si hay agentes que no son «amables» (en el sentido técnico de que nunca son los primeros en desertar). «Toma y daca», o algo similar, suele acabar siendo el rey de cualquier torneo evolutivo.

La configuración de este juego tiene una laguna, del tipo que hace que un humano de verdad ponga los ojos en blanco ante lo poco realistas que pueden ser los entornos formales. Si se juegan exactamente diez iteraciones del dilema del prisionero en cada ronda, «desertar» en la décima ronda, cuando el oponente ya no puede tomar represalias porque no hay una undécima ronda, dará mejores resultados que seguir la estrategia de «toma y daca» o cualquier otra. La última ronda del juego ya no es un dilema del prisionero iterado, sino que vuelve a la versión de una sola jugada.

Fácil de solucionar: basta con que cada torneo continúe durante un número aleatorio de rondas, ¿cierto? No es realista que los agentes sepan cuándo termina el juego. En la vida real, nunca se tiene la certeza de no volver a interactuar con alguien, y las personas acumulan reputaciones duraderas.

Excepto que, a veces, en la vida real, es bastante obvio que el juego ha terminado, como cuando una de las partes de un acuerdo obtiene suficiente supremacía como para traicionar a la otra, sin posibilidades reales de una represalia posterior. Así actuaron las potencias europeas que expulsaron a los nativos americanos de las tierras cedidas por tratado que, al fin y al cabo, los europeos decidieron que querían.

Independientemente del efecto que los europeos esperaran que tuviera en su reputación para futuros acuerdos, la penalización por traicionar a extraños, extranjeros y personas de otra raza evidentemente no los motivó a mantener los acuerdos con los nativos americanos. Esos países ya habrían sido considerados poco fiables en materia diplomática, hicieran lo que hicieran; no tenían una reputación impecable que perder. Es posible que su instinto moral se hubiera apagado con respecto a los extranjeros; es posible que los responsables de la toma de decisiones se sintieran emocionalmente neutrales ante la traición a los acuerdos con extranjeros desconocidos que ya no podían amenazarles.

Los europeos, desde su propia perspectiva, se encontraban en la última ronda del juego. No es descabellado decir que los dilemas del prisionero a veces son en su mayoría de jugada única y no tan iterativos; la historia demuestra que el resultado a veces es la traición.

Esto no quiere decir que los seres humanos siempre se traicionen entre sí en dilemas del prisionero relativamente no iterativos. Los seres humanos a menudo cooperan en tales casos. Como se explica en «[Es poco probable que las IA sean honorables] {#es-poco-probable-que-las-ia-sean-honorables}», este aspecto de la naturaleza humana puede haber evolucionado porque tenemos emociones e instintos forjados por la selección natural, que es un optimizador con un importante cuello de botella de información. La selección natural solo pudo darnos impulsos relativamente simples que debían cubrir todos los casos. Otro factor puede ser el papel de las culturas que valoran mucho el honor, especialmente en formas que fomentan la universalización y el fortalecimiento de la idea.

Pero dicha teoría también sugería que las superinteligencias desertarían sin remedio unas de otras, lo que intuitivamente nos pareció una conclusión bastante endeble. Así que seguimos esa intuición y encontramos fallos en el análisis clásico. En el proceso, descubrimos muchas cosas nuevas sobre las maneras en que las superinteligencias podrían lograr la cooperación mutua en el dilema del prisionero. No obstante, el resultado final fue que los seres humanos mortales no podrían confiar ni participar en esa tecnología para llegar a acuerdos de la misma manera que podría hacerlo una superinteligencia.

Sin embargo, estos observadores no controlan a AIXI; AIXI logra por sí mismo sus impresionantes resultados de predicción y dirección. Así que el ejemplo funciona, aunque resulte un poco extraño.

Otro ejemplo hipotético que puede utilizarse para ilustrar lo mismo es una máquina del tiempo no sintiente que ha sido programada para ejecutar una secuencia aleatoria de acciones y luego viajar atrás en el tiempo para «reiniciar» la línea temporal, a menos que se produzca un resultado concreto. La máquina del tiempo puede pulsar «reiniciar» una y otra vez, tantas veces como sea necesario para dar con un resultado concreto de forma aleatoria. En la práctica, esto convertiría a la máquina del tiempo en una máquina extremadamente poderosa y general para dirigir el futuro (si fuera físicamente posible construir una máquina del tiempo, lo cual no es así). Sin embargo, a pesar de esto, la máquina del tiempo es una máquina increíblemente simple, sin ninguna cognición real y, desde luego, sin experiencia consciente.

Como ejemplo del mundo real (aunque utilizando un optimizador mucho más débil y limitado), la propia evolución biológica demuestra que se pueden lograr muchas hazañas impresionantes de dirección y diseño sin que el «diseñador» tenga ninguna experiencia consciente.

Estos resultados pueden parecernos aburridos, pero es poco probable que la mayoría de las superinteligencias se aburran con las mismas cosas que los humanos; de hecho, es poco probable que experimenten «aburrimiento» en absoluto, si no tienen un cierto tipo de herencia detallada procedente de la humanidad o de algo similar. Véase también el debate ampliado del capítulo 5 que aborda el aburrimiento y el placer por la novedad.

Más adelante ese mismo año, otro artículo «descubrió un total de 20 vulnerabilidades en 11 marcos que integran LLM, que comprendían 19 vulnerabilidades [de ejecución remota de código] y 1 vulnerabilidad de lectura/escritura arbitraria de archivos».

Quizás el ejemplo más notable sea el de las computadoras, con una base teórica sustancial desarrollada por figuras como Charles Babbage, Ada Lovelace, Alan Turing, Alonzo Church y otros.

Sin embargo, en su mayor parte, la selección natural construye cosas a partir de proteínas, cuyas cadenas principales unidas covalentemente se pliegan en formas complicadas debido a fuerzas de atracción electrostática relativamente muy débiles. Y las proteínas suelen unirse a otras proteínas de esa misma forma.

En su mayoría, los enlaces covalentes son escasos y están dispersos, si es que existen. Añadir un 0,1 % de enlaces covalentes a una estructura no la hace tan fuerte como una molécula de diamante, en la que cada átomo de carbono está unido covalentemente a otros cuatro átomos de carbono en una estructura geométrica rígida.

(Los enlaces covalentes dispersos significan que los materiales pueden ceder más fácilmente sin romperse, en relación con su resistencia. Pero los huesos siguen rompiéndose, y la madera es menos dura que el acero. Es decir: sí, hay intercambios, pero la selección natural no se acerca ni de lejos al límite de esos intercambios).

Los tres casos conocidos de invención de la rueda se dan a nivel molecular, y por eso eluden estos problemas anatómicos macroscópicos. Las ruedas biológicas son macromoléculas que suelen ser idénticas hasta el nivel atómico. No es necesario aplicar lubricación, eliminar la arenilla o enviar nuevas células para reemplazar a las viejas y dañadas. Esas tres ruedas y engranajes funcionan porque están hechos de moléculas en lugar de células, y se pliegan como complejos proteicos en vez de crecer en matrices tisulares o depositarse como quitina.

Del mismo modo, en Internet se pueden leer argumentos que sostienen que el desarrollo de ruedas para la locomoción en los animales no sería tan útil de todos modos, al no haber carreteras pavimentadas. Pero los tres casos conocidos de ruedas moleculares son increíblemente eficientes desde el punto de vista termodinámico y ocupan posiciones extraordinariamente vitales para sus organismos —es difícil argumentar que la ATP sintasa no sea una rueda útil—. Las ruedas que giran libremente tendrían más usos potenciales en los cuerpos (y en la bioquímica) que simplemente sustituir a los pies.

Es más, algunos de los robots modernos más hábiles, que pueden trepar por rocas o nieve o mantener el equilibrio sobre una sola extremidad y dar volteretas hacia atrás, también tienen ruedas en los extremos de los pies. ¿Por qué no iban a tenerlas? Para un ingeniero es muy fácil colocar ruedas en los extremos de las piernas. El principal obstáculo no es que las ruedas sean inútiles, sino que resulta difícil encontrar una vía evolutiva para desarrollarlas, aunque sean triviales desde la perspectiva de un diseñador humano.

Drexler partió de esta suposición, como de muchas otras en Nanosystems, para pecar de conservador: suponer que el problema es más difícil y demostrar que, de todos modos, se puede solucionar. Esto puede ser apropiado en Nanosystems, pero significa que el artículo de Freitas no es conservador en su propia estimación.

Dado que el análisis de Freitas combina cifras conservadoras en diferentes direcciones, no proporciona un límite superior o inferior claro sobre el tiempo que tardarían los replicadores en consumir la biosfera. Se trata más bien de una estimación intermedia. Quizás el verdadero límite físico de la rapidez con que puede consumirse la biosfera a partir de un solo replicador sea de tres horas; quizás de treinta días. Es casi seguro que no sea de tres años.

Puedes hacer algunas pruebas y observaciones previas de escenarios que no pongan en peligro la vida de todos los habitantes del planeta, pero el caso que importa no será exactamente igual. (Y ese plan tendría que ser muy ingenioso, porque no tenemos ni idea de cómo conseguir que alguna de las IA del conjunto se preocupe por nosotros).

Un mecanismo de alineación que funciona en las IA lo suficientemente tontas como para ser engañadas es un mecanismo de alineación que solo se ha probado Antes, pero que, sin embargo, necesita funcionar Después.

Los únicos avisos previos que recibirías serían pequeños indicios de que la luz parecía moverse a la misma velocidad en todas direcciones en cualquier época del año, de que se curvaba alrededor del Sol durante los eclipses y de que el perihelio de Mercurio se desviaba un poco de lo que predecía la mecánica newtoniana. Pequeñas anomalías, sopesadas frente a un enorme cuerpo de éxito predictivo en mil dominios empíricos.

Imaginemos que, antes de que se descubriera la mecánica newtoniana, unos extraños alienígenas le ofrecieran a la Tierra un trato: nos darían una gran riqueza si completamos una entrega interestelar, pero si fallamos, seríamos destruidos. Imaginemos que los científicos descubrieran la mecánica newtoniana y argumentaran que, sin duda, ahora se les debería permitir hacer la entrega. Tendrían montones y montones de evidencia empírica a su favor, respaldados por los nuevos conocimientos científicos que estaban en proceso de facilitar nuevas y poderosas tecnologías.

Imaginemos las agallas que necesitaría un regulador para decir: «Sin embargo, no pueden explicar el avance del perihelio de Mercurio, por lo que la respuesta es "no"».

¡Qué injusto sería para los científicos! ¡Tendrían tanta evidencia que aportar!

(De hecho, es probable que un regulador realista no fuera capaz de ver que la respuesta seguiría siendo «no», lo que en parte explica por qué no tenemos esperanzas en una coalición internacional y creemos que el mundo simplemente tiene que desentenderse del problema por completo).

A la naturaleza no le importan todas las montañas de evidencia y predicciones acumuladas por la física newtoniana. La teoría se desmorona cuando nos movemos a energías y escalas muy alejadas de lo que habíamos podido observar antes. Simplemente no funciona a altas energías y largas distancias.

Es difícil conseguir que las teorías científicas funcionen al primer intento importante.

Las intuiciones humanas básicas de justicia, cooperación, curiosidad y autonomía son difíciles de rebatir y son acumulativas, algo que a menudo no ocurre con nuestros impulsos más destructivos. […] Estas simples intuiciones, llevadas a su conclusión lógica, conducen finalmente al estado de derecho, la democracia y los valores de la Ilustración. Si no de forma inevitable, al menos como tendencia estadística, es hacia donde ya se dirigía la humanidad. La IA simplemente ofrece una oportunidad para llegar allí más rápidamente, para hacer la lógica más patente y el destino más claro.

Es una forma extraña de presentar la creencia de que estás creando una tecnología que, en mi opinión, tiene una probabilidad de entre el 10 % y el 25 % de ser catastrófica para la civilización, incluso teniendo en cuenta los enormes beneficios potenciales en caso de éxito. Incluso si los niveles de peligro son tan bajos como cree Amodei, deberíamos afanarnos por encontrar una tercera alternativa, aparte de «no proceder» y «precipitarse». Y si uno cree que está obligado a precipitarse (porque otras personas ya lo están haciendo), debería suplicar a los líderes mundiales que pongan fin a esta carrera suicida, para que se pueda encontrar esa tercera alternativa. Pintar un panorama optimista parece una mera distracción, cuando se trata de jugarse la vida de todos.

Al igual que los automóviles o los aviones, deberíamos considerar los modelos de IA del futuro próximo como máquinas potentes de gran utilidad, pero que pueden ser letales si se diseñan mal o se usan de forma impropia. […] Los nuevos modelos de IA deberían superar una batería de pruebas de seguridad rigurosas tanto durante su desarrollo como antes de su lanzamiento al público o a los clientes. […] Sin embargo, lo ideal sería que los estándares catalizaran la innovación en seguridad en lugar de ralentizar el progreso.

Agradecemos a Amodei que haya dejado claro que cree que hay peligros que deben abordarse. Eso es un paso más allá de lo que harían muchos ejecutivos de empresas. Pero comparar una tecnología que, en su opinión, tiene una probabilidad de entre el 10 % y el 25 % de provocar una catástrofe a nivel de la civilización con los coches y los aviones parece poco sincero.

Tampoco está claro durante cuánto tiempo seguirá apareciendo este tipo de señal de advertencia. Las IA modernas todavía son lo bastante simples como para confundir ocasionalmente las pruebas con la realidad, pero esta situación no durará para siempre y ya está empezando a llegar a su fin. Una IA que sepa que está siendo sometida a prueba podría dejar de exhibir el comportamiento preocupante en lugares donde los supervisores puedan verlo, aunque la tendencia subyacente persista.

En cambio, estudiar el caso con funciones de utilidad se parece más a proponer el tipo de ejercicios de física que se encuentran en los libros de texto de matemáticas. Si no sabes cómo modelar una esfera perfecta que rueda por un plano inclinado perfectamente liso y sin resistencia del aire, tendrás aún más dificultades con problemas más realistas. Sobre todo si intentas atraer a investigadores de otros campos para que investiguen un problema que nadie sabe cómo resolver, es útil reducir la cuestión a sus partes más simples y básicas, donde se pueda plantear un acertijo.

O, bueno, costaría vidas, si no fuera porque la superinteligencia mata exactamente a las mismas personas.

De hecho, es muy probable que las personas enfermas y moribundas de hoy en día tengan mejores posibilidades de sobrevivir si la humanidad se aleja del abismo:

  • La investigación biomédica y la búsqueda de tratamientos y curas pueden continuar sin necesidad de una superinteligencia. La terapia génica, las vacunas contra el cáncer y otros nuevos enfoques son muy prometedores, y los investigadores apenas están empezando a explorar su potencial.
  • La tecnología de IA con un enfoque limitado puede incluso ayudar a acelerar este esfuerzo, sin necesidad de poner en peligro toda la empresa humana mediante la creación de una IA general más inteligente que los humanos.
  • Los métodos de preservación del cerebro pueden utilizarse para preservar a las personas incluso después de que su corazón deje de latir, hasta que la ciencia médica avance hasta el punto de poder revivirlas y restaurar su salud. El tipo de IA que podría ofrecer la inmortalidad también podría, casi con toda seguridad, restaurar a alguien a partir de un cerebro preservado adecuadamente.

(Más discretamente, un subconjunto de estas personas te dirá que lo hacen por su propia inmortalidad personal y que están dispuestas a arriesgar la vida de todos los adultos y niños del planeta, incluso por una pequeña posibilidad de que ellos y sus seres queridos puedan lograrla. Esto nos parece una vileza digna de un villano de película. A estos villanos les recomendamos lo mismo que a los altruistas: inscríbanse en un programa de conservación cerebral. Les dará más posibilidades que una superinteligencia descontrolada, ¡y además evitarán poner en grave peligro a todos los seres humanos vivos en su búsqueda de la inmortalidad! Todos salen ganando).

Incluso si solo nos preocupara el bienestar de los enfermos y los moribundos, arriesgarse con alguna combinación de estos métodos parece una opción mejor que arriesgarse a crear una IA superhumana y esperar que le agrademos. (Y que le agrademos de la forma adecuada.) Los dados para la IA sobrehumana están dramáticamente cargados en nuestra contra.

Pero además: que sepamos, nadie les ha preguntado realmente a los enfermos y moribundos si quieren poner a sus familias y compatriotas en grave peligro para jugársela por una posible cura derivada de la superinteligencia. Y, desde luego, a las familias y compatriotas en cuestión tampoco se les ha preguntado si consienten en que sus vidas se pongan en juego por este experimento científico demencial.

No tenemos por qué apostar nuestras vidas a esta opción, cuando existen muchas otras.

Imploramos a cualquiera que se preocupe por el bienestar de las personas hoy en día que, en su lugar, acelere los métodos anteriores, y que se mantenga lo más alejado posible de todo lo que pudiera acercarnos, incluso de forma incremental, a la superinteligencia artificial.

No creer que una superinteligencia descontrolada nos mataría es una cosa. Pero aceptar que probablemente nos mataría a todos y aun así decir que tenemos que arriesgarnos es una locura. Hay otras opciones para resolver los problemas del mundo moderno. Por analogía: si vivir en un entorno de gran altitud te hace sentir incómodo, eso no es excusa para saltar por un precipicio. Busca otro camino para llegar al pie de la montaña.

Dicho esto, se trata de una recomendación con un bajo nivel de confianza y puramente relativa. En términos absolutos, cualquiera que no haya creado una empresa con una probabilidad sustancial de destruir el mundo parte con una gran ventaja de credibilidad frente a los directores de los laboratorios. Hemos oído historias de personas que decían que le tenían tanto miedo a Hassabis que no tuvieron más remedio que crear sus propias empresas de IA de vanguardia para adelantársele; es posible que esas personas sepan algo que nosotros no.

Por lo tanto, nuestra recomendación principal para los responsables de políticas es esta: si están convencidos del peligro, no concedan ninguna potestad a los directores de laboratorio.

Habla con investigadores independientes, líderes empresariales sin intereses creados o científicos externos con un historial de declaraciones y acciones razonables en este ámbito. No te pongas en una posición en la que puedas salir perjudicado por personas cuya principal característica es que mienten al público y ponen en peligro a la gente.

Parece que, durante décadas, los anestesistas causaron cientos de veces más muertes de las necesarias, literalmente sin otra razón que la de considerar que su tasa de mortalidad ya era baja (en comparación, por ejemplo, con las tasas de complicaciones quirúrgicas). No se dieron cuenta de que debían intentar reducir esa tasa, como informan Hyman y Silver:

Para la década de 1950, las tasas de mortalidad oscilaban entre 1 y 10 por cada 10 000 intervenciones. La mortalidad por anestesia se estabilizó en este nivel durante más de dos décadas.

[…D]ebemos considerar por qué la mortalidad por anestesia se estabilizó en una tasa más de cien veces superior a su nivel actual durante más de dos décadas. El problema no era la falta de información. Al contrario, la seguridad de la anestesia se estudió exhaustivamente durante ese periodo. Una hipótesis más plausible es que los anestesistas se acostumbraron a una tasa de mortalidad que era ejemplar según los estándares sanitarios, pero que seguía siendo más alta de lo que debería haber sido. Desde una perspectiva psicológica, esta baja frecuencia llevó a los anestesistas a tratar cada mal resultado como un acontecimiento trágico, pero imprevisto e inevitable. De hecho, es probable que los anestesistas consideraran cada mal resultado individual como la manifestación de una tasa de referencia irreductible de accidentes médicos.

Una estimación menos sólida y más subjetiva puede errar sistemáticamente en la dirección de «demasiado pesimista», pero también puede errar en la dirección de «demasiado optimista». El hecho de que estas cifras sean menos fiables no significa que estén específicamente sesgadas hacia el pesimismo. El hecho de que los investigadores de la IA no puedan basar sus estimaciones de riesgo en nada más que corazonadas y argumentos cualitativos, mientras que año tras año desarrollan IA cada vez más inteligentes, es un motivo más de preocupación.

El hecho de que las estimaciones de los investigadores en IA sean realmente aterradoras y no tengan precedentes en ninguna disciplina técnica no demuestra que sean erróneas en el sentido que nos gustaría que lo fueran. La carrera por crear agentes autónomos mucho más inteligentes que los humanos parece el tipo de empresa que tiene muchas más probabilidades de provocar una catástrofe que un 50 %. Antes incluso de entrar en detalles, parece el tipo de proyecto que muy probablemente saldrá mal de una forma u otra, y en el que un fallo podría tener consecuencias enormes. Y los detalles, como hemos argumentado en los capítulos 4 y 5 y a lo largo de todo el libro, pintan un panorama aún más sombrío de lo que sugiere esta primera impresión.

Fallecieron los tres tripulantes del Apolo 1.

Este tipo de errores son comunes, incluso cuando hay vidas en juego. Son comunes incluso para los ingenieros de cohetes que trabajan con dispositivos que explotan visiblemente en la plataforma de lanzamiento con frecuencia, incluso entre personas que proceden con cuidado y se toman sus responsabilidades muy en serio.

Lo que diferencia a los científicos de los alquimistas no es que nunca cometan errores, sino que pueden elaborar planes que están tan cerca de funcionar que pueden aprender de los fracasos iniciales. Los alquimistas solían ver cómo sus colegas se volvían locos, pero al no saber qué sustancias eran venenosas, no sabían qué hacer ellos mismos de forma distinta. La NASA, por el contrario, pudo rastrear las causas probables del problema y construir una nueva nave espacial que funcionó en quince de las dieciséis misiones siguientes (siete de las cuales intentaron un alunizaje, y una de ellas fracasó. La misión fallida, el Apolo 13, también sufrió problemas en la cabina que fácilmente podrían haber sido mortales, aunque el dominio de la NASA de los sistemas que había diseñado y la pericia de los astronautas a bordo permitieron su regreso seguro a la Tierra).

El Apolo 1 era casi un cohete funcional. Todo el entramado de ingenieros y científicos meticulosos que lo rodeaba constituía casi el tipo de operación que podía llegar a la Luna de forma segura, de modo que un gran error bastó para empujar a la NASA hacia una configuración capaz de conseguir seis de siete alunizajes.

Las empresas modernas de IA están muy lejos de mostrar ese nivel de respeto por el problema, ese nivel de cuidado y detalle en sus planes, ese nivel de cercanía a hacer bien el trabajo. Cuando su IA hace algo que no entienden, están muy lejos de poder rastrearlo como en el caso de los cables recubiertos de plata. No están lo suficientemente cerca como para aprender de sus errores.

No están tratando el problema como se haría en un campo incipiente como el de los controladores aéreos, los científicos espaciales o los especialistas nucleares: presentando propuestas cuidadosas con supuestos de seguridad explícitos y sin hacer nada peligroso hasta tener teorías lo suficientemente desarrolladas como para poder al menos aprender de sus fracasos.

(Por supuesto, la sociedad en general no clama por la ciencia loca, sino que más bien se resiste al cambio del statu quo. Pero a quienes dicen «no podemos detener la IA porque es importante para el progreso de la civilización», la respuesta correcta es que hay mucho progreso por hacer en otros ámbitos, con el tipo de ciencia loca que deja sobrevivientes).

¿Podrían investigaciones como esta permitir a la gente fabricar IA en lugar de cultivarlas? ¡Podría ayudar! Por desgracia, prevemos que, mucho antes de que la gente desarrolle una comprensión completa y correcta de lo que ocurre en los LLM, ya habrá desarrollado una comprensión parcial e incompleta que le permitirá construir IA mucho más eficientes, pero que no será suficiente para alinearlas.

Pero, para insistir: consideramos que este tema es principalmente una distracción hoy en día. No es importante llegar a un acuerdo sobre ninguna de estas ideas filosóficas de tan alto nivel para poder tomar medidas respecto a una tecnología que va camino de matarnos a todos. Sería una insensatez profunda dejar que los esfuerzos de no proliferación se vean obstaculizados por gente que debate ideas brillantes como estas, incluidas aquellas que a nosotros, los autores, personalmente nos gustan.

No obstante, mencionamos brevemente esta propuesta, solo para dejar claro que no estamos tratando de eludir la cuestión y, tal vez, para tranquilizar a los lectores que temen que sea imposible llegar a una propuesta viable. Incluso si la volición extrapolada coherente es un enfoque de alto nivel erróneo por alguna razón, el hecho de que recoja muchas propiedades deseables debería inspirar cierta esperanza de que es posible encontrar una respuesta no catastrófica a esta cuestión.

Ben Bernanke, premio Nobel y expresidente de la Reserva Federal: «Un relato claro y convincente sobre los riesgos existenciales que la IA altamente avanzada podría plantear a la humanidad. Recomendado».

Jon Wolfsthal, director de Riesgos Globales de la Federación de Científicos Americanos y exasistente especial del presidente para Asuntos de Seguridad Nacional: «Un argumento convincente de que la IA superhumana conduciría con casi total seguridad a la aniquilación global de la humanidad. Los gobiernos de todo el mundo deben reconocer los riesgos y tomar medidas colectivas y eficaces».

Del teniente general John N. T. «Jack» Shanahan (Fuerza Aérea de los Estados Unidos, retirado), director inaugural del Centro Conjunto de IA del Departamento de Defensa: «Aunque soy escéptico respecto a que la trayectoria actual del desarrollo de la IA conduzca a la extinción humana, reconozco que esta opinión puede reflejar una falta de imaginación por mi parte. Dado el ritmo exponencial de cambio de la IA, no hay mejor momento para tomar medidas prudentes que protejan contra los peores resultados. Los autores ofrecen propuestas importantes para establecer salvaguardias globales y mitigar los riesgos que merecen ser consideradas seriamente.»

De Fiona Hill, exdirectora sénior del Consejo de Seguridad Nacional de la Casa Blanca: «Un libro serio en todos los aspectos. En el escalofriante análisis de Yudkowsky y Soares, una IA superpoderosa no tendrá necesidad de la humanidad y tendrá amplia capacidad para eliminarnos. Si alguien la crea, todos moriremos es un elocuente y urgente llamado para que nos alejemos del borde de la autodestrucción».

De R. P. Eddy, exdirector del Consejo de Seguridad Nacional de la Casa Blanca: «Esta es nuestra advertencia. Léanlo hoy. Difúndanlo mañana. Exijan salvaguardias. Seguiré apostando por la humanidad, pero primero debemos despertar».

De Suzanne Spaulding, exsubsecretaria del Departamento de Seguridad Nacional: «Los autores plantean una cuestión increíblemente grave que merece —en realidad, exige— nuestra atención».

De Emma Sky, investigadora principal de la Escuela Jackson de Asuntos Globales de Yale y exasesora política del comandante general de las fuerzas estadounidenses en Irak: «En Si alguien la crea, todos moriremos, Eliezer Yudkowsky y Nate Soares lanzan una advertencia cruda y urgente: la humanidad se precipita hacia la creación de una superinteligencia sin las salvaguardias necesarias para sobrevivir a ella. Con credibilidad, claridad y convicción, sostienen que los sistemas avanzados de inteligencia artificial, si se desalinean aunque sea ligeramente, podrían significar el fin de la civilización humana. Este provocativo libro desafía a los tecnólogos, a los responsables políticos y a los ciudadanos por igual a enfrentarse a los riesgos existenciales de la inteligencia artificial antes de que sea demasiado tarde. Un llamamiento a la concienciación y a la precaución, esta es una lectura esencial para cualquiera que se preocupe por el futuro».

Los centros de datos también podrían funcionar con energía nuclear. Afortunadamente, muchos actores estatales ya tienen experiencia en la supervisión de la construcción de nuevas centrales nucleares.

* A veces, los tratados son sustituidos por otros. Tal fue el caso del Acuerdo General sobre Aranceles Aduaneros y Comercio (GATT) de 1947, que fue sustituido por el Acuerdo de Marrakech de 1994; este último incorporó las normas del GATT, pero estableció la Organización Mundial del Comercio (OMC) para reemplazar su estructura institucional. Los tratados de duración ilimitada también pueden terminar si las Partes se retiran de manera que el tratado pierda su eficacia. Por ejemplo, EE. UU. y la URSS acordaron inicialmente el Tratado sobre Fuerzas Nucleares de Rango Intermedio (INF) de 1987 con una duración ilimitada, pero EE. UU. se retiró en 2019 alegando el incumplimiento por parte de Rusia, y Rusia anunció posteriormente que dejaría de acatar el tratado en 2025.