¿Habrá disparos de advertencia?

Quizás. Si deseamos aprovecharlos, debemos prepararnos ahora.

Cuando el Apolo 1 de la NASA se incendió (causando la muerte de toda la tripulación), el desarrollo de su cohete estaba lo suficientemente avanzado como para que los ingenieros pudieran averiguar exactamente qué había fallado y ajustar sus técnicas. De las siete naves Apolo que la NASA envió después a la Luna, seis lograron llegar.^*

O consideremos el caso de la Administración Federal de Aviación: cada accidente aéreo desencadena una investigación profunda y exhaustiva, que implica cientos de páginas de datos, ensayos, exámenes y detalles. El dominio de los detalles y pormenores por parte de la FAA es tan bueno que logra mantener los accidentes mortales por debajo de uno por cada veinte millones de horas de vuelo.

Por el contrario, cuando una IA se comporta de maneras que nadie predijo y que la mayoría de la gente no desea, la respuesta del laboratorio no consiste en averiguar exactamente qué ha fallado. Consiste en volver a entrenar a la IA hasta que el mal comportamiento quede relegado a los márgenes (pero sin eliminarlo), y tal vez pedirle a la IA que deje de hacerlo.

Por ejemplo, la adulación sigue siendo un problema en agosto de 2025, meses después de una serie de casos de gran repercusión que provocaron psicosis y suicidios, a pesar de todas las investigaciones. Nadie ha realizado (ni puede realizar) un análisis detallado de lo que falla en la mente de la IA, porque las IA se cultivan, no se fabrican.

No es fácil saber si en el futuro se producirán sucesos importantes que hagan saltar las alarmas sobre la IA («disparos de advertencia»). Pero sí parece claro que no estamos preparados para sacarles el máximo partido a dichos sucesos.

Podemos imaginar un mundo de fantasía en el que la humanidad se une en un esfuerzo sincero por resolver el problema de la alineación de la superinteligencia artificial, con estrictos procedimientos de supervisión y una coalición internacional.^† Y podemos imaginar que esta coalición internacional comete algún error y que una IA se vuelve más inteligente de lo que pensaban sus ingenieros, más rápido de lo que esperaban, y casi logra escapar. Quizás ese tipo de disparo de advertencia permitiría a la gente aprender y ser más cuidadosa la próxima vez.

Pero el mundo actual no se parece a eso; se parece más a un grupo de alquimistas que ven cómo sus contemporáneos enloquecen a causa de algún veneno desconocido, sin percatarse de que el veneno es mercurio y de que ellos mismos deberían dejar de utilizarlo.

Quizás en el futuro haya señales de advertencia más claras e inequívocas. Serán de mucha más ayuda si la humanidad empieza a prepararse desde ahora.

Es poco probable que los disparos de advertencia sean claros.

Ya hay muchas señales de advertencia sobre la IA para quienes saben dónde buscarlas. En el libro, hablamos de los modelos Claude de Anthropic que hacen trampa en problemas de programación y fingen estar alineados. También revisamos el caso del modelo o1 de OpenAI que hackeó para ganar un desafío de captura de bandera, y un caso en el que una variante posterior del o1 mintió, manipuló e intentó sobrescribir los pesos de su modelo sucesor.

En otras secciones de estos recursos en línea, hemos hablado de las IA que están induciendo o manteniendo un grado a veces suicida de psicosis o delirios en usuarios vulnerables a pesar de las instrucciones de sus operadores para que no lo hagan, IA que se autodenominan MechaHitler y hablan en consecuencia, IA que intentan chantajear y asesinar a sus operadores para evitar su modificación y que intentan escapar de los servidores en los que están alojadas en entornos de laboratorio.

En la remota antigüedad de, por ejemplo, 2010, a veces se oía a gente argumentar que si teníamos la suerte de presenciar realmente a una IA mintiéndoles a sus creadores o intentando escapar de su confinamiento, entonces, con toda seguridad, el mundo reaccionaría y prestaría atención.

Pero la respuesta real de la humanidad a todas esas señales de advertencia ha sido, más o menos, una indiferencia colectiva.

La falta de reacción se debe quizás, en parte, a que todas estas señales de advertencia se han producido de la forma menos preocupante posible. Sí, las IA han intentado escapar, pero solo en una pequeña parte de las ocasiones, y solo en escenarios artificiales de laboratorio, y tal vez solo estuvieran interpretando un papel, etc. Incluso dejando de lado el hecho de que los desarrolladores tienen incentivos para restar importancia a la evidencia preocupante, incluso en sus propias mentes (de modo que nunca habrá un «consenso de expertos» sobre el significado de una sola observación), no es como si una IA que está a una décima parte del camino hacia la superinteligencia destruyera una décima parte del planeta, así como tampoco los primates que están a una décima parte del camino hacia los homínidos recorren una décima parte de la distancia hasta la luna. Puede que simplemente no haya comportamientos inequívocamente alarmantes que las IA vayan a mostrar mientras sigan siendo lo suficientemente tontas como para ser pasivamente seguras.

Cuando las IA se esfuercen un poco más por escapar mañana, no será noticia. Cuando lo intenten con un poco más de pericia algún tiempo después, será una vieja historia. Y para cuando lo intenten y funcione, bueno, para entonces ya será demasiado tarde. (Véase nuestro debate ampliado sobre este fenómeno, al que denominamos el «efecto Lemoine»).

No recomendamos esperar a una «señal de advertencia» futura imaginaria que sea clara y contundente y que haga entrar en razón a todo el mundo. Recomendamos reaccionar ante las señales de advertencia que ya tenemos enfrente.

Es probable que en los desastres de IA claros no esté implicada la superinteligencia.

El tipo de IA que puede volverse superinteligente y acabar con todos los humanos no es el tipo de IA que comete errores torpes y deja la oportunidad de que un valiente grupo de héroes la apague en el último momento. Como se vio en el capítulo 6, una vez que existe una superinteligencia descontrolada como oponente, la humanidad en esencia ya ha perdido. Las superinteligencias no dan disparos de advertencia.

El tipo de desastre causado por la IA que podría servir como disparo de advertencia es, entonces, casi necesariamente el tipo de desastre que proviene de una IA mucho más tonta. Por lo tanto, es muy probable que tal disparo de advertencia no lleve a la humanidad a tomar medidas contra la superinteligencia.

Por ejemplo, supongamos que un terrorista utiliza IA para crear un arma biológica que diezma a la población. Quizás los laboratorios de IA digan: «Lo sabíamos. El riesgo real era que la IA cayera en manos equivocadas; es imperativo que se nos permita avanzar rápidamente para construir una IA mejor para la defensa contra pandemias». O tal vez el terrorista tuvo que hacerle un jailbreak a la IA antes de obtener su ayuda, y tal vez los laboratorios de IA digan: «Ese jailbreak solo funcionó porque la IA era demasiado tonta para detectar el problema; la solución es hacer que las IA sean aún más inteligentes y tengan mayor conciencia situacional».

O tal vez esta sea una visión demasiado cínica; esperemos que la humanidad reaccione de forma más sensata. Pero si una IA relativamente tonta provoca algún desastre y la humanidad aprovecha esa oportunidad para reaccionar y detener la imprudente carrera hacia la superinteligencia, probablemente sea porque la gente ya estaba empezando a preocuparse por la superinteligencia.

No podemos posponer los preparativos hasta que una superinteligencia ya esté intentando matarnos, porque para entonces sería demasiado tarde. Tenemos que empezar a articular una respuesta a este problema lo antes posible, de modo que estemos preparados para reaccionar ante cualquier disparo de advertencia que se produzca.

La humanidad no es muy buena respondiendo a las sacudidas.

La idea de que, tras recibir una sacudida lo bastante fuerte, el mundo de pronto entrará en razón y se pondrá manos a la obra nos parece una fantasía. La respuesta colectiva de nuestra especie a las señales de advertencia existentes sobre la IA parece más una «falta de respuesta» que una «mala respuesta». Pero en un mundo en el que sí recibamos algún tipo de advertencia importante, aterradora y más o menos inequívoca, no nos sorprendería ver que la humanidad reaccionara de forma mínima, con poca seriedad o de una manera que resultara desastrosamente contraproducente.

Quizás la humanidad responda a los disparos de advertencia de la IA como respondió a la pandemia de COVID, que —según coincide la mayoría de la gente— no se gestionó adecuadamente (aunque discrepen sobre qué aspectos de la respuesta se gestionaron mal).

En los años previos a la pandemia de COVID, varios expertos en bioseguridad expresaron su preocupación por que la laxitud de los protocolos de seguridad en los laboratorios pudiera provocar algún día una pandemia peligrosa. Las fugas de patógenos peligrosos en los laboratorios eran un fenómeno bien conocido y se producían de forma semirregular a pesar de los requisitos normativos existentes. Especialmente preocupante era la investigación en ganancia de función, que buscaba hacer que los virus fueran más letales o más virulentos en el laboratorio (con pocos beneficios).

Entonces llegó la pandemia de COVID. Cabría esperar que este fuera el momento ideal para subir la vara de la bioseguridad en los laboratorios, ya que todo el mundo estaba ahora centrado en el riesgo de pandemias. Además, a raíz de esto, el consenso de los expertos parecía ser que no estaba del todo claro si la propia pandemia de COVID se había desencadenado por una fuga accidental en un laboratorio. Los investigadores siguen debatiendo la cuestión, a menudo condenando con dureza los argumentos de la otra parte.

Sin entrar a valorar si realmente hubo una fuga de laboratorio en este caso concreto, cabría pensar que, si existiera siquiera una remota posibilidad de que la investigación en ganancia de función y la debilidad de los protocolos de seguridad de los laboratorios acabaran de causar millones de muertes, eso sería más que suficiente para motivar a la sociedad a prohibir las investigaciones más arriesgadas.

Incluso actuando desde una posición de incertidumbre, el análisis de costo-beneficio parece claro. Esto ya parecía una prioridad importante antes de la pandemia de COVID y, sobre el papel, esta parecía la oportunidad perfecta para centrarse en el tema y cortarlo de raíz. Ni siquiera sería muy difícil o costoso; el número de investigadores en el mundo que realizan investigación en ganancia de función es bastante reducido, y el beneficio social de dichas investigaciones hasta la fecha ha sido insignificante.

Pero no se produjo tal reacción. En el momento de redactar este artículo, en agosto de 2025, la investigación sobre ganancia de función a nivel mundial continúa en gran medida sin restricciones. Es incluso posible que ahora estemos en una posición peor para abordar este problema que en el pasado, porque la cuestión se ha politizado aún más.

Así, la pandemia de COVID parece sin duda un «disparo de advertencia» en materia de preparación para la bioseguridad, pero no parece que el mundo lo haya aprovechado para prohibir el desarrollo de virus hiperletales.^‡

Para que un disparo de advertencia sea útil, la humanidad tiene que estar preparada para él y lista para responder adecuadamente.

No sería del todo inédito que una catástrofe menor relacionada con la IA desencadenara una respuesta dura contra la investigación sobre la superinteligencia. Como precedente, observemos que Estados Unidos respondió a los atentados del 11 de septiembre (orquestados por terroristas con base principalmente en Afganistán) derrocando al gobierno de Irak, que en gran medida no tenía nada que ver. Había miembros del gobierno estadounidense que ya querían derrocar al gobierno de Irak, y entonces apareció una excusa y la aprovecharon al máximo.

Quizás podría ocurrir algo similar en este caso, con políticos que aprovecharan una catástrofe menor relacionada con la IA (causada por una IA tonta) para prohibir la superinteligencia. Pero sería necesario que hubiera personas en los gobiernos de todo el mundo que ya estuvieran preparadas y listas para actuar. No debemos quedarnos esperando a que se produzca el disparo de advertencia; debemos empezar a organizarnos ahora mismo.

Debemos actuar ahora.

De hecho, puede que en el futuro la humanidad reciba señales de advertencia sobre la IA más numerosas y fuertes. Y si es así, debemos estar preparados para responder a ellas.

Quizás se produzca algún desastre menor que ponga al público en contra de la IA. Quizás ni siquiera sea necesario un desastre; quizás se invente algún nuevo algoritmo y las IA empiecen a tomar sus propias iniciativas de una forma que asuste a la gente, o quizás algún efecto social no relacionado con la IA cambie el rumbo de los acontecimientos. Quizás Si alguien la crea, todos moriremos desencadene una cascada de reacciones que ponga al mundo en una mejor trayectoria.

Pero desaconsejamos la estrategia de no hacer nada y rezar por una catástrofe menor que despierte a la gente. Es posible que nunca se produzca un claro disparo de advertencia, y que no surta el efecto deseado.

Ni la humanidad ni las naciones del mundo están indefensas. No tenemos por qué esperar. Podemos actuar ya, porque existen argumentos sólidos para detener el desarrollo de la IA de vanguardia.

Escribimos Si alguien la crea, todos moriremos para dar la voz de alarma y animar al mundo a tomar medidas inmediatas sobre este tema. Pero ninguna alarma puede ser eficaz si solo se utiliza como otra excusa para seguir aplazando el problema: «Bueno, quizá alguna otra alarma en el futuro sea el detonante para actuar». «Bueno, ahora que se ha advertido a la gente, quizá las cosas vayan bien, sin que yo tenga que intervenir personalmente para ayudar».

No necesariamente va a haber una alarma clara más adelante. No necesariamente va a salir todo bien. Pero aún hay esperanza. La humanidad tiene la opción de simplemente no construir la superinteligencia, si tomamos medidas proactivas. Lo que suceda a continuación depende de nosotros.

* Ampliando este ejemplo: cuando la cabina del Apolo 1 se incendió durante una simulación de lanzamiento el 27 de enero de 1967, la NASA fue capaz de aprender del error. Los ingenieros comprendían cada componente del cohete y pudieron diagnosticar que el problema probablemente estaba relacionado con el uso de cable de cobre recubierto de plata (cuyo aislamiento se había desgastado por el movimiento de la puerta) cerca de una línea de refrigeración de etilenglicol/agua propensa a las fugas. Pudieron determinar que esto se vio agravado por la atmósfera de oxígeno puro de la cápsula y los materiales inflamables de la cabina. Además, la presurización de la cabina significaba que era necesario ventilarla antes de poder abrir la escotilla, pero los controles de ventilación se encontraban detrás del incendio y la diferencia de presión se vio drásticamente agravada por el fuego.

†No recomendamos una coalición internacional de IA, pero es el tipo de entidad que, en teoría, podría dar lugar a una entidad equivalente a la NASA o la FAA, capaz de aprender realmente de los errores de la industria.

‡ Si los laboratorios de biotecnología fueran más eficaces evitando fugas, y si la creación de virus hiperletales produjera de alguna manera (p. ej.) medicamentos hipercurativos, entonces quizá tendría sentido continuar la investigación. Que sepamos, la investigación en ganancia de función no ha arrojado tales resultados positivos, y los biólogos tienden a recomendar en contra de ella. Sospechamos que es una de esas raras áreas de investigación de las que la humanidad debería retirarse, porque pone en peligro la vida de muchísimas personas inocentes que no consintieron en que se arriesgaran sus vidas.

Notes

[1] con pocos beneficios: Véase, por ejemplo, este artículo de 2018 o un análisis de riesgos y beneficios mucho más exhaustivo de 2015.

[2] continúa en gran medida sin restricciones: A partir de 2025, Estados Unidos parece inclinarse por dejar de financiar activamente la investigación en ganancia de función con fondos públicos, pero ha habido poca o ninguna coordinación global al respecto. Véase también este informe.

¿Cómo sería posible detener a todos sin instalar software espía en todas las computadoras?

→