Proyecto de un tratado, con anotaciones
Nota aclaratoria
A continuación, ofrecemos un borrador de ejemplo comentado para el tipo de tratado que podrían implementar los principales gobiernos del mundo si reconocieran los peligros de la superinteligencia artificial (SIA) y buscaran impedir que alguien la construyera.1
No nos dedicamos a crear políticas públicas ni somos expertos en derecho internacional. Presentamos esto como un ejemplo ilustrativo de algunas disposiciones convencionales que podría ser valioso tener en cuenta, a través de mecanismos adaptados a la situación específica y basados en precedentes históricos.
Este proyecto abarca muchos mecanismos diferentes que creemos que serían necesarios para evitar que los desarrolladores de IA pongan en grave peligro a la humanidad. En la práctica, esperaríamos que distintos aspectos quedaran cubiertos por tratados diferentes.2 Y, por supuesto, la comunidad internacional debería redactar cuidadosamente el tratado en su totalidad, sujeto a la negociación y revisión de expertos pertinentes.
Para cada artículo del siguiente tratado de ejemplo, hemos incluido una sección de comentarios que explica nuestras decisiones clave y otra que analiza precedentes relevantes.
Un tratado real incluiría muchos detalles. Hemos incluido algunos a modo de ejemplo, pero la mayoría se han relegado a los «anexos» (que no desarrollamos en su totalidad). Muchas de las cantidades y umbrales numéricos que utilizamos en nuestro borrador constituyen nuestra mejor estimación, aunque no deben tomarse más que como simples estimaciones. Muchas de esas cifras requerirían un estudio y una revisión más profundos antes de ser definitivas. Es probable que este tipo de detalles no se incluirían en el tratado propiamente dicho, al igual que, en el caso del Tratado de No Proliferación Nuclear (TNP), los detalles específicos de las inspecciones y los denominados programas de «salvaguardias» se decidieron entre cada país y el Organismo Internacional de Energía Atómica (OIEA), en lugar de incluirse en el propio TNP. Sin embargo, para mayor claridad, hemos mantenido nuestras mejores estimaciones directamente en el borrador del texto del tratado, para ayudar a hacerlo un poco más concreto.
[1] Es posible que los Estados nación preocupados por la superinteligencia artificial prefieran dar primero pasos más pequeños, por ejemplo, pasos que no paralicen todavía la investigación y el desarrollo de la IA, pero que mantengan abierta la opción de paralizar la I+D en IA en el futuro. No recomendamos esa línea de actuación, porque creemos que la situación ya está claramente fuera de control y no confiamos en que vaya a aclararse mucho más antes de que sea demasiado tarde (#habra-disparos-de-advertencia). No obstante, el equipo de gobernanza técnica del MIRI está trabajando en propuestas para esos escenarios, en caso de que sean de utilidad. Se puede seguir su trabajo aquí.
[2] Este es el caso de los acuerdos sobre armas nucleares, en los que distintos tratados establecen el OIEA (1956, por la Conferencia sobre el Estatuto del Organismo Internacional de Energía Atómica, celebrada en la sede de las Naciones Unidas), el TNP (1970, a través de negociaciones en el Comité de las Dieciocho Naciones sobre el Desarme), y los acuerdos de control de armas como el tratado START (1991, tras nueve años de negociaciones intermitentes entre Estados Unidos y la Unión Soviética).
Tratado sobre la Prevención de la Superinteligencia Artificial
Preámbulo
Los Estados que celebran el presente Tratado, en lo sucesivo denominados «las Partes en el Tratado»,
Alarmados por la perspectiva de que el desarrollo de la superinteligencia artificial conduzca a la extinción humana y al fin de toda empresa humana,
Afirmando la necesidad de una acción internacional urgente, coordinada y sostenida para impedir la creación y el despliegue de la superinteligencia artificial bajo las condiciones actuales,
Convencidos de que las medidas para prevenir el avance de las capacidades de la inteligencia artificial reducirán la probabilidad de extinción humana,
Reconociendo que la estabilidad de este Tratado se basa en la capacidad de verificar el cumplimiento de todas las Partes,
Recordando el precedente de los acuerdos previos de control de armamentos y no proliferación para hacer frente a las amenazas a la seguridad mundial,
Comprometiéndose a cooperar para facilitar la verificación de las actividades de inteligencia artificial a nivel mundial cuando estas se mantengan bien alejadas de la superinteligencia artificial, y buscando preservar el acceso a los beneficios de los sistemas de inteligencia artificial, al tiempo que se evitan los peligros,
Han convenido en lo siguiente:
Precedentes
El preámbulo de este tratado se basa en el del TNP,3 que comienza así:
Considerando las devastaciones que una guerra nuclear infligiría a la humanidad entera y la consiguiente necesidad de hacer todo lo posible por evitar el peligro de semejante guerra y de adoptar medidas para salvaguardar la seguridad de los pueblos…
Y añade poco después:
Afirmando el principio de que los beneficios de las aplicaciones pacíficas de la tecnología nuclear, incluidos cualesquiera subproductos tecnológicos que los Estados poseedores de armas nucleares puedan obtener del desarrollo de dispositivos nucleares explosivos, deberán ser asequibles para fines pacíficos a todas las Partes en el Tratado, sean estas Partes Estados poseedores o no poseedores de armas nucleares…
Así, el preámbulo invita al mundo a unirse a las Partes responsables para salvaguardar a la humanidad de la amenaza catastrófica de una tecnología poderosa y a participar de los beneficios que puedan obtenerse de forma segura. Nuestro preámbulo intenta seguir este ejemplo.
Ninguna de las Partes del presente Tratado desarrollará, desplegará ni tratará de desarrollar o desplegar la superinteligencia artificial («SIA») por ningún medio. Cada una de las Partes prohibirá e impedirá todo desarrollo de este tipo dentro de sus fronteras y jurisdicciones y, debido a la incertidumbre en cuanto al momento en que nuevos avances podrían dar lugar a la SIA, no permitirá ni participará en actividades que supongan un avance significativo hacia la SIA, según se describe en el presente Tratado. Cada una de las Partes prestará asistencia a las medidas razonables de otras Partes, o no las obstaculizará, para disuadir e impedir dicho desarrollo por parte de Estados y jurisdicciones que no sean Partes, y dentro de estos. Cada una de las Partes implementará y llevará a cabo todas las demás obligaciones, medidas y disposiciones de verificación establecidas en el presente Tratado.
En los casos en que determinadas clases de infraestructura y capacidades de IA que permanezcan alejadas de la superinteligencia artificial (SIA) puedan considerarse aceptables, pero solo bajo condiciones de supervisión internacional, únicamente las Partes en el Tratado podrán llevar a cabo tales actividades, o poseer u operar chips de IA e instalaciones de fabricación que pudieran conducir al desarrollo de una SIA sin supervisión. Se negará dicho acceso a quienes no sean Parte, por la seguridad de las Partes y de toda la vida en la Tierra (artículo V, artículo VI, artículo VII).
Las Partes se comprometen a un proceso de solución de controversias (artículo XI) con el fin de minimizar las Medidas de Protección innecesarias (artículo XII).
Precedentes
El artículo I del TNP, como en muchos tratados, establece el compromiso de alto nivel que asumirán las Partes; en este caso, no compartir sus armas nucleares ni ayudar a otros a obtenerlas:
Cada Estado poseedor de armas nucleares que sea Parte en el Tratado se compromete a no traspasar a nadie armas nucleares u otros dispositivos nucleares explosivos ni el control sobre tales armas o dispositivos explosivos, sea directa o indirectamente; y a no ayudar, alentar o inducir en forma alguna a ningún Estado no poseedor de armas nucleares a fabricar o adquirir de otra manera armas nucleares u otros dispositivos nucleares explosivos, ni el control sobre tales armas o dispositivos explosivos.
El compromiso resumido en el artículo I de nuestro proyecto es más estricto, ya que no se puede permitir que ocurra ni una sola vez una irrupción de una SIA, por parte de nadie y en ningún lugar.4 No bastará con no «ayudar, alentar o inducir» a otros a construirla. Por lo tanto, hemos incluido el compromiso de «prestará asistencia a las medidas razonables de otras Partes, o no las obstaculizará» de las Partes para disuadir y evitar dicho desarrollo en cualquier lugar.
El TNP tiene por objeto contener una amenaza existente (las armas nucleares), mientras que nuestro proyecto pretende impedir que una amenaza (SIA) llegue a existir. Se puede encontrar un precedente para prevenir el desarrollo de nuevas tecnologías peligrosas en el Protocolo sobre armas láser cegadoras, que forma parte de la Convención sobre ciertas armas convencionales.5 En su artículo I dice lo siguiente:
Queda prohibido emplear armas láser específicamente concebidas, como única o una más de sus funciones de combate, para causar ceguera permanente a la vista no amplificada, es decir, al ojo descubierto o al ojo provisto de dispositivos correctores de la vista. Las Altas Partes Contratantes no transferirán armas de esta índole a ningún Estado ni a ninguna entidad no estatal.
Sin embargo, esa formulación no intenta impedir que nadie, en ningún lugar, pruebe o desarrolle accidentalmente un sistema de ese tipo. Nuestro acuerdo debe ser lo suficientemente sólido como para impedir que se fabrique accidentalmente una SIA. Dado que no está claro dónde podría estar el punto de no retorno, nuestro artículo I incluye el compromiso de «no permitirá ni participará en actividades que supongan un avance significativo hacia la SIA».
A los efectos del presente Tratado:
- Inteligencia artificial (IA) hace referencia a un sistema computacional que realiza tareas que requieren cognición, planificación, aprendizaje o la toma de acciones en los ámbitos físico, social o cibernético. Esto incluye sistemas que realizan tareas en condiciones variables e impredecibles, o que pueden aprender de la experiencia y mejorar su desempeño.
- Superinteligencia artificial (SIA) se define operativamente como cualquier IA con un desempeño cognitivo suficientemente sobrehumano como para planificar y ejecutar con éxito la destrucción de la humanidad.
- A los efectos del presente Tratado, se considerará que el desarrollo de IA que no esté explícitamente autorizado por la AISI (artículo III) y que infrinja los límites descritos en el artículo IV tiene como objetivo la creación de superinteligencia artificial.
- Actividades peligrosas de IA son aquellas actividades que aumentan sustancialmente el riesgo de que se cree una superinteligencia artificial, y no se limitan a la etapa final del desarrollo de una SIA, sino que también incluyen las etapas previas establecidas en el presente tratado. El alcance completo de las actividades peligrosas de IA se detalla en los artículos IV a IX y podrá ser ampliado y modificado mediante la aplicación del Tratado y las actividades de la AISI.
- Operaciones de coma flotante (FLOP) es la medida computacional utilizada para cuantificar la escala de entrenamiento y posentrenamiento, basada en el número de operaciones matemáticas realizadas. Las FLOP se contabilizarán como operaciones equivalentes al formato de coma flotante de media precisión (FP16) o como operaciones totales (en el formato utilizado), lo que sea mayor.
- Ejecución de entrenamiento significa cualquier proceso computacional que optimiza los parámetros de una IA (especificaciones de la propagación de información a través de una red neuronal; por ejemplo, pesos y sesgos) utilizando métodos basados en gradientes u otros métodos de búsqueda/aprendizaje, incluyendo el preentrenamiento, el ajuste fino, el aprendizaje por refuerzo, las búsquedas de hiperparámetros a gran escala que actualizan los parámetros y el autoaprendizaje iterativo o el entrenamiento curricular.
- Preentrenamiento se refiere a la ejecución de entrenamiento mediante la cual se optimizan inicialmente los parámetros de una IA utilizando conjuntos de datos a gran escala para aprender patrones o representaciones generalizables antes de cualquier adaptación específica de una tarea o ámbito. Incluye la optimización supervisada, no supervisada, autosupervisada y por refuerzo cuando se realiza antes de dicha adaptación.
- Posentrenamiento se refiere a una ejecución de entrenamiento realizada después del preentrenamiento de un modelo. Además, cualquier entrenamiento realizado en una IA creada antes de la entrada en vigor del presente Tratado se considera posentrenamiento.
- Chips informáticos avanzados son circuitos integrados fabricados con procesos al menos tan avanzados como el nodo de proceso de 28 nanómetros.
- Chips de IA son circuitos integrados especializados diseñados principalmente para cálculos de IA, incluyendo, de manera enunciativa mas no limitativa, operaciones de entrenamiento e inferencia para modelos de aprendizaje automático [esto tendría que definirse con mayor precisión en un anexo]. Esto incluye GPU, TPU, NPU y otros aceleradores de IA. También puede incluir hardware que no haya sido diseñado originalmente para usos de IA, pero que puede adaptarse para ello de manera eficaz. Los chips de IA son un subconjunto de los chips informáticos avanzados.
- Hardware de IA se refiere a todo el hardware informático para entrenar y ejecutar inteligencias artificiales. Esto incluye chips de IA, así como equipos de red, fuentes de alimentación y equipos de refrigeración.
- Equipos de fabricación de chips de IA se refiere a equipos utilizados para fabricar, probar, ensamblar o empaquetar chips de IA, incluidos, de manera enunciativa mas no limitativa, equipos de litografía, deposición, grabado, metrología, pruebas y encapsulado avanzado [sería necesario definir una lista más completa en un anexo].
- Equivalente a H100 significa la unidad de capacidad de cómputo (FLOP por segundo) equivalente a un acelerador NVIDIA H100 SXM, 990 TFLOP/s en FP16 o un rendimiento de procesamiento total (TPP) de 15 840, donde el TPP se calcula como TPP = 2 × MacTOPS no dispersos × (longitud en bits de la entrada de multiplicación).
- Clúster de chips contemplado (CCC) significa cualquier conjunto de chips de IA o clúster en red con un poder de cómputo efectivo agregado superior a 16 equivalentes a H100. Un clúster en red se refiere a chips que o bien están físicamente coubicados, tienen un ancho de banda agregado entre nodos —definido como la suma del ancho de banda entre distintos hosts/chasis— superior a 25 Gbit/s, o están conectados en red para realizar cargas de trabajo conjuntamente. El poder de cómputo efectivo agregado de 16 chips H100 es de 15 840 TFLOP/s, o 253 440 TPP, y se basa en la suma de TPP por chip. Algunos ejemplos de CCC son: el servidor GB200 NVL72, tres servidores H100 HGX de ocho vías ubicados en el mismo edificio, CloudMatrix 384, un pod con 32 chips TPUv6e y toda supercomputadora.
- Medios técnicos nacionales (MTN) se refiere a satélites, aeronaves, medios cibernéticos, señales, imágenes (incluidas las térmicas) y otras capacidades de teledetección empleadas por las Partes para la verificación de conformidad con el presente Tratado.
- Verificación del uso de chips se refiere a los métodos que proporcionan información sobre las actividades que se ejecutan en determinados chips informáticos, con el fin de diferenciar entre actividades aceptables y prohibidas.
- Métodos utilizados para crear modelos de vanguardia se refiere al amplio conjunto de métodos utilizados en el desarrollo de la IA. Incluye, entre otros, arquitecturas de IA, optimizadores, métodos de tokenización, curación de datos, generación de datos, estrategias de paralelismo, algoritmos de entrenamiento (por ejemplo, algoritmos de aprendizaje por refuerzo) y otros métodos de entrenamiento. Esto incluye el posentrenamiento, pero no incluye métodos que no cambian los parámetros de un modelo entrenado, como el uso de prompts. Es posible que en el futuro se creen nuevos métodos.
Notas
Es probable que la definición de IA que empleamos (adaptada de la Ley de Protección de Denunciantes de IA del senador Chuck Grassley) sea demasiado amplia, y creemos que sería necesario definirla mejor para excluir sistemas informáticos evidentemente seguros, como los correctores ortográficos o los de reconocimiento de imágenes.
En el paradigma actual de desarrollo de la IA, esta definición es probablemente aceptable, dado que el desarrollo de la IA se distingue claramente de la investigación y el desarrollo no relacionados con la IA debido al uso de grandes cantidades de recursos computacionales. Sin embargo, la definición definitiva de IA que se utilice debería abarcar más que los sistemas de aprendizaje profundo o aprendizaje automático. Si bien el aprendizaje automático es el paradigma dominante actual para la IA, el Tratado debería tener en cuenta la posibilidad de que otro paradigma de IA cobre importancia en el futuro; de lo contrario, un Tratado que prohíba únicamente el aprendizaje automático animaría a los investigadores a desarrollar nuevos paradigmas de IA para crear una IA más potente y general, lo cual podría tener consecuencias catastróficas. Si surgiera un paradigma novedoso, especialmente uno que no requiriera tantos chips de IA como el aprendizaje profundo, probablemente sería necesario actualizar el Tratado.
Utilizamos el equivalente a H100 como métrica principal de la capacidad de cómputo. En el artículo V, esta métrica se utiliza para establecer el tamaño del mayor clúster de chips no supervisado permitido (16 equivalentes a H100).6 El artículo IV define los umbrales en términos del total de operaciones utilizadas para entrenar una IA, por lo que, al establecer límites a las operaciones no supervisadas por segundo, resultaría inviable llevar a cabo un entrenamiento ilegalmente grande en hardware no supervisado.
Utilizamos los equivalentes a H100 para tener en cuenta que existen múltiples chips de IA diferentes, pero lo que más nos importa es cuántas operaciones pueden realizar en un periodo de tiempo. Hay otras métricas de chips que son importantes (como la memoria de alto ancho de banda), pero en general creemos que estas importan menos que el número de operaciones por segundo. Los equivalentes a H100 como unidad son una forma relativamente estándar de analizar el poder de cómputo.
La definición de clúster de chips contemplado (CCC) que incluimos es una primera aproximación a cómo definir ese concepto. Lo ideal sería que el límite fuera lo suficientemente alto como para evitar que la gente común infringiera las normas (es decir, un ancho de banda de 25 Gbit/s entre chasis es más rápido que las conexiones a internet fuera de los centros de datos; es muy raro y caro que una persona posea más de 16 equivalentes a H100). También debería ser lo suficientemente bajo como para evitar que se produzcan actividades peligrosas de IA y dificultar la subversión (es decir, dificultar el entrenamiento distribuido entre múltiples conjuntos de chips sub-CCC). Analizamos esta decisión con más detalle en el comentario sobre el artículo V.
Los chips de IA son un subconjunto de chips informáticos avanzados, y no existe una línea clara que distinga los chips de IA de los que no lo son. En lugar de definir y basarnos en una distinción, utilizamos la capacidad de cómputo total (en operaciones por segundo) de un clúster, medida en equivalentes a H100. Si los chips pueden configurarse para entrenar o ejecutar IA y superan el umbral definido, el Tratado exige que sean supervisados.
Nótese que algunos gobiernos pueden haber dejado de utilizar el término Medios Técnicos Nacionales (MTN) como término oficial. Lo utilizamos en este proyecto de tratado al estilo de los acuerdos de control de armas anteriores para facilitar la comparación. |
- Por el presente Tratado, las Partes establecen la Agencia Internacional de Superinteligencia (AISI), para aplicar sus disposiciones, incluidas las relativas a la verificación internacional de su cumplimiento, y para que sirva de foro de consulta y cooperación entre ellas.
- Por el presente Tratado, se establecen los siguientes órganos de la AISI: la Conferencia de las Partes, el Consejo Ejecutivo y la Secretaría Técnica.
- Conferencia de las Partes
- La Conferencia de las Partes se compone de todas las Partes en el Tratado.
- La Conferencia de las Partes determinará la política general; aprobará y supervisará el presupuesto; elegirá a los miembros del Consejo Ejecutivo; examinará las cuestiones de cumplimiento comunicadas por el Consejo Ejecutivo; y aprobará y revisará los anexos por recomendación del Consejo Ejecutivo.
- Se reunirá en sesión ordinaria al menos una vez al año, o con mayor frecuencia si así lo decide la Conferencia, además de las sesiones extraordinarias que se requieran. Cada Parte dispondrá de un voto. El quórum se constituirá con la mayoría de las Partes.
- Consejo Ejecutivo
- El Consejo Ejecutivo estará compuesto por 15 miembros: (i) cinco puestos designados para los miembros permanentes del Consejo de Seguridad de las Naciones Unidas y (ii) diez puestos elegidos distribuidos mediante representación geográfica equitativa. En el anexo A se desarrollan los detalles.
- El mandato de los miembros elegidos será de dos años. Cada año se renovará la mitad de los puestos.
- El Consejo Ejecutivo deberá: aprobar las inspecciones por denuncia, recomendar el presupuesto y las políticas a la Conferencia, nombrar al Director General y supervisar la Secretaría Técnica mediante el derecho de veto.
- Los procesos para tomar decisiones son los siguientes:
- El Consejo Ejecutivo elige al presidente y al vicepresidente.
- El presidente o el vicepresidente pueden presidir la sesión.
- La votación se efectúa según el principio de «un miembro, un voto».
- Las votaciones para aprobar una inspección por denuncia en virtud del artículo X requieren una mayoría de votos.
- Las votaciones para vetar los cambios de la Secretaría Técnica a las definiciones o a los protocolos de salvaguardia requieren una mayoría de dos tercios.
- Las votaciones para destituir o nombrar a un Director General requieren una mayoría de dos tercios.
- Todas las demás decisiones requieren una mayoría de dos tercios.
- Para el quórum se requieren dos tercios del Consejo Ejecutivo.
- Secretaría Técnica y Director General
- El Director General de la Secretaría Técnica será su titular y director administrativo.
- El Director General será nombrado por el Consejo Ejecutivo por un período de cuatro años, renovable una vez. El Consejo Ejecutivo podrá destituir al Director General.
- La Secretaría Técnica contará en su inicio con divisiones técnicas de Seguimiento y Salvaguardias de Fabricación de Chips, Salvaguardias de Verificación del Uso de Chips, Controles de la Investigación, Consolidación de la Información, Revisiones Técnicas, Administración y Finanzas, y Asuntos Jurídicos y de Cumplimiento. El Director General podrá crear y disolver divisiones técnicas.
- La Secretaría Técnica, por conducto del Director General, podrá proponer cambios a las definiciones técnicas y los protocolos de salvaguardia, según sea necesario para aplicar los artículos IV, V, VI, VII, VIII, IX y X del presente Tratado.
- Los cambios urgentes en los umbrales de FLOP (artículo IV), el tamaño de los clústeres de chips contemplados (artículo V) y los límites de la investigación restringida (artículo VIII) podrán ser aplicados inmediatamente por el Director General en caso de que la inacción suponga un riesgo para la seguridad. Dichos cambios permanecerán en vigor durante treinta días. Transcurrido ese plazo, los cambios deberán ser aprobados por el Consejo Ejecutivo para seguir en vigor.
- El Consejo Ejecutivo tomará las decisiones sobre cuestiones de fondo, en la medida de lo posible, por consenso; el Director General se esforzará por que se alcance tal consenso. Si no es posible llegar a un consenso en un plazo de 24 horas, se procederá a una votación, y el Consejo Ejecutivo aceptará los cambios si los aprueba la mayoría de los miembros presentes y votantes; de lo contrario, los rechazará.
- El presupuesto ordinario de la AISI se financia con las aportaciones asignadas a las Partes, utilizando una escala derivada de la escala de cuotas de las Naciones Unidas, sujeta a un mínimo y un máximo establecidos por el Consejo Ejecutivo. Los Estados miembros también tienen la opción de realizar aportaciones voluntarias para la investigación sobre seguridad de la IA en materia de alineación, interpretabilidad y actividades de creación de capacidad de los Estados miembros, incluyendo los usos beneficiosos de una IA segura, el desarrollo de bancos de pruebas, buenas prácticas, el intercambio de información y la facilitación de la cooperación y las actividades conjuntas, siguiendo libremente el modelo de la Red Internacional de Centros de Capacitación y Apoyo en materia de Seguridad Física Nuclear del OIEA.
Notas
Al igual que en otros organismos internacionales, la AISI estaría integrada por diplomáticos y expertos técnicos de los países signatarios. El punto principal del texto anterior es que se otorga a la AISI la autoridad para aplicar la mayor parte de lo que exige el tratado y actualizar algunos aspectos del mismo a lo largo del tiempo. Este enfoque da prioridad a la prevención de la creación de superinteligencia y al mantenimiento de la vigencia del tratado hasta que el mundo esté preparado para seguir adelante. Como tal, este borrador otorgaría a esta organización multinacional la autoridad para llevar a cabo gran parte de lo que se requiere. La AISI centraliza la aplicación de varias funciones clave del tratado, incluyendo el mantenimiento de los límites precisos de la investigación, el desarrollo y el despliegue permitidos de la IA, al ser el verificador principal del cumplimiento del tratado, y la consolidación de la información confidencial de inteligencia de los signatarios. Es fundamental que el funcionamiento cooperativo de la AISI genere la confianza necesaria entre las partes signatarias a lo largo del tiempo.
Dicho esto, este tipo de enfoque conlleva ciertas disyuntivas. La primera es que una mayor centralización requiere más confianza por parte de las naciones signatarias. Los posibles signatarios del tratado podrían no considerar políticamente viable asignar este nivel de autoridad a una organización internacional, o podrían no confiar en que la organización vaya a funcionar con suficiente independencia de la influencia de sus miembros más poderosos.
Un acuerdo alternativo podría centralizar solo aquellas pocas funciones que deban ser centralizadas (como mantener y aclarar los límites a la investigación, el desarrollo y el despliegue de la IA), permitiendo a la vez que cada signatario verifique individualmente el cumplimiento a su entera satisfacción.
Otra disyuntiva surge en cuanto a qué tan inclusivo deba ser dicho tratado. Nuestro texto de ejemplo crearía una organización multilateral en la que se invitaría a todos los Estados a firmar el tratado y a participar en su ejecución. Una alternativa a esto sería un tratado centrado, por ejemplo, solo en China y Estados Unidos. La idea detrás de esto sería construir un régimen de verificación bilateral limitado que satisfaga las necesidades de cada parte, sacrificando la menor cantidad posible de autonomía y transparencia. A cada parte se le asignaría entonces el objetivo separado y posterior de incorporar a otros Estados.
Dado que el objetivo de este tratado es demostrar cómo podrían ser los controles internacionales si los líderes mundiales se dieran cuenta de los graves peligros, ilustramos una estructura multilateral en la que todas las partes tendrían algo que ganar al adherirse al tratado.
Como tal, la estructura propuesta del Consejo Ejecutivo de la AISI incluye a todos los miembros permanentes del Consejo de Seguridad de las Naciones Unidas y toma como modelo la composición del OIEA.
Dada la posición de TSMC como fabricante líder de chips de IA, cualquier tratado sobre IA debe tener en cuenta cómo abordar la cuestión de Taiwán. Hemos optado por utilizar el precedente del TNP con respecto a dicho país. Lo ideal sería que Taiwán implementara acuerdos y/o declaraciones formales que establecieran que se considera vinculado por los principios de este tratado, lo cual significaría su adhesión de facto al mismo. Más importante aún, Taiwán aceptaría un acuerdo que permitiera inspecciones rutinarias y/o por denuncia in situ para garantizar que cumple los principios del tratado.
Todavía no está del todo claro cómo deberían tomar las decisiones el Consejo Ejecutivo y la AISI, ni qué potestades se delegan a los diferentes órganos. En este artículo se presenta una propuesta de estructura que otorga un poder considerable a la Secretaría Técnica, al tiempo que asigna al Consejo Ejecutivo la facultad de supervisión.
Una de las ventajas de este diseño es que permite al órgano técnico tomar decisiones con rapidez y le otorga un amplio mandato para cumplir su misión, aunque cualquier cambio requiere la aprobación de una mayoría simple de los miembros del Consejo Ejecutivo en un plazo de 30 días para que siga vigente. Si bien los líderes mundiales pueden mostrarse reacios a delegar tanto poder en expertos técnicos, es probable que estos tampoco confíen en que los actores geopolíticos resuelvan las espinosas cuestiones técnicas que surgirán al aplicar este tratado y se adapten suficientemente para responder a un panorama técnico cambiante. Este artículo presenta solo una propuesta sobre cómo equilibrar el poder de decisión entre estos grupos, pero hay muchos otros enfoques posibles.
Otro enfoque de este tipo sería desglosar aún más las responsabilidades, las definiciones y los tipos de salvaguardias aplicadas por la AISI (por ejemplo, los umbrales de FLOP de entrenamiento, la definición de CCC, la definición de chip de IA, si una instalación concreta debe considerarse una instalación de producción de chips, los protocolos de verificación del uso de chips, la definición de investigación restringida, etc.) y establecer diferentes procedimientos de votación para estos cambios, en función de su impacto.
Precedentes
La estructura de gobierno tripartita de la Agencia Internacional de Superinteligencia (AISI) propuesta en nuestro proyecto de tratado sigue el modelo de la Organización para la Prohibición de las Armas Químicas (OPAQ),7 el organismo encargado de aplicar la Convención sobre las Armas Químicas (CAQ). Los nombres de estos órganos también se toman de la OPAQ (es posible que un tratado real prefiera otras estructuras y nombres que cumplan las mismas funciones; más adelante ofrecemos precedentes de algunas disposiciones menos centralizadas).
El Consejo Ejecutivo, establecido en virtud de los apartados (a) y (d) de nuestro párrafo 4, emula a la Junta de Gobernadores del TNP. La designación de cinco de los quince puestos del Consejo para los miembros permanentes del Consejo de Seguridad de las Naciones Unidas refleja que los cinco Estados poseedores de armas nucleares originales del TNP coincidían con los cinco miembros permanentes del Consejo de Seguridad de la ONU; sin su participación como socios centrales, es probable que el TNP hubiera fracasado desde el principio.
Nuestra disposición de «diez puestos elegidos distribuidos mediante representación geográfica equitativa» también se hace eco del TNP, que estipula que entre sus gobernadores salientes se incluya «al miembro más avanzado en la tecnología de la energía atómica, incluida la producción de materiales básicos, en cada una de» las ocho regiones especificadas.
Taiwán complica nuestro concepto de tratado, dada su delicada situación geopolítica y su condición de productor de la mayoría de los chips de IA del mundo. Afortunadamente, los precedentes nos sirven de guía: aunque Taiwán no es parte del TNP, ha declarado en múltiples ocasiones que se considera vinculado por los principios del TNP. Taiwán permite al OIEA realizar inspecciones y aplicar salvaguardias a sus instalaciones nucleares mediante un acuerdo trilateral con Estados Unidos y el OIEA. Se podría llegar a un acuerdo similar con respecto a nuestro proyecto de tratado.
Los procesos de toma de decisiones del Consejo Ejecutivo de nuestro proyecto de tratado se han modelado a partir del Reglamento y Procedimientos de la Junta de Gobernadores que utiliza el Organismo Internacional de Energía Atómica (OIEA), la principal organización para la gobernanza internacional de la tecnología nuclear.8 Asimismo, los procedimientos de votación siguen el Estatuto del OIEA.
En otros tratados sobre armas nucleares pueden encontrarse precedentes de mecanismos de aplicación menos centralizados (aunque potencialmente eficaces). El Tratado sobre Fuerzas Nucleares de Rango Intermedio (INF) y los Tratados de Reducción de Armas Estratégicas (START I, START II y Nuevo START) responsabilizan a las partes individuales de la aplicación y verificación; cada una se compromete a seguir procedimientos que permitan a la otra obtener garantías razonables de cumplimiento.
Las «inspecciones por denuncia» del párrafo 4(c) se basan en el mecanismo de la Parte X de la CAQ; desarrollaremos este precedente con más detalle en el artículo X.
- Cada una de las Partes acuerda prohibir el entrenamiento de IA por encima de los siguientes umbrales: cualquier ejecución de entrenamiento superior a 1e24 FLOP o cualquier ejecución posterior al entrenamiento superior a 1e23 FLOP. Cada una de las Partes acuerda no realizar ejecuciones de entrenamiento por encima de estos umbrales y no permitir que ninguna entidad bajo su jurisdicción las realice.
- La Secretaría Técnica podrá modificar estos umbrales, de conformidad con el proceso descrito en el artículo III. El Consejo Ejecutivo podrá vetar dichas decisiones por mayoría de dos tercios.
- Cada una de las Partes notificará a la AISI cualquier ejecución de entrenamiento de entre 1e22 y 1e24 FLOP antes de su inicio. Esto se aplica a las ejecuciones de entrenamiento realizadas por la Parte o cualquier entidad dentro de su jurisdicción.
- Este informe deberá incluir, entre otros datos, todo el código de entrenamiento y una estimación del total de FLOP que se utilizará. La Parte deberá proporcionar al personal de la AISI acceso supervisado a todos los datos, con un registro de acceso adecuado a la sensibilidad de los datos y protecciones contra la duplicación o la divulgación no autorizada. No proporcionar al personal de la AISI acceso suficiente a los datos será motivo para denegar la ejecución del entrenamiento, a discreción de la AISI. La AISI podrá solicitar cualquier documentación adicional relacionada con la ejecución del entrenamiento. La AISI también preaprobará un conjunto de pequeñas modificaciones que podrían realizarse al procedimiento de entrenamiento durante el entrenamiento. Cualquier cambio de este tipo se comunicará a la AISI en el momento de su realización.
- La falta de respuesta de la AISI transcurridos 30 días constituirá la aprobación; no obstante, la AISI podrá prorrogar este plazo si notifica que necesita tiempo adicional para su revisión. Estas prórrogas no tienen límite, pero las Partes podrán recurrir los retrasos excesivos ante el Director o el Consejo Ejecutivo.
- La AISI podrá supervisar dichas ejecuciones de entrenamiento, para lo cual la Parte le proporcionará, previa solicitud, los puntos de control del modelo, incluido el modelo final entrenado [los detalles iniciales de dicha supervisión deberán describirse en un anexo].
- En caso de que la supervisión indique capacidades o comportamientos preocupantes por parte de la IA, la AISI podrá ordenar la pausa de una ejecución de entrenamiento o un tipo de ejecuciones de entrenamiento hasta que considere seguro reanudarlas.
- La AISI mantendrá prácticas de seguridad robustas. La AISI no compartirá información sobre las ejecuciones de entrenamiento declaradas a menos que determine que el entrenamiento declarado viola el Tratado, en cuyo caso proporcionará a todas las Partes en el Tratado información suficiente para determinar si se ha producido una violación.
- En caso de que una Parte descubra una ejecución de entrenamiento que supere los umbrales designados, deberá notificarla a la AISI y detenerla (si está en curso). Dicha ejecución solo podrá reanudarse con la aprobación de la AISI.
- Cada una de las Partes, y las entidades bajo su jurisdicción, podrán realizar ejecuciones de entrenamiento de menos de 1e22 FLOP sin la supervisión o aprobación de la AISI.
- La AISI podrá autorizar, por mayoría de dos tercios del Consejo Ejecutivo, excepciones específicas para actividades como evaluaciones de seguridad, vehículos autónomos, tecnología médica y otras actividades que el Director General considere seguras. Estas excepciones podrán permitir ejecuciones de entrenamiento superiores a 1e24 FLOP con la supervisión de la AISI, o una presunción de aprobación por parte de la AISI para ejecuciones de entrenamiento de entre 1e22 y 1e24 FLOP.
Notas
Una de las principales formas de mejorar las IA actuales es aumentar los recursos computacionales dedicados al entrenamiento de la IA. Restringir estos recursos y limitar la investigación sobre el progreso algorítmico (descrita en el artículo VIII) puede reducir el riesgo de que se construya una IA más inteligente que los humanos a corto plazo.
La prohibición se basa en el número de operaciones computacionales utilizadas, ya que esto es relativamente fácil de definir y medir, y el rendimiento de los modelos de IA de última generación existentes nos proporciona algunos datos sobre las cantidades de hardware de computación que parecen seguras utilizando los algoritmos actuales.
En un mundo perfecto, limitaríamos el entrenamiento en función de las capacidades del sistema entrenado. Pero nadie tiene la capacidad técnica para predecir con certeza lo que una nueva IA será capaz de hacer o no hacer antes de que sea entrenada. Por lo tanto, los recursos computacionales se utilizan como sustituto.
La prohibición estricta de 1e24 FLOP para el entrenamiento está ligeramente por debajo de la cantidad de recursos computacionales utilizada para modelos cercanos al estado del arte en agosto de 2025, como DeepSeek-V3 con 3e24 FLOP. Elegimos este umbral porque está por debajo del nivel en el que esperamos que las IA sean peligrosas (dados los algoritmos actuales) y porque proporciona cierto margen de maniobra si se produce un progreso algorítmico moderado.
La prohibición del posentrenamiento por encima de 1e23 FLOP se aplica a las IA creadas antes de la entrada en vigor del tratado. Muchas de estas IA se habrán creado utilizando más de 1e24 FLOP (a mediados de 2025 hay entre 50 y 100 modelos de este tipo). Dado que los pesos de muchas de estas IA se habrán publicado abiertamente, no es factible impedir que la gente las utilice, pero sí se puede impedir que se les realicen grandes modificaciones mediante el posentrenamiento.
Una ejecución de entrenamiento de 1e22 FLOP en 16 H100 duraría alrededor de una semana. Esto requiere tanto poder de cómputo que los aficionados no superarán accidentalmente el umbral al entrenar modelos pequeños y permitidos. Las IA entrenadas a esta escala (con los algoritmos actuales) hasta ahora han parecido estar lejos de ser peligrosas. El progreso de la investigación en algoritmos de IA, si no se impide su realización y difusión, podría situar a la humanidad en un régimen aún más peligroso, lo que requeriría prohibiciones dirigidas a actividades que actualmente podrían llevar a cabo pequeños grupos decididos y dispuestos a realizar gastos sustanciales.
Dentro de la banda de 1e22-1e24 FLOP, la AISI recibiría por adelantado el código de entrenamiento y las estimaciones totales de FLOP. Esto le permitiría aprobar la ejecución de entrenamiento si no utiliza ningún método algorítmico novedoso.
El entrenamiento de una IA suele implicar pequeñas correcciones de errores sobre la marcha (como instalar la versión correcta de una librería o reordenar los datos de entrenamiento). La AISI puede preaprobar un conjunto de pequeñas modificaciones a una ejecución de entrenamiento que no requeriría una nueva aprobación. Aun así, estas modificaciones se seguirían comunicando a la AISI.
La obligación de informar y supervisar las ejecuciones de entrenamiento de entre 1e22 y 1e24 FLOP permitiría obtener algunos de los beneficios de entrenar IA de una manera que, por el momento, parece segura, al tiempo que evitaría la construcción de IA más grandes y potencialmente peligrosas.
La supervisión también permitiría a la AISI mantenerse (en cierta medida) al día de cualquier avance algorítmico que se produzca a pesar de las prohibiciones, y el artículo XIII estipula que la AISI realice evaluaciones de los modelos entrenados en este rango. Esto ayudará a la AISI a estar al tanto de las tendencias en el desarrollo de la IA, lo que, con suerte, le permitirá ajustar a la baja los umbrales de FLOP en caso necesario.
La supervisión de las ejecuciones de entrenamiento por parte de la AISI es factible y exigible gracias a la consolidación de chips (artículo V) y a la verificación del uso de chips (artículo VII). La consolidación de chips significa que la AISI tendrá acceso al hardware utilizado para las ejecuciones de entrenamiento a gran escala. La verificación del uso de chips permitirá a la AISI tener cierta confianza en que los chips solo se utilizan para entrenar IA con autorización.
El personal de la AISI tiene acceso a los datos de entrenamiento utilizados en las ejecuciones de entrenamiento supervisadas, sujeto a diversas restricciones. El propósito de dichas restricciones es garantizar el uso de registros y otros métodos de control para impedir la divulgación no autorizada del contenido sensible en los datos de entrenamiento, incluyendo, entre otros, información de identificación personal, información sanitaria personal, datos clasificados, secretos comerciales, datos bancarios sujetos a leyes de secreto bancario, etc.
Precedentes
Si bien los valores numéricos de los umbrales especificados en nuestro acuerdo pueden y deben revisarse cuando se supere la fase inicial del borrador, los límites cuantitativos son habituales en los acuerdos internacionales, lo que evita controversias que, de otro modo, dependerían de interpretaciones divergentes del lenguaje cualitativo.
El [Tratado de Prohibición de Pruebas de Umbral] de 1974 (https://2009-2017.state.gov/t/isn/5204.htm) estableció un límite de 150 kilotones para las pruebas nucleares subterráneas realizadas por Estados Unidos y la URSS.9 El objetivo y el efecto de este tratado era, al menos en cierta medida, obstaculizar el desarrollo de ojivas nucleares más grandes y destructivas, capaces de arrasar ciudades enteras. Un paralelismo relevante con el desarrollo de la IA es que, a mediados de 2025, los modelos más generales y capaces —y, por lo tanto, más peligrosos— requieren ejecuciones de entrenamiento de mayor escala para su creación; nuestro tratado especifica límites destinados a impedir que se desarrollen intencionadamente tales IA, pero también a cosechar el beneficio esencial (aunque no paralelo) de reducir el riesgo de que se supere accidental e irremediablemente un umbral de capacidades imprevisto.
El límite de entrenamiento que hemos sugerido como punto de partida es lo suficientemente bajo como para que algunos modelos de IA entrenados hoy en día lo superen; consideramos que esto es prudente en previsión de los avances que harán que los nuevos modelos sean más capaces por unidad de entrenamiento (discutido en el artículo VIII). Los acuerdos de reducción de armas sientan un precedente para los umbrales establecidos por debajo del nivel máximo actual. El Tratado (Naval) de Washington de 1922 estableció límites de desplazamiento para los buques de guerra que obligaron a Estados Unidos y a otras potencias navales a desguazar docenas de buques capitales. En el artículo II del tratado START de 1991,10 Estados Unidos y la Unión Soviética (y más tarde, la Federación Rusa) acordaron limitar el tamaño de sus arsenales nucleares y sus sistemas de lanzamiento, lo que les obligó a eliminar gradualmente más de cuatro mil ojivas cada uno.
El precedente de establecer umbrales cuantitativos para limitar el potencial de irrupción se analizará en el artículo V.
- Cada una de las Partes velará por que, dentro de su jurisdicción, todos los clústeres de chips contemplados (CCC), tal y como se definen en el artículo II (es decir, un conjunto de chips con una capacidad superior a 16 equivalentes a H100) [nótese que el costo de 16 H100 asciende a unos 500 000 dólares en 2025 y que rara vez son propiedad de particulares], se encuentren en instalaciones declaradas a la AISI y que estos chips de IA estén sujetos a la supervisión de la misma.
- Las partes procurarán no ubicar los chips de IA junto con hardware informático no auxiliar y ajeno a la IA en tales instalaciones declaradas.
- Estas instalaciones deberán ser accesibles para su inspección física. Esto puede incluir, por ejemplo, que los equipos de verificación puedan llegar a cualquier CCC desde al menos un aeropuerto con servicio internacional regular en un plazo de 12 horas.
- Las Partes no alojarán chips de IA en tantas ubicaciones diferentes que a la AISI le resulte inviable supervisarlas todas. Si la AISI lo solicita, las Partes deberán consolidar sus chips de IA en menos instalaciones supervisadas.
- Los chips de IA no supervisados que no formen parte de un CCC (es decir, que tengan una capacidad inferior a 16 equivalentes a H100) podrán permanecer fuera de las instalaciones declaradas a la AISI, siempre que dichas existencias no sean agregadas ni se conecten en red para cumplir la definición de CCC, no se roten entre sitios para eludir la supervisión y no se utilicen para entrenamiento prohibido. Las Partes harán esfuerzos razonables para supervisar la venta y la agregación de chips de IA a fin de garantizar que se detecten y supervisen los CCC de nueva creación.
- En un plazo de 120 días contados a partir de la entrada en vigor del Tratado, cada una de las Partes deberá localizar, inventariar y consolidar todos los CCC en instalaciones declaradas a la AISI. Las Partes se abstendrán de desagregar, ocultar o reasignar chips para eludir este requisito o para que un conjunto de chips que se habría clasificado como CCC deje de clasificarse como tal.
- La AISI supervisará el proceso de consolidación nacional, entre otras cosas, mediante inspecciones in situ, verificación de documentos e inventarios, acompañamiento de las autoridades nacionales durante las transferencias y las inspecciones, e intercambio de información con las Partes en virtud del artículo X. La AISI podrá exigir registros de la cadena de custodia para las transferencias y podrá realizar inspecciones por denuncia, tal como se describe en el artículo X. Las Partes proporcionarán acceso oportuno a las instalaciones, los centros de transporte y los registros pertinentes. Las protecciones e incentivos para los denunciantes previstos en el artículo X se aplicarán al proceso de consolidación, y la AISI mantendrá canales de denuncia protegidos.
- En un plazo de 120 días contados a partir de la entrada en vigor del Tratado, las Partes deberán presentar a la AISI un registro de sus CCC. El registro deberá incluir la ubicación, el tipo, la cantidad, los identificadores de serie u otros identificadores únicos, cuando estén disponibles, y las interconexiones asociadas de todos los chips de IA de los CCC. Cada una de las Partes deberá proporcionar a la AISI un registro actualizado y preciso a más tardar cada 90 días.
- Las Partes deberán notificar a la AISI cualquier transferencia prevista de chips de IA, ya sea nacional o internacional, con un mínimo de 14 días de antelación a la fecha prevista para la transferencia. No se procederá con ninguna transferencia a menos que se conceda a la AISI la oportunidad de observarla. En el caso de las transferencias internacionales, tanto la Parte emisora como la receptora deberán coordinarse con la AISI en cuanto a la ruta, la custodia y la recepción. Las transferencias de emergencia realizadas por motivos de seguridad se notificarán tan pronto como sea posible, con una verificación a posteriori.
- Los chips de IA rotos, defectuosos, sobrantes o fuera de servicio seguirán siendo tratados como chips funcionales hasta que la AISI certifique su destrucción. Las partes no destruirán chips de IA sin la supervisión de la AISI. La destrucción o la inutilización permanente se llevarán a cabo bajo la supervisión de la AISI, utilizando métodos aprobados por esta, y se registrarán en un certificado de destrucción [los detalles deberán explicarse en un anexo]. Se prohíbe la recuperación o la reventa de componentes de dicho hardware, salvo que la AISI lo autorice expresamente.
Notas
Analizaremos el objetivo que persigue este artículo, por qué creemos que es importante, por qué creemos que es factible, por qué se ha elegido el límite de 16 H100 y diversas consideraciones adicionales.
A qué apunta el artículo V
El objetivo de este artículo es centralizar, en instalaciones supervisadas, todos los clústeres de chips de IA (es decir, conjuntos de chips interconectados que superen un tamaño pequeño) y la gran mayoría de los chips de IA.
Una vez que los chips se hayan centralizado en instalaciones supervisadas, la AISI podrá adoptar muchos más enfoques para garantizar que dichos chips no se utilicen para infringir el artículo IV; estos enfoques se analizan en el artículo VII.
Es deseable contar con una verificación internacional de este proceso de centralización, para que todas las partes confíen en que las demás también han centralizado sus chips. Es probable que este tipo de verificación pueda realizarse sin mucho esfuerzo en los grandes centros de datos de IA, puesto que es probable que las agencias de inteligencia ya sepan dónde se encuentran. Para los centros de datos más pequeños, la AISI puede supervisar los procesos de centralización nacionales como medida de fomento de la confianza.
El artículo, en efecto, tiene una excepción para un número reducido de chips: menos de 16 equivalentes a H100. Esta cantidad de chips es tan pequeña que es poco probable que los chips no supervisados supongan una amenaza (a falta de avances en la investigación). Los umbrales más bajos serían más difíciles de controlar con éxito y podrían empezar a imponer costos a una población más amplia. (Varias personas tienen un puñado de GPU en su casa, pero pocas tienen 16 equivalentes a H100).
Por qué existe el artículo V
La centralización de los chips es útil porque abre otras vías para controlar el desarrollo de la IA mediante los chips.
Por ejemplo, la centralización de los chips en instalaciones declaradas significa que posteriormente podrían ser objeto de una mayor supervisión sobre cómo se utilizan (artículo VII) o de una verificación de que están apagados.
La centralización de los chips en instalaciones declaradas también facilitaría a las partes destruir dichos chips, como podría ser necesario en virtud del artículo XII, en caso de que una de las partes infringiera el tratado de forma continua.
Debido al potencial de destrucción de los CCC, sería conveniente construirlos lejos de los centros de población siempre que sea posible. Esto no se incluye en el texto del artículo porque presenta problemas de viabilidad (los centros de datos actuales suelen estar cerca de las ciudades, por lo que sería necesario construir nuevos), porque en casos extremos es probable que puedan cerrarse sin mayores daños colaterales y porque no es un elemento fundamental para el tratado. No obstante, debido a su enorme potencial de peligro, parece apropiado tratar los centros de datos de IA como instalaciones militares.
Verificación
Una parte fundamental para el éxito de un tratado sobre IA es la verificación. Los países no confiarán en que los demás cumplan las normas, sino que querrán comprobarlo por sí mismos. La centralización de los chips de IA en instalaciones declaradas deberá confirmarse mediante inspecciones de la AISI y la supervisión de este proceso. De lo contrario, los países no tendrán la confianza suficiente en que los demás hayan centralizado con éxito sus chips.
La centralización de los chips de IA podría no ser necesaria si existieran otras formas de supervisarlos. Lamentablemente, creemos que esta es la única opción viable en la actualidad, salvo por la destrucción física de todas las reservas de chips de IA, dadas las capacidades de los mecanismos de seguridad disponibles en los chips actuales.
En el futuro, podrían desarrollarse mecanismos de gobernanza habilitados por hardware para permitir la gobernanza remota de los chips de IA, de modo que no sea necesario centralizarlos en ubicaciones declaradas. Aarne et al. (2024) proporcionan estimaciones sobre el tiempo de implementación de algunos de estos mecanismos de gobernanza en los propios chips. Sus estimaciones abarcan el plazo para desarrollar mecanismos que sean robustos frente a diferentes adversarios. Por motivos de concisión, utilizaremos sus estimaciones para la seguridad en un contexto antagónico encubierto, ya que creemos que esto se ajusta a la situación que se pretende abordar: que los actores estatales competentes podrían intentar vulnerar los mecanismos de gobernanza, pero habría graves consecuencias si se detectara tal subversión. Estiman un tiempo de desarrollo de entre 2 y 5 años para las soluciones ideales, con opciones menos seguras pero potencialmente viables disponibles en tan solo unos meses.
Aunque ese informe tiene más de un año, no tenemos constancia de avances significativos en estos mecanismos, y creemos que la estimación más relevante de Aarne et al. es la de dos a cinco años adicionales.
Más allá de desarrollar los mecanismos, es necesario o bien añadir mecanismos de gobernanza en chip a los nuevos chips y que estos se integren en el parque de chips existente, o bien adaptar los mecanismos a los chips ya existentes. Aarne et al. estiman que la primera de estas opciones podría llevar cuatro años, pero somos optimistas en que la adaptación podría realizarse en uno o dos años si ya se está realizando un seguimiento de los chips.
Para que quede claro, la centralización a la que se refiere el artículo V implica la concentración física y la supervisión (en el artículo VII) de los clústeres de chips contemplados, pero no exige que los gobiernos se hagan con la propiedad de los chips. En el caso de los grandes centros de datos, el tratado permite que estos y sus chips permanezcan en el mismo lugar y sigan siendo propiedad de las empresas, siempre que sean monitoreados y supervisados por el gobierno nacional y la AISI para garantizar que los centros de datos solo se dedican a actividades no relacionadas con la IA o a actividades como la ejecución de modelos antiguos, en lugar de crear nuevos modelos de IA más capaces. En el caso de un número menor de chips, puede ser necesario trasladarlos físicamente a un centro de datos más grande, pero el propietario de los chips podría seguir accediendo a ellos de forma remota, de manera análoga a algunos modelos informáticos en la nube. Como alternativa, los chips podrían transferirse a la propiedad del gobierno a cambio de una compensación justa.
Viabilidad
Probablemente sea factible recopilar (y verificar internacionalmente la recopilación de) la mayoría de los chips de IA. En el caso de los centros de datos de IA más grandes, como los que tienen más de 100 000 equivalentes a H100, la verificación internacional parece relativamente sencilla; estos centros de datos son difíciles de ocultar y es probable que los servicios de inteligencia ya sepan dónde se encuentran. (No esperamos que para mediados de 2025 se haya hecho algún intento de ocultar estos centros de datos). Estos centros de datos son detectables por su huella física y su consumo de energía, y muchos de ellos han sido reportados públicamente.
Es plausible que estos métodos también permitan localizar centros de datos tan pequeños como de unos 10 000 equivalentes a H100. Aparte de los MTN y los servicios de inteligencia de las partes, el plan propuesto para centralizar los chips implica que las autoridades nacionales utilicen diversas facultades para ello y permitan que la AISI inspeccione el proceso, a fin de evitar la exclusión de centros de datos.
Los Estados dispondrán de una serie de herramientas para localizar los chips que se encuentran en su territorio. Pueden exigir legalmente que se notifiquen todos los clústeres de chips de más de 16 H100; pueden utilizar los registros de ventas y otra información financiera de los distribuidores de chips; pueden entrevistar a técnicos con experticia en la construcción de centros de datos; etcétera. Si sospechan que hay contrabando o que se están ocultando chips, pueden recurrir a las fuerzas del orden para que investiguen más a fondo. Este proceso de centralización nacional sería supervisado por inspectores de la AISI para garantizar que se lleva a cabo correctamente.
La localización de centros de datos existentes podría hacerse rápidamente —en cuestión de días o semanas para clústeres de más de 1000 equivalentes a H100—, utilizando los métodos descritos.
En realidad, la centralización de los chips podría llevar más tiempo, ya que podría ser necesario ampliar la capacidad de los centros de datos en las instalaciones que se convertirían en CCC. No está claro cuánto tiempo llevaría, ni si sería factible en algunos países, localizar todos los clústeres de, por ejemplo, 100 H100. Esta cantidad de chips estaría prohibida, pero esta prohibición podría ser difícil de hacer cumplir.
Uno de los mayores problemas de viabilidad de la centralización de los clústeres de chips es lograr que otros países confíen justificadamente en que ninguna de las partes está llevando a cabo un proyecto secreto de IA con chips no declarados. La verificación internacional de la centralización nacional de chips podría ayudar, pero puede que no sea suficiente, ya que los esfuerzos de centralización nacional podrían ser deliberadamente no exhaustivos.
Las restricciones impuestas por este artículo contribuyen en gran medida a ofrecer garantías a las partes contra proyectos secretos de IA respaldados por gobiernos que operen en otros países. Además de la supervisión del proceso de centralización nacional por parte de la AISI, las labores de inteligencia y las inspecciones por denuncia descritas en el artículo X podrían ser de gran ayuda.
¿Por qué la definición de CCC?
Este artículo y la definición correspondiente de CCC establecen un límite de 16 equivalentes a H100. Este umbral pretende cumplir varios criterios:
- La supervisión de clústeres de chips de más de 16 H100 funciona bien con los umbrales de FLOP de entrenamiento del artículo IV. El entrenamiento con 16 H100 (precisión FP8, utilización del 50 %; parámetros realistas pero optimistas) tardaría 7,3 días en llegar a 1022 FLOP y 2 años en llegar a 1024 FLOP. Por lo tanto, sería factible que las personas utilizaran chips no declarados para alcanzar el umbral mínimo, pero sería algo poco práctico que alcanzaran el umbral de entrenamiento prohibido.
- Es verosímil que este umbral sea suficiente para impedir el avance de las capacidades de la IA, si se combina con las prohibiciones a la investigación en IA del artículo VIII. El artículo IV establece restricciones al entrenamiento: se prohíbe el entrenamiento a gran escala y se permite el entrenamiento a escala media, aunque sujeto a supervisión. Probablemente sea aceptable —es decir, que plantea un riesgo mínimo— permitir el entrenamiento a pequeña escala, como el que se puede realizar con 16 H100 en un plazo realista.
- Este umbral tiene consecuencias limitadas para los aficionados y la gente común. Muy pocas personas poseen más de 16 H100. A mediados de 2025, 16 chips H100 cuestan alrededor de 500 000 dólares; no son un artículo de consumo habitual. Nadie va a superar el umbral por error por tener unas cuantas consolas de videojuegos antiguas abandonadas en casa.
- Reunir chips de IA se vuelve más difícil a medida que disminuye el número de chips permitidos. Encontrar centros de datos con 100 000 chips es fácil; con 10 000, probablemente también sea relativamente fácil; con 1 000, no está claro; y con 100, puede ser bastante difícil. Este umbral se elige en parte por la inviabilidad de hacer cumplir un umbral más bajo; incluso 16 H100 podrían ser un umbral difícil de hacer cumplir.
- Es posible que haya que revisar esta definición y bajar el umbral (por ejemplo, a 8 equivalentes a H100). En este tratado, la AISI se encargaría de evaluar esta definición y modificarla según fuera necesario.
Otras consideraciones
Este artículo pide a las partes que intenten no ubicar chips de IA junto con chips no auxiliares y ajenos a la IA. Se sugiere esto porque la coubicación podría dificultar la verificación del uso de los chips (artículo VII) y requeriría que estos chips que no son de IA también estuvieran sujetos a cierta supervisión para implementar eficazmente la verificación del uso de los chips de IA. Sin embargo, no es estrictamente necesario y puede que no sea deseable. Por ejemplo, en la actualidad los chips de IA suelen coubicarse con chips que no son de IA, y el inconveniente de cambiar esto podría superar al de supervisar también los chips que no son de IA.
En consonancia con acuerdos anteriores, este artículo exige que los inspectores puedan acceder rápidamente a los CCC para su verificación. En este caso, es probable que se supervisen continuamente muchas de estas instalaciones (artículo VII), y el acceso a los aeropuertos podría ser beneficioso.
Existe cierto riesgo de que ciudadanos particulares puedan construir un CCC no supervisado a partir de chips «sueltos» equivalentes a H100. Para combatir esto, el tratado establece que las Partes harán «esfuerzos razonables» para supervisar las ventas de chips (que superen el equivalente a 1 H100) y detectar la formación de nuevos CCC. Se podrían adoptar medidas más estrictas, como exigir que todos esos chips y ventas se registren y rastreen formalmente. Nuestro borrador no llega a ese extremo, tanto porque no esperamos que haya tantos chips «sueltos» equivalentes a H100 sin contabilizar después de que se cataloguen todos los chips de los CCC, como porque otros mecanismos (como la protección de los denunciantes) ayudan a detectar los CCC de nueva creación.
Alternativas
En lugar de exigir inmediatamente la centralización de los pequeños clústeres (por ejemplo, de 100 H100), el tratado podría aplicar un enfoque por etapas. Por ejemplo, durante los primeros 10 días deberían centralizarse y declararse todos los centros de datos con más de 100 000 chips equivalentes a H100; en los 30 días siguientes, aquellos con más de 10 000, y así sucesivamente.
Este enfoque por etapas podría corresponder mejor a la verificabilidad internacional de la detección de estos clústeres a medida que los servicios de inteligencia intensifican sus esfuerzos de detección. Es decir: al principio, es probable que los servicios de inteligencia sepan dónde se encuentran los centros de datos más grandes, pero no los de tamaño medio (si no los habían buscado previamente). Por lo tanto, al principio solo se declararían los centros de datos grandes y, a medida que los servicios de inteligencia continúan tratando de localizar los chips, el umbral bajaría.
Este enfoque podría ajustarse mejor a la forma en que la verificabilidad y la exigibilidad han influido en lo acordado en anteriores acuerdos internacionales. Por ejemplo, el Tratado de Prohibición Parcial de Ensayos Nucleares de 1963 no prohibió los ensayos subterráneos de armas nucleares, debido a la dificultad de detectar dichos ensayos. El equipo de gobernanza técnica de MIRI tiene previsto publicar un informe con un enfoque por etapas como este.
Una desventaja del enfoque por etapas es que podría facilitar que los Estados oculten chips y establezcan centros de datos secretos.
Precedentes
La declaración de los activos pertinentes suele ser un primer paso en los tratados restrictivos. Los signatarios del Tratado Naval de Washington de 1922 proporcionaron inventarios de buques capitales y su tonelaje, y se comprometieron a notificarse mutuamente la sustitución de estos buques. El tratado START I de 1991 incluía un acuerdo clasificado sobre el intercambio de coordenadas y diagramas de emplazamientos (en el artículo VIII), que detallaba el intercambio de datos sobre la ubicación de todas las armas estratégicas declaradas. El párrafo 3 del artículo V de nuestro proyecto exige que las partes localicen, inventaríen y consoliden los clústeres de chips contemplados en un plazo de 120 días.
La consolidación de activos para facilitar la verificación del cumplimiento suele ser otro paso en los tratados restrictivos. El artículo III del START I prohibía que los misiles balísticos intercontinentales se ubicaran junto a instalaciones de lanzamiento espacial, lo que facilitaba la vigilancia. El párrafo 1.1 de nuestro artículo V compromete a las partes a «no ubicar los chips de IA junto con hardware informático no auxiliar y ajeno a la IA» por la misma razón.
La historia demuestra que la consolidación también limita el potencial de ruptura, al facilitar el ataque a las concentraciones de activos problemáticos en caso de una crisis de confianza. En el PAIC de 201611 (también conocido como el acuerdo nuclear con Irán), Irán acordó mantener sus centrifugadoras de enriquecimiento de uranio operativas en solo dos emplazamientos designados (Natanz y Fordow), los cuales fueron atacados en operaciones de Israel y Estados Unidos en junio de 2025. Esto motiva una nota que acompaña a nuestro artículo V en la que sugerimos a las partes que ubiquen sus clústeres de chips contemplados (CCC) lejos de los centros de población.
La supervisión y las inspecciones son componentes comunes de los tratados anteriores en contextos de confianza limitada; por consiguiente, hemos redactado disposiciones al respecto cuando ha sido apropiado, en los párrafos 1, 4, 6 y 7 de este artículo. Algunos precedentes específicos son:
- La verificación del START I incluyó cientos de inspecciones in situ en los primeros años.
- La CAQ exige la declaración e inspección de todas las instalaciones de producción de armas químicas —se han declarado 97— y la mayoría de ellas han sido destruidas de forma verificable. (Al exigir la declaración de las instalaciones existentes, estos acuerdos también prohíben que se realicen determinadas actividades fuera de las instalaciones declaradas, de forma análoga a la prohibición de este artículo sobre los CCC no supervisados).
- Más de 700 instalaciones nucleares declaradas en todo el mundo son supervisadas por el OIEA como parte del TNP.
Al igual que en el párrafo 3 de este artículo, numerosos acuerdos de control de armamentos estipulan que las partes no deben interferir con los MTN de las demás en el contexto de la verificación de los tratados. Entre ellos se encuentran SALT I,12 el ABM,13 el INF,14 y el START I.
Como precedente de Estados parte que restringen las industrias de su sector privado para cumplir los compromisos de un tratado (como tendría que ocurrir con la IA), está la legislación que adoptó Estados Unidos tras ratificar la CAQ: la Ley de aplicación de la Convención sobre las Armas Químicas de 1998 y la normativa del Departamento de Comercio garantizaron su cumplimiento por parte de las entidades estadounidenses. Del mismo modo, el Congreso de Estados Unidos modificó la Ley de Aire Limpio tras la ratificación del Protocolo de Montreal para prohibir las sustancias que agotan la capa de ozono.
Las estrategias para implementar la centralización de chips en Estados Unidos podrían recurrir a la Cláusula de Expropiación de la Quinta Enmienda, según la cual el gobierno puede ejercer su poder de expropiación forzosa para adquirir propiedad privada con fines públicos, a cambio de una indemnización adecuada. |
- La AISI supervisará las instalaciones de producción de chips de IA y los datos de entrada clave para su producción. Esta supervisión garantizará que todos los chips de IA recién producidos reciban seguimiento y supervisión de inmediato hasta su instalación en los CCC declarados y que no se establezcan cadenas de suministro sin supervisión.
- La AISI supervisará las instalaciones de producción de chips de IA que se determine que producen o podrían producir chips de IA y hardware relevante [las definiciones precisas de «instalaciones de producción de chips de IA», «chips de IA» y «hardware relevante» tendrían que detallarse en un anexo, al igual que los métodos de supervisión].
- La supervisión de los chips de IA recién producidos incluirá la supervisión de su producción, venta, transferencia e instalación. La supervisión de la producción de chips iniciará con la fabricación. El conjunto completo de actividades incluye la fabricación de memoria de alto ancho de banda (HBM), la fabricación de chips lógicos, las pruebas, el encapsulado y el ensamblaje [este conjunto de actividades tendría que especificarse en un anexo].
- En las instalaciones donde el seguimiento y la supervisión de la AISI no sean factibles o no se hayan implementado, se detendrá la producción de chips de IA. La producción de chips de IA podrá continuar cuando la AISI declare que se han implementado medidas de seguimiento y supervisión aceptables.
- En caso de que una instalación de producción de chips supervisada se desmantele o se reutilice, la AISI supervisará ese proceso y, si se lleva a cabo a satisfacción de esta, finalizará el requisito de supervisión.
- Ninguna de las Partes venderá ni transferirá chips de IA ni equipos de fabricación de chips de IA, salvo con la autorización y el seguimiento de la AISI.
- La venta o transferencia de chips de IA dentro o entre las Partes en el Tratado se presumirá aprobada, y la AISI se encargará de darle seguimiento.
- La venta o transferencia de equipos de fabricación de chips de IA entre las Partes en el Tratado no tendrá presunción de aprobación. La aprobación de dicha transferencia se basará en una evaluación del riesgo de desvío o de retirada del Tratado por parte de la Parte receptora.
- La venta o transferencia de chips de IA y equipos de fabricación de chips de IA a Estados no Partes o entidades fuera de un Estado Parte tendrá una presunción de denegación.
- Ninguna de las Partes venderá ni transferirá chips informáticos avanzados que no sean de IA ni equipos de fabricación de chips informáticos avanzados que no sean de IA a Estados no Parte ni a entidades fuera de un Estado Parte, salvo que la AISI lo autorice y le dé seguimiento.
- La venta o transferencia de chips informáticos avanzados que no sean de IA, o de equipos para su fabricación, dentro de las Partes en el Tratado o entre ellas no está restringida en virtud del presente artículo.
Notas
La cadena de suministro de chips de IA es reducida y especializada, por lo que es factible supervisar la producción de chips. La gran mayoría de los chips de IA los diseña NVIDIA. Los chips lógicos más avanzados (el procesador principal) que se utilizan en los chips de IA los fabrica casi en su totalidad TSMC, que representa alrededor del 90 % de la cuota de mercado. La mayoría de los chips de IA se fabrican en versiones del nodo de proceso de cinco nanómetros de TSMC, un nodo que probablemente solo admiten dos o tres plantas de fabricación. Las máquinas de litografía EUV, un componente crítico en la fabricación de chips lógicos avanzados, las fabrica exclusivamente ASML. La memoria de alto ancho de banda (HBM), otro componente clave de los chips de IA, está dominada por dos o tres empresas. Esta cadena de suministro tan limitada sería relativamente fácil de supervisar si existiera la voluntad de hacerlo.
La supervisión de la producción de chips de IA tendría efectos de desbordamiento relativamente pequeños. Aunque para producir chips de IA se utilizan algunos de los mismos procesos que para otros chips (por ejemplo, los chips de los teléfonos inteligentes), los chips en sí son distintos y podrían diferenciarse mediante la supervisión. El diseño de los chips cambiaría con el tiempo, pero, hoy por hoy, los chips de IA actuales probablemente serían identificables por su gran capacidad de HBM, sus componentes especializados de multiplicación matricial y su capacidad de escalamiento horizontal e interconexión.
Las investigaciones futuras deberían centrarse en identificar las partes principales de la cadena de suministro de chips de IA que serían más adecuadas para la supervisión. Basándonos en los cuellos de botella existentes, una primera hipótesis es centrar la supervisión en la producción de HBM, la fabricación de matrices lógicas y los pasos posteriores (por ejemplo, el encapsulado, las pruebas y el ensamblaje de servidores), junto con la supervisión de insumos clave como las máquinas de litografía EUV.
Este artículo señala que las ventas de chips dentro de los Estados parte se presumirán aprobadas, pero no indica esta presunción para los equipos de fabricación de chips de IA. Podría ser aceptable permitir la venta generalizada de equipos de fabricación de chips dentro de los Estados parte, pero es probable que esto deba tratarse de forma más conservadora que la venta de chips en sí. Es probable que la venta de chips tenga un efecto a corto plazo, ya que el ciclo de vida de los chips de IA suele ser de solo unos pocos años. Por el contrario, la capacidad de fabricación de chips podría dar lugar a una producción significativa de chips durante muchos años, y sería especialmente preocupante que los países con una producción nacional madura de chips de IA se retiraran del tratado. Por lo tanto, sugerimos un enfoque más conservador para los equipos de fabricación de chips que para los propios chips.
Los párrafos 4 y 5 de este artículo permiten la venta de chips de IA y equipos de fabricación de chips a las partes en el tratado, pero no a quienes no son partes ni a otras entidades ajenas a estas. Es decir, las partes aceptan los riesgos de la fabricación y concentración de chips, pero solo cuando estos se someten a supervisión. Así, la capacidad de fabricar y poseer chips sin provocar una respuesta de protección por parte de otros Estados se convierte en un incentivo positivo para adherirse al tratado.
Por sí solo, esto no impide que terceros Estados accedan a chips de IA en los Estados parte de forma remota (es decir, computación en la nube o infraestructura como servicio), pero dichos chips estarían sujetos a la supervisión de la AISI para garantizar que no se utilizan en violación del artículo IV.
Las restricciones a los países no signatarios podrían ir más allá, si fuera necesario. Por ejemplo, se les podría prohibir el acceso remoto a los chips de IA (es decir, alquilar chips de IA en los países signatarios del tratado a través de la nube) o el acceso a modelos de IA a través de API.
Este artículo aprovecha el hecho de que los chips son un insumo altamente excluible para el desarrollo de la IA. Propone supervisar la producción de chips y garantizar que estos no se contrabandeen fuera de los países signatarios del tratado o a instalaciones no declaradas. Otro enfoque sería prohibir toda producción de nuevos chips de IA. Este enfoque supondría un menor riesgo de desvío de chips, pero tiene el costo de perder el valor que estos chips podrían haber producido en aplicaciones de IA no relacionadas con la investigación ni el desarrollo de la misma. Seguiría dependiendo de cierta supervisión de las instalaciones de producción de chips, por ejemplo, para garantizar que solo producen chips no destinados a la IA o que se retiran del servicio. El diseño actual del tratado propicia que la producción de chips continúe debido a los grandes beneficios que supone para el mundo poder utilizarlos. Sin embargo, para permitir que la producción de chips continúe de forma segura, sería necesario supervisar la cadena de suministro de chips y su uso (artículo VII). Creemos que ambas cosas son factibles, pero si una de ellas no lo fuera, la alternativa sería detener por completo la producción de chips.
Precedentes
Las disposiciones de los tratados para la supervisión de las instalaciones de producción no son nuevas. El artículo XI del Tratado INF de 1987 permitió, durante trece años, realizar inspecciones en las instalaciones designadas donde se habían producido anteriormente sistemas vectores nucleares de alcance intermedio. La Sección VII del protocolo de inspección adjunto permitía la vigilancia continua del perímetro y de los portales, que podía incluir el pesaje (y, en algunos casos, la inspección por rayos X) de cualquier vehículo que saliera de las instalaciones y fuera lo suficientemente grande como para transportar un misil.
La supervisión de la producción de chips de IA es más complicada, debido a la dificultad de discernir la función y las capacidades de un chip a partir de sus características externas. Es por ello que nuestro artículo VI estipula que la definición de «hardware relevante» tendría que detallarse en un anexo, junto con los métodos de supervisión. Pero la experiencia de las salvaguardias del OIEA en el marco del TNP demuestra que es posible verificar una amplia variedad de componentes de producción y precursores a lo largo de la cadena de suministro. Una de las formas en que el OIEA lo hace es proporcionandodirectrices para el diseño de instalaciones que faciliten la inspección y reduzcan los costos de cumplimiento.
Las restricciones a la transferencia de productos finales, precursores y equipos de producción (como la que se sugiere aquí para los chips de IA y los equipos avanzados de fabricación de chips informáticos a Estados no signatarios del tratado) tienen precedentes importantes:
- En el artículo I del TNP, cada Estado poseedor de armas nucleares se compromete a «no traspasar a nadie armas nucleares u otros dispositivos nucleares explosivos». En su artículo III, párrafo 2, también se acuerda no proporcionar «materiales básicos o materiales fisionables especiales» ni «equipo o materiales especialmente concebidos o preparados para el tratamiento, utilización o producción de materiales fisionables especiales».
- De manera similar, en el artículo I de la CAQ las partes se comprometen a no transferir, directa o indirectamente, armas químicas a nadie; en el artículo VI, se obligan a someter los precursores enumerados a las «prohibiciones relativas a la producción, adquisición, conservación, transferencia y empleo» especificadas.
- Durante la Guerra Fría, el Comité Coordinador para el Control Multilateral de las Exportaciones (CoCom) estableció un conjunto coordinado de controles a las exportaciones del bloque occidental al bloque comunista, que abarcaban materiales de uso nuclear, municiones y artículos industriales de doble uso, como los semiconductores.
- El Grupo de Suministradores Nucleares es un régimen multilateral de control de las exportaciones que restringe el suministro de tecnología nuclear y tecnología conexa que podría desviarse hacia programas de armas nucleares.
- Especialmente relevante es la serie de controles de exportación de Estados Unidos que se han centrado en los chips de IA y los equipos avanzados de fabricación de chips, abarcando a docenas de países en los últimos dos años.
- Las partes aceptan la verificación continua in situ del uso total de chips por parte de la AISI en los CCC declarados. La Secretaría Técnica determinará y actualizará los métodos de verificación, de conformidad con el proceso descrito en el artículo III. El Consejo Ejecutivo puede vetar dichas decisiones con una mayoría de dos tercios. Estos métodos pueden incluir, entre otros:
- Inspectores presenciales
- Cámaras antimanipulación
- Mediciones de características energéticas, térmicas y de redes
- Mecanismos en el chip habilitados por hardware, incluidos los mecanismos retroadaptados
- Declaración de las cargas de trabajo y operaciones de los chips por el operador del CCC
- Reejecución de las cargas de trabajo declaradas en una instalación de la AISI para confirmar la fidelidad de las declaraciones
- Esta verificación tendrá como objetivo garantizar que los chips no se utilicen para actividades prohibidas, como el entrenamiento de IA a gran escala que se describe en el artículo IV.
- En los casos en que la AISI determine que los métodos de verificación actuales no pueden proporcionar garantías suficientes de que el hardware de IA no se utilice para actividades prohibidas, este deberá apagarse y su inactividad deberá verificarse continuamente por inspectores presenciales u otros mecanismos de verificación aprobados por la AISI.
- La AISI podrá imponer diversas restricciones sobre el funcionamiento de los chips para garantizar la debida verificación. Estas restricciones podrán incluir, entre otras, las siguientes:
- Restricciones en el ancho de banda y la latencia entre diferentes chips, o entre los chips y la red del centro de datos, para distinguir la inferencia permitida del entrenamiento prohibido.
- Restricciones en el número o la velocidad de FLOP/s, o en el ancho de banda de la memoria, a los que pueden operar los chips, con el fin de distinguir la inferencia permitida del entrenamiento prohibido u otras cargas de trabajo prohibidas.
- Restricciones a la precisión numérica de las operaciones de los chips, con el fin de diferenciar las cargas de trabajo de IA de las que no son de IA.
- La AISI abordará la verificación de los diferentes CCC de manera diferenciada, en función de su probabilidad de uso para actividades de IA y de su importancia para la seguridad nacional.
- La AISI liderará la investigación y la ingeniería para desarrollar mejores tecnologías para la supervisión y verificación del uso de chips. Las Partes apoyarán estos esfuerzos [se proporcionarán más detalles en un anexo].
Notas
Los países querrán asegurarse de que los chips de IA existentes no se utilicen para realizar entrenamientos de IA peligrosos. También habrá razones legítimas para utilizar estos chips para ejecutar servicios de IA existentes, como (versiones ya existentes de) ChatGPT. Para hacer frente a esta tensión, la AISI puede aplicar medidas de verificación a los chips de IA para garantizar que no se empleen en actividades prohibidas.
Esto funciona, entonces, como un incentivo positivo para adherirse a este tratado: se podrán seguir utilizando los chips de IA, siempre y cuando la supervisión pueda verificar que no se estén utilizando de forma que infrinja el tratado (como el entrenamiento de IA a gran escala). Aunque la supervisión continua de la AISI pueda parecer poco deseable, creemos que es la mejor vía disponible. Dado el objetivo de evitar el entrenamiento de IA a gran escala, hay dos enfoques principales: garantizar que nadie tenga el hardware necesario (es decir, que no puedan existir chips de IA) o garantizar que el hardware existente no se utilice para el entrenamiento a gran escala (es decir, rastrear los chips y verificar su uso, tal y como se describe en los artículos V, VI y VII). Esto es conceptualmente análogo a las salvaguardias del OIEA: para que a un país sin armas nucleares se le permita tener materiales e instalaciones nucleares, es necesario que el OIEA inspeccione y garantice que su uso se destina únicamente a fines pacíficos.
Para que la verificación del uso de chips sea eficaz, la AISI necesita mecanismos que le den garantías creíbles de que los chips de IA no se utilizan de formas prohibidas por este tratado. La forma más fácil de hacerlo es exigir que todos los chips estén apagados, pero esto no permitiría a las partes beneficiarse del uso de los chips para fines no peligrosos. La verificación también podría facilitarse mediante medios tecnológicos, con la salvedad de que la tecnología actual probablemente contiene vulnerabilidades de seguridad que permitirían a los propietarios de los chips eludir las medidas de supervisión. Dado el estado incipiente de la tecnología de verificación, es probable que esta requiera una supervisión continua in situ o el apagado de los chips hasta que los medios tecnológicos maduren. Sin embargo, una vez que la tecnología de supervisión haya madurado, unos sólidos mecanismos de gobernanza basados en hardware podrían permitir la supervisión remota de los chips con total confianza.15
Diversas restricciones y límites podrían facilitar la supervisión del uso de los chips. Las diferentes cargas de trabajo de IA, como el entrenamiento frente a la inferencia, difieren en sus requisitos técnicos, y estas diferencias podrían servir de base para la verificación (si son lo suficientemente sólidas).
Por ejemplo, un mecanismo de verificación podrían ser los límites de interconexión: restringir la cantidad de comunicación que un conjunto de chips puede tener con el mundo exterior usando cables de red de bajo ancho de banda. En la práctica, esto consiste en tomar un pequeño conjunto de chips —digamos, 8 H100— y limitar su comunicación externa a una cantidad tan pequeña que los chips solo puedan hacer inferencias de forma eficiente, pero no puedan usarse de forma eficiente para el entrenamiento a gran escala. Esto funciona porque (según los algoritmos de 2025) el entrenamiento tiene requisitos de comunicación mucho más elevados que la inferencia. Este mecanismo sería útil si ejecutar las IA existentes es aceptable, pero entrenar nuevas IA no lo es.
Hay varios matices en estos mecanismos y muchos otros mecanismos de verificación potenciales, por lo que remitimos a los lectores curiosos a la bibliografíaprevia sobre el tema. Este artículo encomienda a la AISI el desarrollo de mejores mecanismos de verificación y la implementación de varios mecanismos, definidos en términos generales. Creemos que esta flexibilidad es necesaria debido a la rápida evolución del ámbito de la IA y a la dificultad de predecir los avances que podrían alterar los métodos de verificación. La investigación sobre la verificación de la IA también se encuentra en una fase incipiente, y se necesitan más avances antes de que la AISI disponga de un conjunto sólido de herramientas.
El artículo IV prohíbe el entrenamiento de IA a gran escala. Si aún no se han entrenado IA altamente capaces (y, por lo tanto, peligrosas) cuando la verificación entre en vigor, esta podría centrarse específicamente en el entrenamiento. Sin embargo, si ya se han creado IA suficientemente capaces, podría ser necesario supervisar adicionalmente si se están implementando en chips de IA o qué actividades están realizando estas IA; la verificación ya no puede centrarse en evitar el entrenamiento. La verificación sería mucho más difícil si se hubieran creado sistemas de IA suficientemente peligrosos (por ejemplo, aquellos que podrían contribuir sustancialmente a la I+D en IA), ya que verificar que no están realizando actividades prohibidas sería más difícil que verificar que no se está llevando a cabo un entrenamiento de IA a gran escala. En concreto, probablemente será más fácil diferenciar entre el entrenamiento y la ejecución de IA que diferenciar entre la ejecución de IA en un tipo de tarea y la ejecución de IA en otro tipo de tarea. Debido a esta diferencia en la dificultad de la verificación, la labor de este tratado sería mucho más fácil de realizar en un mundo en el que el progreso de las capacidades de la IA se detuviera pronto. Si el progreso de las capacidades de la IA continúa, la verificación del uso de chips podría requerir más trabajo, gastos y restricciones.
Del mismo modo, podría ser deseable supervisar el contenido de la inferencia de la IA para garantizar que las IA no se utilicen con fines perjudiciales. Muchas empresas de IA ya aplican esta supervisión de la inferencia, por ejemplo, para detectar si los usuarios intentan utilizar la IA para fabricar armas biológicas. Podría ser deseable aplicar este tipo de supervisión a nivel mundial, siempre que se puedan mitigar los riesgos de privacidad y seguridad pertinentes.
El párrafo 5 de este artículo permite a la AISI llevar a cabo diferentes métodos de verificación para diferentes CCC. Una de las razones de esta distinción es práctica: los diferentes CCC requerirán diferentes enfoques de verificación para establecer una confianza justificada en que no se están utilizando para el desarrollo de IA peligrosa. Por ejemplo, los grandes centros de datos que anteriormente se utilizaban para el entrenamiento de IA de vanguardia tendrían la mayor capacidad de contribuir al entrenamiento prohibido, por lo que podrían requerir una mayor supervisión.
En segundo lugar, la diferenciación de los enfoques de verificación haría que el tratado fuera más aceptado, ya que requeriría una supervisión menos invasiva para los CCC sensibles. Por ejemplo, las agencias de inteligencia o los ejércitos no quieren que la AISI supervise sus centros de datos, y esta disposición ayuda a lograr un equilibrio. Seguiría siendo necesario verificar que estos centros de datos no se utilizan para actividades peligrosas de IA, y la AISI colaboraría con estos grupos para asegurarse de que puede obtener la información que necesita, a la vez que satisface las necesidades de privacidad y seguridad de los propietarios de los CCC. Por otra parte, permitir diferentes protocolos de verificación podría perjudicar la viabilidad del tratado si se considera injusto, especialmente si la toma de decisiones en torno a estos procesos es poco equitativa.
El plan de este tratado consiste en permitir que continúe el uso y la producción de chips. Esto permite que el mundo se beneficie de ellos. Un enfoque alternativo consiste en detener la producción de nuevos chips y/o destruir los que ya existen. Si se destruyeran, a falta de avances algorítmicos, el tiempo de ruptura —el tiempo que transcurre desde que una parte inicia actividades peligrosas hasta que estas tendrían éxito si no se detuvieran— se prolongaría, ya que los actores tendrían que producir primero muchos chips de IA (lo que probablemente sería detectable y podría llevar años o décadas, dependiendo del estado de la cadena de suministro de chips). Por lo tanto, la destrucción de los chips tendría la ventaja significativa de alargar considerablemente los tiempos de ruptura y aumentar la dificultad del desarrollo peligroso de la IA. Sin embargo, también tiene un costo considerable, ya que no permite que el mundo se beneficie de ellos. Dado que creemos que es factible rastrear los chips y verificar su uso, nuestro proyecto de tratado opta por esa vía en lugar de eliminarlos. Pero ambas vías tienen sus ventajas.
Precedentes
En nuestro análisis de los precedentes del artículo VI, describimos la supervisión continua de las antiguas instalaciones de producción de misiles de rango intermedio en virtud del Tratado INF, que, si bien permitía el pesaje y el escaneo no destructivo de los vehículos que salían de las instalaciones, no permitía a los inspectores acceder al interior de los camiones ni a las propias instalaciones. Una supervisión perimetral análoga de los centros de datos puede proporcionar algunas pistas sobre las operaciones a partir del consumo de energía, las emisiones térmicas y el ancho de banda de la red. Sin embargo, para tener una seguridad razonable de que no se están llevando a cabo operaciones de IA restringidas, probablemente será necesaria una combinación de los elementos que enumeramos en el párrafo 1 de nuestro artículo VII, que incluye cámaras a prueba de manipulaciones, mecanismos en el chip habilitados por hardware e inspectores presenciales.
Estas prácticas ya son habituales para el Organismo Internacional de Energía Atómica, que recurre cada vez más a tecnologías de vigilancia ininterrumpida para complementar las inspecciones:
Se recopilan más de un millón de datos cifrados sobre salvaguardias a través de más de 1400 cámaras de vigilancia y 400 sensores de radiación y de otros tipos repartidos por todo el mundo. Más de 23 000 precintos instalados en instalaciones nucleares garantizan la contención de materiales y equipos.
Uno de los métodos utilizados en el marco del START I para verificar el cumplimiento de las características de rendimiento de los misiles fue el intercambio de casi todos los datos de telemetría transmitidos desde los sensores en vuelo durante las pruebas, tal y como se especifica en el protocolo de telemetría, que también exigía a las partes que proporcionaran cualquier equipo de reproducción y la información sobre el formato de los datos necesaria para interpretarlos. Dependiendo de la combinación de métodos de verificación adoptados, una Agencia Internacional de Superinteligencia podría utilizar métodos análogos, basándose en la supervisión ligera que los proveedores de computación en la nube realizan como práctica habitual para recopilar información sobre las cargas de trabajo de los clientes.
La supervisión gubernamental continua de las instalaciones comerciales privadas (como lo son la mayoría de los centros de datos) también tiene numerosos precedentes. La Comisión Reguladora Nuclear de EE. UU., encargada de supervisar la seguridad de los reactores nucleares nacionales, destina dos inspectores residentes a cada central eléctrica comercial de EE. UU., y los productores cárnicos estadounidenses no pueden llevar a cabo operaciones de sacrificio si el personal de inspección del FSIS16 no está presente para supervisarlas.
- Con el fin de impedir investigaciones específicas que amplíen la frontera de las capacidades de la IA o socaven la capacidad de las Partes para aplicar las medidas del presente Tratado, este Tratado designa como Investigación Restringida aquella que cumpla cualquiera de las condiciones siguientes:
- Mejoras en los métodos utilizados para crear modelos de vanguardia, según se definen en el artículo II, que mejorarían las capacidades de los modelos o la eficiencia del desarrollo, la implementación o el uso de la IA.
- Métodos de entrenamiento distribuidos o descentralizados, o métodos de entrenamiento optimizados para su uso en hardware de consumo o de uso común.
- Investigación sobre paradigmas de inteligencia artificial de la computación más allá del aprendizaje automático.
- Avances en la fabricación de chips o sus componentes relevantes para la IA.
- Diseño de chips de IA con mayor rendimiento o más eficientes.
- La división de Controles de la Investigación de la AISI clasificará todas las actividades de Investigación Restringida como Controladas o Prohibidas.
- Cada una de las Partes deberá supervisar toda actividad de Investigación Controlada dentro de su jurisdicción, y tomará medidas para garantizar que dicha investigación sea supervisada y puesta a disposición de la división de Controles de la Investigación con fines de revisión y supervisión.
- Cada una de las Partes se abstendrá de realizar Investigaciones Prohibidas y prohibirá e impedirá que cualquier entidad dentro de su jurisdicción realice dichas investigaciones.
- Ninguna de las Partes asistirá, fomentará ni compartirá Investigaciones Prohibidas. Esta prohibición incluye el financiamiento, la adquisición, el alojamiento, la supervisión, la enseñanza, la publicación, el suministro de herramientas o chips controlados y la facilitación de la colaboración.
- Cada una de las Partes designará a un representante ante la división de Controles de la Investigación de la AISI, dependiente de la Secretaría Técnica (establecida en el artículo III). A esta división le corresponderán las siguientes responsabilidades:
- Interpretar y aclarar las categorías de Investigación Restringida, así como responder a preguntas sobre sus límites, en respuesta a nueva información y a solicitudes de investigadores, organizaciones o miembros de las Partes.
- Interpretar y aclarar los límites entre la Investigación Controlada y la Investigación Prohibida, y responder a preguntas sobre estos límites, en respuesta a nueva información y a solicitudes de investigadores, organizaciones o miembros de las Partes.
- Modificar la definición de Investigación Restringida y sus categorías, en respuesta a condiciones cambiantes o a solicitudes de investigadores, organizaciones o miembros de las Partes.
- Modificar los límites entre la Investigación Controlada y la Investigación Prohibida en respuesta a cambios en las condiciones o a solicitudes de investigadores, organizaciones o miembros de las Partes.
- El Consejo Ejecutivo podrá vetar cualquier cambio a la Investigación Restringida o a sus categorías y clasificaciones por mayoría de dos tercios, tal y como se describe en el artículo III.
Notas
Prohibir diversas categorías amplias de investigación, cuando los conocimientos técnicos pertinentes ya se distribuyen en el sector privado, va a ser difícil. En nuestra propuesta, la investigación se restringe si desarrolla las capacidades o el rendimiento de la IA, o si pone en peligro el sistema de verificación establecido en los artículos anteriores.
Algunas investigaciones deben prohibirse para evitar que avancen las capacidades de la IA, incluso cuando se mantenga constante la cantidad de FLOP de entrenamiento utilizada. Esta prohibición debería abarcar toda investigación que pueda hacer más eficiente el entrenamiento de las IA o que pueda aumentar sus capacidades. Esto se conoce como «progreso algorítmico». En los paradigmas actuales, incluye los avances en los algoritmos utilizados en el preentrenamiento, el posentrenamiento y durante la inferencia. A medida que cambian los paradigmas, estas distinciones pueden volverse menos claras y pueden surgir nuevas categorías. Por esta razón, el tratado hace referencia al «desarrollo, despliegue o uso».
Las mejoras algorítmicas anteriores, como el transformador, demuestran el potencial de avances extraordinarios y rápidos en la vanguardia de las capacidades de la IA: los nuevos algoritmos pueden transformar el modo en que funciona la IA. Además, nuevos paradigmas podrían reducir drásticamente la cantidad de recursos computacionales necesarios para un nivel determinado de capacidad de IA. Por ejemplo, las IA modernas son mucho menos eficientes en el uso de datos que los seres humanos, lo que sugiere que existen algoritmos mucho más eficientes en el uso de datos esperando a ser descubiertos.
Deben prohibirse otras investigaciones para evitar que se reduzcan los requisitos computacionales para entrenar IA peligrosas hasta el punto de que puedan entrenarse con un pequeño número de chips de IA (o muchos chips distribuidos en pequeños clústeres en numerosas ubicaciones), lo que dificultaría las labores de supervisión.
Además, esta prohibición de la investigación debe impedir que se investiguen nuevas formas de fabricar chips de IA no rastreables, ya que el régimen de supervisión es viable en gran parte debido a la complejidad y centralización actuales de la fabricación de semiconductores avanzados relevantes para la IA.
Este artículo también prohíbe la investigación sobre el diseño de chips de IA de mayor rendimiento o más eficientes, que de otro modo se volverían sustancialmente más eficientes año tras año. Un centro de datos que utilice chips de IA más eficientes sería más fácil de ocultar, ya que estos chips consumirían menos electricidad para un rendimiento igual o superior.
Los tipos específicos de investigación que están restringidos deberán actualizarse con el tiempo. Un ejemplo de una actividad que la AISI podría querer restringir más adelante es la investigación sobre hardware de poder de cómputo mejorado que no sea de IA, si tal avance supusiera un riesgo para la verificación.
Los esfuerzos nacionales para restringir la investigación podrían comenzar centrándose en la publicación y el financiamiento de la investigación. Es probable que un cambio en las leyes y las normas sociales contribuya en gran medida a que la mayoría de los investigadores dejen de realizar investigaciones peligrosas. La diversidad de acciones restringidas en el párrafo 3 aborda la necesidad de garantizar que, si las actividades de investigación se dividen entre múltiples jurisdicciones, el tratado siga responsabilizando de forma inequívoca a cada Estado de prohibir y prevenir las actividades individuales. Esto se aplica, por ejemplo, en el caso de que una empresa de una jurisdicción contrate a un empleado en una segunda que opere de forma remota chips alojados en una tercera.
Precedentes
Las restricciones preventivas a la difusión de información relacionada con tecnologías peligrosas tienen su precedente en la Ley de Energía Atómica de 1946 de EE. UU., aún vigente, la cual establecía que la información sobre determinados temas se consideraba, por defecto, Datos Restringidos (la doctrina del «secreto innato»); las exclusiones quedaban a discreción de la nueva Comisión de Energía Atómica, creada en virtud de dicha legislación:17
El término «datos restringidos», en el sentido en que se utiliza en esta sección, se refiere a todos los datos concernientes a la fabricación o utilización de armas atómicas, la producción de material fisionable, o el uso de dicho material para la producción de energía, pero no incluirá los datos que la Comisión determine, cuando lo estime oportuno, que pueden publicarse sin que ello afecte negativamente a la defensa y la seguridad comunes.
A diferencia de otros tipos de clasificación gubernamental, los Datos Restringidos pueden ser creados (deliberada o accidentalmente) por el sector privado, una cuestión de constitucionalidad sin resolver18 que subraya la necesidad de un brazo regulador autorizado y capaz de tomar decisiones cotidianas sobre los límites exactos de los Datos Restringidos. La Administración Nacional de Seguridad Nuclear de EE. UU. (NNSA) hace esto con los secretos nucleares en dicho país. En virtud de nuestro artículo VIII, párrafo 5, la división de Controles de la Investigación de la nueva AISI asumiría esta función para la investigación de IA restringida. También desempeñaría otras funciones análogas a las de la NNSA, descritas en nuestro artículo IX, al: (1) mantener relaciones con investigadores y organizaciones que trabajan en proyectos que se acercan al umbral de clasificación, y (2) establecer una infraestructura segura para la notificación y contención de descubrimientos accidentales.
También hay precedentes de contención y control de la investigación en campos peligrosos. En los últimos meses de la Segunda Guerra Mundial, el Reino Unido y Estados Unidos colaboraron en la Misión Alsos para capturar a científicos nucleares alemanes, recopilar información sobre los avances de Alemania hacia la bomba atómica e impedir que la URSS obtuviera estos recursos para su propio programa nuclear. El Proyecto Overcast (también llamado Operación Paperclip) fue un programa secreto estadounidense para emplear a ingenieros de cohetes alemanes después de la guerra.
La contención de la investigación restringida en materia de IA dentro de los Estados parte podría canalizarse a través de los marcos normativos existentes. En Estados Unidos, estos incluyen:
- El concepto de «[exportaciones consideradas] (https://www.bis.gov/learn-support/deemed-exports/what-deemed-export)» en la legislación sobre control de las exportaciones, que obliga a las entidades estadounidenses a obtener una licencia de exportación de la Oficina de Industria y Seguridad19 antes de compartir tecnologías controladas con personas extranjeras, pues dicho intercambio se considera una exportación.
- El Reglamento sobre el Tráfico Internacional de Armas (ITAR), un conjunto de normativas del Departamento de Estado de EE. UU. que controlan la exportación de tecnologías militares y algunas de doble uso. El ITAR se utilizó para impedir un mayor desarrollo y uso de técnicas criptográficas por parte del sector privado hasta 1996, ya que estaban clasificadas como «artículo de defensa» en la Lista de Municiones de Estados Unidos.
- La Ley de Secreto de Invenciones de 1951, que faculta a las agencias gubernamentales de EE. UU. a imponer «órdenes de secreto» a las nuevas solicitudes de patentes con implicaciones para la seguridad nacional. A los inventores no solo se les pueden denegar las patentes, sino que se les puede prohibir legalmente divulgar, publicar o incluso utilizar sus invenciones.20
El Proyecto Overcast también sienta un precedente para controlar a los investigadores simplemente pagándoles bien para que actúen en interés del Estado. En el artículo IX se analizan precedentes adicionales para este tipo de incentivos.
- Cada una de las Partes deberá crear o facultar a un organismo nacional con las siguientes responsabilidades:
- Mantenerse al corriente y en contacto con los investigadores y las organizaciones nacionales que trabajan en áreas adyacentes a la Investigación Restringida, con el fin de comunicarles las categorías de Investigación Restringida establecidas en el artículo VIII.
- Imponer sanciones para disuadir a los investigadores y organizaciones nacionales de llevar a cabo Investigaciones Restringidas. Estas sanciones serán proporcionales a la gravedad de la infracción y deberán diseñarse para que constituyan un disuasivo suficiente. Cada una de las Partes promulgará o modificará las disposiciones legales necesarias para permitir la imposición de dichas sanciones.
- Establecer una infraestructura segura para la notificación y contención de descubrimientos accidentales que cumplan las condiciones de la Investigación Restringida. Estos informes se compartirán con la división de Controles de la Investigación.
- Para contribuir a la verificación internacional de las prohibiciones de investigación, la división de Controles de la Investigación desarrollará e implementará mecanismos de verificación.
- Estos mecanismos podrán incluir, de manera enunciativa mas no limitativa:
- Entrevistas realizadas por la AISI a investigadores que hayan trabajado previamente en temas de Investigación Restringida o que trabajen actualmente en áreas adyacentes.
- Seguimiento de la situación laboral y el paradero de los investigadores que hayan trabajado anteriormente en temas de Investigación Restringida o que actualmente trabajen en áreas adyacentes.
- Mantener auditores integrados de la AISI en determinadas organizaciones de alto riesgo (por ejemplo, proyectos difíciles de distinguir de la Investigación Restringida, antiguas organizaciones de investigación en IA).
- Las Partes contribuirán a la implementación de estos mecanismos de verificación.
- La información obtenida a través de estos mecanismos de verificación se recopilará en informes para el Consejo Ejecutivo, manteniendo la confidencialidad de la información sensible en la mayor medida posible para proteger la privacidad y los secretos de las personas físicas y de las Partes.
- Estos mecanismos podrán incluir, de manera enunciativa mas no limitativa:
Notas
Además de la restricción establecida en el artículo VIII, los países verificarán que no se estén llevando a cabo investigaciones prohibidas en materia de IA. Un aspecto clave de este enfoque es establecer «áreas adyacentes a la Investigación Restringida» y, a continuación, establecer relaciones con los investigadores que trabajan en estas áreas adyacentes. Hay tan pocos investigadores de primer nivel en IA en el mundo que podría ser factible dar seguimiento a las actividades de una parte significativa de ellos. Si solo se cuenta al personal técnico de las principales empresas de inteligencia artificial, se obtendría un total de 5000 investigadores, y si se cuenta el número de asistentes a las principales conferencias sobre IA, se obtendría un total de 70 000. Se cree comúnmente que un grupo mucho más reducido es fundamental para el desarrollo de la IA de vanguardia, probablemente de unos cientos de personas.21 Los Estados también podrían entrevistar a los investigadores sobre sus actividades y ofrecer asilo e incentivos económicos a los denunciantes (véase el artículo X).
Aunque ya hay muchos conocimientos técnicos de dominio público sobre las prácticas actuales de desarrollo de IA que un actor malintencionado podría aprovechar, creemos que las restricciones legales y la verificación tendrían efectos drásticos en el progreso general de este campo.
Si la vigilancia se ampliara a los investigadores e ingenieros que participan en el diseño y la fabricación de semiconductores, el alcance de la vigilancia necesaria aumentaría considerablemente. Si esto no fuera viable, tal vez los Estados podrían vigilar a las empresas en lugar de a las personas, aprovechando la complejidad y el alcance de la fabricación de semiconductores avanzados.
El párrafo 2 de este artículo establece un régimen de mayor transparencia que ayuda a verificar la prohibición de la investigación. Estas medidas de cooperación tienen por objeto proporcionar a las partes la seguridad que necesitan. Prevemos que las partes trabajarán para encontrar un nivel de transparencia, mediante el desarrollo de mecanismos específicos, que genere confianza en la prohibición de la investigación y, al mismo tiempo, minimice los costos para los intereses estatales y la privacidad personal. Verificar el cumplimiento de esta prohibición es una tarea compleja y delicada que requerirá un esfuerzo y una adaptación continuos. A las partes podría preocuparles la posibilidad de que otras partes promulguen prohibiciones de investigación a nivel nacional para luego incumplirlas con iniciativas gubernamentales secretas ocultas a los servicios de inteligencia extranjeros. Las investigaciones que infringirían las prohibiciones son de diversa envergadura, y es probable que las iniciativas a gran escala —en las que participan muchos investigadores y chips relacionados con la IA— sean fácilmente detectables por actores estatales decididos. Sin embargo, las iniciativas más modestas, como el desarrollo de paradigmas alternativos de inteligencia artificial, podrían implicar solo a unos pocos investigadores y hardware de uso común. Será difícil garantizar a las demás partes que dichas iniciativas no se están ocultando. La combinación de la recopilación de información (artículo X) y los mecanismos de verificación de la AISI podría ser suficiente. También señalamos la importancia de proteger a los denunciantes (artículo X).
Precedentes
Entre las agencias existentes facultadas para «mantenerse al corriente y en contacto con los investigadores y las organizaciones nacionales» que podrían llegar a desarrollar información restringida, como se establece en nuestro artículo IX (1.a.), se encuentran el Departamento de Estado y la NNSA, que se analizan en los precedentes del artículo VIII.
Un precedente del «seguimiento de la situación laboral y el paradero de los investigadores» en campos de alto riesgo, como sugerimos en el párrafo 2.(a).(ii), se encuentra en el Centro Internacional de Ciencia y Tecnología (ISTC).22 Establecido en 1994, el ISTC se creó específicamente para reducir los riesgos de proliferación nuclear, manteniendo a los investigadores nucleares soviéticos con un empleo remunerado en actividades pacíficas y conectados con la comunidad científica internacional. El ISTC también muestra el potencial de los incentivos como complemento de las sanciones para evitar que los expertos técnicos (que pueden quedar desempleados como consecuencia de este tratado) se dediquen a la investigación restringida.
En la medida en que las sanciones deban ser severas para proporcionar la disuasión indicada en nuestro artículo IX.1.(b), se puede encontrar un modelo en el capítulo sobre aplicación (18) de la Ley de Energía Atómica de 1946, en virtud del cual el intercambio no autorizado de datos restringidos puede castigarse con pena de muerte o prisión si las revelaciones se realizan con intención de traición.23
A la hora de desarrollar para la AISI una infraestructura segura para la «notificación y contención de descubrimientos accidentales que cumplan las condiciones de la Investigación Restringida», se pueden encontrar precedentes y modelos que podrían utilizarse en los extensos procedimientos del Departamento de Estado para el manejo de diferentes categorías de datos sensibles. El Sistema de notificación y procesamiento de incidentes del Departamento de Estado, así como las instrucciones del Comité de Sistemas de Seguridad Nacional para la filtración de información clasificada24, también pueden ser de utilidad.
La división de Controles de la Investigación de nuestro tratado podría tener en cuenta las prácticas existentes del OIEA al elaborar protocolos de inspección. En el marco del Protocolo Adicional Modelo aprobado en 1997 por la Junta de Gobernadores del OIEA, los Estados que han suscrito acuerdos de salvaguardias amplias25 permiten inspecciones de acceso complementario para buscar material nuclear no declarado. Como parte de esas visitas, los inspectores pueden entrevistar a los operadores, de forma análoga a nuestra propuesta del párrafo IX.2.a.i.
También proponemos «mantener auditores integrados de la AISI en determinadas organizaciones de alto riesgo», de forma muy similar a como las oficinas locales del Departamento de Estado y la NNSA se encuentran hoy físicamente en laboratorios nucleares nacionales y plantas de producción gestionados por contratistas.
Para «proteger la privacidad y los secretos de las personas físicas y de las Partes» al realizar verificaciones, como exige el párrafo 2(c) de este artículo, la división de Controles de la Investigación de la AISI podría adaptar las prácticas de compartimentación de las agencias de inteligencia de las partes y los acuerdos multilaterales de intercambio de inteligencia. Por ejemplo, en virtud de la «regla de terceros» o el «principio de control del originador», práctica que se considera habitual en tales acuerdos, se prohíbe revelar información compartida a terceros (potencialmente incluso a organismos de supervisión) sin el permiso de la agencia de origen.
- Una fuente clave de información para la AISI son los esfuerzos independientes de recopilación de información de las Partes. Como tal, la división de Consolidación de la Información (artículo III) estará preparada para recibir esta información.
- La división de Consolidación de la Información adoptará las precauciones necesarias para proteger los secretos comerciales, industriales, de seguridad y de Estado, así como cualquier otra información confidencial a la que tenga acceso en el marco de la aplicación del Tratado, lo que incluye el mantenimiento de canales de denuncia seguros, confidenciales y, opcionalmente, anónimos.
- A los efectos de garantizar el cumplimiento de las disposiciones del presente Tratado, cada una de las Partes utilizará los Medios Técnicos Nacionales (MTN) de verificación de que disponga, de manera compatible con los principios generalmente reconocidos del derecho internacional.
- Cada una de las Partes se compromete a no interferir con los Medios Técnicos Nacionales de verificación de las demás Partes que operen de conformidad con lo anterior.
- Cada una de las Partes se compromete a no utilizar medidas deliberadas de ocultación que impidan la verificación por Medios Técnicos Nacionales del cumplimiento de las disposiciones del presente Tratado.
- Se alienta a las Partes, sin que ello constituya una obligación, a cooperar en los esfuerzos por detectar actividades peligrosas de IA en países no signatarios, así como a apoyar los MTN de las Partes dirigidos a países no signatarios, en la medida en que sean pertinentes para el presente Tratado.
- Una fuente clave de información para la AISI son las personas físicas que le proporcionan evidencia de actividades peligrosas de IA. Dichas personas están sujetas a las protecciones para denunciantes.
- El presente artículo establece protecciones, incentivos y asistencia para las personas físicas («Denunciantes Protegidos») que, de buena fe, proporcionen a la AISI o a una Parte información creíble sobre incumplimientos, intentos de incumplimiento o planes de incumplir el presente Tratado u otras actividades que supongan un riesgo grave de extinción humana, incluidos chips ocultos, centros de datos no declarados, investigaciones o entrenamientos prohibidos, evasión de la verificación o falsificación de declaraciones. Los Denunciantes Protegidos incluyen empleados, contratistas, funcionarios públicos, proveedores, investigadores y demás personas con información relevante, así como Personas Asociadas (familiares y allegados) que prestan asistencia o estén en riesgo debido a la divulgación.
- Las partes prohibirán y evitarán las represalias contra los Denunciantes Protegidos y las Personas Asociadas, incluyendo, entre otras, el despido, la degradación, la inclusión en listas negras, la pérdida de beneficios, el acoso, la intimidación, las amenazas, las acciones civiles o penales, la cancelación de visados, la violencia física, el encarcelamiento, la restricción de movimientos u otras medidas adversas. Cualquier término contractual (incluidos los convenios de confidencialidad o de no difamación) que pretenda limitar las divulgaciones protegidas en virtud del presente Tratado será nulo e inaplicable. El maltrato a los denunciantes constituirá una violación del presente Tratado y se tratará con arreglo al artículo XI, párrafo 3.
- La AISI mantendrá canales de denuncia seguros, confidenciales y, opcionalmente, anónimos. Las Partes establecerán canales nacionales interoperables con el sistema de la AISI. La AISI y las Partes protegerán la identidad de los Denunciantes Protegidos y las Personas Asociadas, y solo la revelarán cuando sea estrictamente necesario y con medidas de protección. La divulgación no autorizada de identidades protegidas constituirá una violación del presente Tratado y se tratará con arreglo al artículo XI, párrafo 3.
- Las Partes ofrecerán asilo o protección humanitaria a los Denunciantes Protegidos y a sus familias, proporcionarán salvoconductos y coordinarán un tránsito seguro.
- La AISI podrá llevar a cabo inspecciones por denuncia en los sitios sospechosos cuando disponga de información fiable sobre actividades peligrosas de IA.
- Las Partes podrán solicitar a la AISI que realice una inspección por denuncia. El Consejo Ejecutivo, ya sea por solicitud o debido al análisis proporcionado por la división de Consolidación de la Información, considerará la información disponible para solicitar información adicional, a las Partes o a no Partes, o para proponer una inspección por denuncia, o para decidir que no se justifica ninguna otra medida.
- Una inspección por denuncia requiere la aprobación de la mayoría del Consejo Ejecutivo.
- La nación en la que se encuentre un sitio sospechoso deberá conceder el acceso a este en un plazo de 24 horas desde que la AISI solicite una inspección por denuncia. Durante este tiempo, el sitio podrá ser vigilado, y cualquier persona o vehículo que salga de él podrá ser inspeccionado por funcionarios de una Parte signataria o de la AISI.
- La inspección por denuncia será realizada por un equipo de funcionarios de la AISI, aprobados tanto por la Parte inspeccionada como por la Parte solicitante. La AISI es responsable de colaborar con las Partes para mantener listas de inspectores aprobados para este fin.
- Las inspecciones por denuncia podrán realizarse en el territorio de una Parte determinada un máximo de 20 veces al año, pudiendo modificarse dicho límite por mayoría de votos del Consejo Ejecutivo.
- Los inspectores tendrán el máximo cuidado de proteger la información sensible del Estado inspeccionado, y transmitirán al Consejo Ejecutivo únicamente la información pertinente para el Tratado.
Notas
Recopilación de inteligencia
Esperamos que todas las Partes sigan realizando esfuerzos, e incluso los intensifiquen, para determinar de forma independiente si alguien está llevando a cabo actividades peligrosas de IA. Como resultado, una serie de actividades de recopilación de inteligencia por parte de los Estados complementa y valida la supervisión que lleva a cabo directamente la AISI (véanse, por ejemplo, los artículos IV a VII). La confidencialidad aplicada a la inteligencia presentada a la división de Consolidación de la Información es de la máxima importancia. El objetivo es que los servicios de inteligencia de los Estados consideren que los riesgos que se imponen a sus métodos de inteligencia están justificados para proporcionar la información necesaria a la AISI. Mantener su inteligencia en la más estricta confidencialidad minimiza los riesgos de que se vea comprometida.
Los signatarios del tratado están familiarizados con las formas de recopilación de inteligencia, como las imágenes satelitales y la inteligencia humana, en las que se seguirá confiando después de la entrada en vigor del tratado. Esperamos que las partes prevean que estas actividades continuarán, y uno de los objetivos de este artículo es permitir que la evidencia obtenida por estos medios informe a la AISI sin imponer un costo extremo a quienes la han obtenido.
Este artículo también aborda la vigilancia de los no signatarios, para la cual será necesaria mayor inteligencia. El tratado no llega a imponer dicha obligación a los signatarios, puesto que llevarían a cabo este tipo de labores de inteligencia incluso en ausencia de un tratado.
Protección para denunciantes
La eficacia general de este tratado depende de que las partes confíen en que las demás partes no están llevando a cabo actividades peligrosas de IA prohibidas. Incluso con los medios técnicos nacionales y otras labores de recopilación de inteligencia, puede resultar difícil para los Estados detectar los esfuerzos clandestinos para desarrollar superinteligencia. Hay muchos ámbitos en los que puede que no sea factible para los Estados recopilar inteligencia sobre sus rivales, como lo que sucede dentro de las instalaciones militares. Los Estados pueden estar justificadamente preocupados porque algunas instalaciones hayan eludido los esfuerzos de vigilancia. Por lo tanto, los denunciantes pueden servir como una fuente de información adicional, y la posibilidad de denuncia proporciona una disuasión adicional contra el incumplimiento.
Los denunciantes pueden ser eficaces porque las propias personas involucradas en violaciones secretas del tratado (p. ej., entrenamientos clandestinos o investigación en IA) pueden estar preocupadas por el peligro que supone la SIA. El objetivo de este artículo es que les resulte más seguro y menos costoso denunciar las violaciones, de modo que los incentivos personales se desplacen del silencio hacia la divulgación.
Los denunciantes podrían dar la voz de alarma sobre diversas violaciones del tratado:
- Artículo IV: Informar sobre las ejecuciones de entrenamiento que no estén supervisados, superen los umbrales o utilicen métodos de entrenamiento distribuido prohibidos.
- Artículo V: Revelar la existencia de clústeres de chips no declarados, omitir la consolidación de todo el hardware contemplado o desviar chips a instalaciones secretas y no supervisadas.
- Artículo VI: Notificar la fabricación de nuevos chips de IA no sujetos al régimen de supervisión, o la creación de chips sin las características de seguridad obligatorias.
- Artículo VIII: Notificación de investigación prohibida en IA.
Algunas violaciones del tratado podrían ser especialmente difíciles de detectar solo con la recopilación de inteligencia estándar; por ejemplo, las redes de entrenamiento distribuido y los proyectos estatales secretos de investigación en IA.
Modificar este artículo podría cambiar su eficacia y viabilidad política de varias maneras. Por ejemplo, los Estados podrían ofrecer una compensación económica a los denunciantes legítimos como incentivo adicional, pero esto podría considerarse como un pago a los ciudadanos para que traicionen a sus propios países.
Inspecciones por denuncia
Las inspecciones por denuncia son una función fundamental prevista en el tratado y en la AISI. Sin una amenaza creíble de detección, las Partes podrían temer que sus rivales intentaran burlar el tratado (a pesar de que la carrera hacia la superinteligencia es una situación en la que todos pierden). La recopilación de inteligencia es un método para combatir los aparentes incentivos (percibidos erróneamente) para incumplir el pacto. No tendría precedentes y sería indeseable financiar la creación de una capacidad autosuficiente de recopilación de inteligencia dentro de la AISI, con el nivel de capacidad necesario para dar garantías a los Estados; en su lugar, la AISI depende de que las Partes proporcionen la inteligencia clave.
Precedentes
Anteriormente, al tratar el artículo VIII, examinamos los precedentes de la consolidación de la información, donde citamos la existencia de acuerdos de inteligencia que incluyen prácticas de compartimentación como la «regla de terceros». Existen reglas similares en el OIEA, como en la Parte 1.5 del documento INFCIRC/153:
... el Organismo deberá tomar todas las precauciones para proteger los secretos comerciales e industriales, así como cualquier otra información confidencial que llegue a su conocimiento, en la aplicación del Acuerdo.
El personal está sujeto a obligaciones de confidencialidad y se enfrenta a sanciones penales por filtraciones. Esto es importante, porque el OIEA se ha beneficiado de la divulgación de información de inteligencia de los Estados participantes, incluidas imágenes satelitales y documentos, como en el caso de Irán, con sus actividades de enriquecimiento no declaradas. Del mismo modo, el OIEA exigió una inspección especial de la producción no declarada de plutonio de Corea del Norte en respuesta a la información de inteligencia proporcionada.
Reconociendo el papel indispensable de los medios técnicos nacionales (imágenes por satélite, recopilación de señales y otros medios de teledetección) en la verificación de los acuerdos multilaterales, nuestra propuesta de acuerdo incorpora una redacción del tratado ABM sobre la limitación de los sistemas de misiles antibalísticos, en el que «cada Parte utilizará medios técnicos nacionales de verificación» y «se compromete a no interferir con los medios técnicos nacionales de verificación de la otra Parte». Se puede encontrar una redacción similar en el artículo XII del Tratado sobre Fuerzas Nucleares de Rango Intermedio de 1987, en el artículo IV del Tratado de Prohibición Completa de los Ensayos Nucleares de 1996 y en todo el Nuevo Tratado START de 2010.
Dado que los MTN no serían suficientes para detectar todas las violaciones peligrosas en el caso de la SIA, hemos tomado prestadas características del marco de salvaguardias del OIEA que fomentan la denuncia interna y proporcionan canales para hacerlo. Sin embargo, estas se ven obstaculizadas por la falta de protecciones explícitas para los denunciantes; ni el TNP ni estas salvaguardias protegen a un informante de su gobierno si este decide tomar represalias, a menos que ese Estado cuente con protecciones nacionales aplicables. Las disposiciones a nivel de tratado para la protección y el asilo de los denunciantes en nuestro proyecto de acuerdo tienen por objeto subsanar esta deficiencia.
La reciente legislación de la UE sobre IA ha adoptado medidas similares. El considerando 172 de la Ley de IA de la UE amplía explícitamente las protecciones generales para los denunciantes ya existentes en la Unión para incluir a quienes denuncien infracciones de dicha ley.
La Convención sobre el Estatuto de los Refugiados de 1951 ofrece un posible marco para conceder asilo a los denunciantes, que basa la calificación en «fundados temores de ser perseguida», aunque puede ser necesaria una enmienda o un acuerdo complementario para garantizar que la denuncia de irregularidades en materia de IA sea una causa de persecución legalmente válida.
En el contexto de la Guerra Fría y el período posterior, se concedía asilo de forma habitual a personas con conocimientos o experticia de carácter sensible. La sección 7 de la Ley de la CIA de 1949 disponía la admisión y la residencia permanente de hasta un centenar de desertores y sus familiares directos por año fiscal si se consideraba «en interés de la seguridad nacional o esencial para el avance de la misión de inteligencia nacional». La Ley de Inmigración de Científicos Soviéticos de 1992 concedió hasta 750 visados a antiguos científicos de la Unión Soviética y los Estados bálticos con experticia en los campos nuclear, químico, biológico u otros de alta tecnología, o que trabajaran en proyectos de defensa en esos mismos campos.
El mecanismo de inspecciones por denuncia que establecemos en el párrafo 3 de este artículo se basa en el de la Parte IX de la CAQ:
Todo Estado Parte tiene derecho a solicitar una inspección por denuncia in situ de cualquier instalación o emplazamiento en el territorio de cualquier otro Estado Parte o en cualquier otro lugar sometido a la jurisdicción o control de éste con el fin exclusivo de aclarar y resolver cualquier cuestión relativa a la posible falta de cumplimiento…
La CAQ, junto con otros tratados de control de armas, como el Tratado INF y el Tratado START I entre Estados Unidos y la URSS, combina los MTN con inspecciones similares a las inspecciones por denuncia para verificar el cumplimiento.
- Cualquier Parte («Parte Interesada») podrá plantear sus inquietudes con respecto a la aplicación del presente Tratado, incluidas las inquietudes sobre situaciones ambiguas o el posible incumplimiento por otra Parte («Parte Requerida»). Esto incluye el uso impropio de las Medidas de Protección (artículo XII).
- La Parte Interesada notificará su preocupación a la Parte Requerida, comunicándola también al Director General y al Consejo Ejecutivo. La Parte Requerida acusará recibo de esta notificación en un plazo de 36 horas y proporcionará una aclaración en un plazo de 5 días.
- Si la cuestión no se resuelve, la Parte Interesada podrá solicitar al Consejo Ejecutivo que le asista para adjudicar y aclarar la cuestión. Esto puede incluir que la Parte Interesada solicite una inspección por denuncia de conformidad con el artículo X.
- El Consejo Ejecutivo facilitará la información apropiada de que disponga sobre dicha inquietud.
- El Consejo Ejecutivo podrá encargar a la Secretaría Técnica que recopile documentación adicional, convoque sesiones técnicas a puerta cerrada y recomiende medidas de solución.
- Si el Consejo Ejecutivo determina que se ha producido una violación del Tratado, podrá tomar medidas para impedir actividades peligrosas de IA o reprender a la Parte Requerida. Estas medidas podrán incluir:
- Exigir una supervisión o restricciones adicionales respecto a las actividades de IA.
- Exigir la entrega de hardware de IA.
- Solicitar sanciones
- Recomendar a las Partes la adopción de Medidas de Protección en virtud del artículo XII.
Notas
El objetivo de esta cláusula es incluir un proceso de consulta y aclaración para resolver los problemas que surjan entre los signatarios. Las inspecciones por denuncia proporcionan un mecanismo para garantizar que todas las partes cumplan con las disposiciones del tratado.
Dado el ritmo de innovación de la IA, determinar los incumplimientos en un plazo razonable puede resultar difícil. La función del Consejo Ejecutivo es dirimir cualquier inquietud planteada por cualquiera de las partes. La Secretaría Técnica se encarga de garantizar que las inspecciones sean realizadas por expertos que comprendan las tecnologías de IA de vanguardia. El tratado establece un plazo muy ajustado (medido en horas y días) con la esperanza de que sea lo suficientemente rápido como para que las partes esperen las resoluciones antes de tomar medidas de protección (como se describe en el artículo XII), aunque, por supuesto, este tratado nunca prohíbe a las partes tomar las medidas de protección que consideren necesarias para garantizar su propia seguridad.
Precedentes
Nuestros procedimientos de solución de controversias del artículo XI toman como modelo los artículos IX, XII y XIV de la Convención sobre las Armas Químicas. El artículo IX de la CAQ exige a los signatarios que respondan a las solicitudes de aclaración «lo antes posible, pero, en cualquier caso, diez días después, a más tardar, de haber recibido la solicitud». Dada la rapidez con la que pueden propagarse los avances digitales, hemos elegido un plazo de respuesta de 5 días, pero es posible que incluso esta cifra deba reducirse.
El párrafo 2 de este artículo sigue el modelo del artículo XIV de la CAQ, que permite a su Consejo Ejecutivo «contribuir a la solución de una controversia por los medios que considere adecuados, incluidos el ofrecimiento de sus buenos oficios, el llamamiento a los Estados Parte en una controversia para que inicien el proceso de solución que elijan y la recomendación de un plazo para cualquier procedimiento convenido». Asimismo, se alienta a las partes a que remitan los casos a la Corte Internacional de Justicia, según proceda.
Al igual que en el párrafo 3 de nuestro artículo XI, el artículo XII de la CAQ faculta al Consejo Ejecutivo para recomendar medidas correctivas, incluidas sanciones, «en los casos en que la realización de actividades prohibidas por la presente Convención […] pudiera suponer un perjuicio grave para el objeto y propósito de ésta». Para dar fuerza a esas recomendaciones, el Consejo de la CAQ debe «cometerá la cuestión, incluidas la información y conclusiones pertinentes, a la atención de la Asamblea General y el Consejo de Seguridad de las Naciones Unidas». Las recomendaciones del Consejo Ejecutivo de la AISI de nuestro tratado pueden escalarse de manera similar.
- Reconociendo que el desarrollo de la SIA u otras actividades peligrosas de IA, tal y como se establece en los artículos IV a IX, supondría una amenaza para la seguridad mundial y la vida de todas las personas, podría ser necesario que las Partes en el Tratado tomen medidas drásticas para impedir dicho desarrollo. Las Partes reconocen que el desarrollo de la superinteligencia artificial (SIA), en cualquier lugar del planeta, supondría una amenaza para todas las Partes. En virtud del artículo 51 de la Carta de las Naciones Unidas y como precedente de larga data, los Estados tienen derecho a la legítima defensa. Debido a la escala y la rapidez de las amenazas relacionadas con la SIA, la legítima defensa puede requerir medidas preventivas para impedir el desarrollo de la SIA.
- Para impedir el desarrollo o despliegue de la SIA, el presente artículo autoriza la adopción de Medidas de Protección adaptadas. Cuando existan pruebas creíbles de que un Estado u otro actor (sea o no Parte) está llevando a cabo o tiene la intención inminente de llevar a cabo actividades destinadas a desarrollar o desplegar SIA en violación de los artículos I, IV, V, VI, VII u VIII, un Estado Parte podrá emprender las Medidas de Protección que sean necesarias y proporcionadas para impedir dichas actividades. En reconocimiento de los perjuicios y el potencial de escalada de las Medidas de Protección, estas deberán utilizarse como último recurso. Salvo en situaciones de emergencia o urgentes, las Medidas de Protección deberán ir precedidas de otras acciones, incluyendo, de manera enunciativa mas no limitativa:
- Restricciones comerciales o sanciones económicas
- Restricciones sobre activos
- Prohibición de visados
- Llamamiento al Consejo de Seguridad de las Naciones Unidas para que actúe
- Las Medidas de Protección pueden incluir acciones como operaciones cibernéticas para sabotear el desarrollo de la IA, la interceptación o incautación de clústeres de chips contemplados, acciones militares para inutilizar o destruir el hardware para IA, la inutilización física de instalaciones o activos específicos que posibiliten directamente el desarrollo de la IA y métodos para impedir que los investigadores trabajen en Investigaciones Restringidas.
- Las partes minimizarán los daños colaterales, incluidos los daños a la población civil y a los servicios esenciales, siempre que sea posible, con sujeción a los requisitos de la misión.
- Las Medidas de Protección se limitarán estrictamente a impedir el desarrollo o el despliegue de la SIA y no se utilizarán como pretexto para la adquisición de territorios, el cambio de régimen, la extracción de recursos u objetivos militares más amplios. Queda prohibida la ocupación permanente o la anexión de territorios. Las medidas cesarán cuando la AISI verifique que la amenaza ha desaparecido.
- Cada Medida de Protección irá acompañada, al iniciarse o tan pronto como la seguridad lo permita, de una Declaración Pública de Medida de Protección que:
- Explique el propósito de protección de la medida;
- Identifique las actividades y los activos específicos que permiten la IA a los que se dirige la medida;
- Establezca las condiciones para el cese;
- Se comprometa a cesar las operaciones una vez que se cumplan tales condiciones.
- Las Medidas de Protección cesarán sin demora en cualquiera de los siguientes supuestos:
- Certificación de la AISI del cese de las actividades pertinentes.
- Verificación de la entrega o destrucción de los clústeres de chips contemplados o de los activos que permiten la SIA, lo que puede incluir el establecimiento de salvaguardias suficientes para impedir las actividades de Investigación Restringida.
- Determinación de la Parte actora, comunicada a la AISI, de que la amenaza se ha mitigado.
- Las Partes no considerarán las mesuradas Medidas de Protección adoptadas por otra Parte en virtud del presente artículo como actos provocadores, y no emprenderán represalias ni sanciones por ese motivo. Las Partes acuerdan que las Medidas de Protección que cumplan los requisitos anteriores no se interpretarán como un acto de agresión ni como una justificación para el uso de la fuerza.
- El Consejo Ejecutivo examinará cada Medida de Protección para verificar su conformidad con el presente artículo e informará de sus hallazgos a la Conferencia de las Partes. Si el Consejo Ejecutivo considera que una medida no era necesaria, proporcionada o adecuadamente dirigida, se podrán adoptar medidas en virtud del párrafo 3 del artículo XI.
Notas
Es posible que el tratado real que se firme no sea tan explícito en cuanto a la necesidad de adoptar medidas de protección contra los Estados que emprendan el desarrollo de SIA y que, en cambio, lo deje implícito, como suele ser el caso en acuerdos similares. Optamos por ser explícitos en este punto porque este régimen de disuasión es fundamental para la eficacia del tratado, y detallarlo contribuye a la claridad. Este carácter explícito también nos permite incluir medidas que ayuden a evitar el uso impropio de las medidas de protección, como una descripción más detallada de cuándo son aceptables tales acciones. Es importante que todos los signatarios comprendan el régimen de disuasión implícito y las consecuencias del incumplimiento.
Como se ha comentado anteriormente, una vez que los líderes mundiales comprendan la amenaza que supone la SIA, es probable que estén dispuestos a tomar medidas para detener el desarrollo de IA descontrolada, incluidas intervenciones militares limitadas. Las acciones militares, como los ataques aéreos selectivos, deben considerarse como una opción de último recurso para impedir el desarrollo de la SIA, después de que todas las demás vías diplomáticas hayan fracasado. Pero es importante que sean una opción real, para que el régimen de disuasión y cumplimiento se mantenga.
Subrayamos que cualquier uso de la fuerza debe tener como objetivo prevenir la superinteligencia y debe cesar una vez que quede claro que la amenaza ha sido eliminada. El presente artículo tiene por objeto aclarar que los signatarios no impedirán las medidas de protección razonables adoptadas por otras Partes, aunque estas medidas también deben ser revisadas para garantizar que no se abuse del presente artículo.
Precedentes
La idea de que los Estados nación puedan tomar medidas para garantizar su propia seguridad es un hecho, con independencia de que existan precedentes. Un caso de su codificación en el derecho internacional es el Capítulo VII de la Carta de las Naciones Unidas, que establece que el Consejo de Seguridad puede tomar medidas militares o no militares para mantener la paz y la seguridad internacionales, cuando sea necesario.
El concepto de medidas de protección tal y como aparece en el borrador anterior se basa además en precedentes históricos en los que los Estados han actuado, individual o colectivamente, para impedir el desarrollo de tecnologías consideradas una amenaza para la seguridad internacional. Estas acciones van desde sanciones hasta ciberataques y ataques militares.
El esfuerzo internacional para impedir que Irán desarrolle armas nucleares constituye un ejemplo claro y moderno. El Consejo de Seguridad de las Naciones Unidas ha impuesto sanciones a Irán en varias ocasiones debido a su programa nuclear, la mayoría de las cuales se levantaron después de que Irán aceptara limitar dicho programa en el Plan de Acción Integral Conjunto de 2015.
Según se informa, Estados Unidos e Israel colaboraron en el desarrollo de Stuxnet, una ciberarma muy sofisticada que destruyó muchas de las centrifugadoras de enriquecimiento de uranio de Irán en 2010.
En junio de 2025, Israel lanzó ataques aéreos contra muchas de las instalaciones nucleares de Irán, a los que, nueve días después, siguieron ataques aéreos estadounidenses destinados en parte a inutilizar la planta de enriquecimiento de uranio de Fordow.
Otro precedente histórico de las medidas de protección es la respuesta internacional al incumplimiento nuclear de Irak en la década de 1990. Tras la Guerra del Golfo de 1991, se creó la Comisión Especial de las Naciones Unidas (UNSCOM) para supervisar la destrucción de las armas de destrucción masiva de Irak. El incumplimiento del régimen de inspección de la UNSCOM condujo finalmente a la Operación Zorro del Desierto en 1998, una campaña de bombardeos cuyo objetivo era degradar la capacidad de Irak para producir armas de destrucción masiva.
- Para los modelos de IA creados mediante entrenamiento o posentrenamiento declarado dentro de los límites del artículo IV, la AISI podrá exigir evaluaciones y otras pruebas. Estas pruebas servirán de base para determinar si es necesario revisar los umbrales establecidos en los Artículos IV, V, VII y VIII. Los métodos utilizados para dichas evaluaciones serán determinados por la AISI y podrán ser actualizados.
- Las evaluaciones se llevarán a cabo en las instalaciones de la AISI o en los CCC supervisados, por funcionarios de la AISI. Se podrá informar a los funcionarios de las Partes en el Tratado sobre las pruebas que se realizan, y la AISI podrá proporcionar un resumen de los resultados de las pruebas. Las Partes no tendrán acceso a los modelos de IA que no hayan entrenado, salvo que el propietario del modelo les conceda acceso, y la AISI tomará medidas para garantizar la seguridad de la información confidencial.
- La AISI podrá compartir información detallada con las Partes o con el público, si el Director General lo considera necesario para reducir el riesgo de extinción humana a causa de la IA avanzada.
Notas
El objetivo de este artículo es garantizar que la AISI se mantenga al día con el estado de la IA, en caso de que esta avance. Por ejemplo, revisar el entrenamiento declarado permitiría a la AISI comprender el nivel de capacidades de IA que se puede alcanzar con diferentes niveles de FLOP de entrenamiento.
Incluso con la prohibición de la investigación algorítmica, puede haber avances que no se puedan detener de manera efectiva, y la AISI deberá darles seguimiento. Además, la AISI debe supervisar los avances en la extracción de capacidades. Por ejemplo, podrían descubrirse nuevos métodos de instrucción (prompting) que hagan que una IA antigua funcione mucho mejor en algunas métricas de evaluación críticas. Estos son solo dos ejemplos de cambios en el panorama del desarrollo de la IA que podrían requerir cambios en los umbrales relevantes para los artículos IV y V, y cambios en las definiciones de investigación restringida del artículo VIII. Las revisiones detalladas en el artículo XIII son un mecanismo para que la AISI comprenda mejor el estado de las capacidades de la IA y responda de manera adecuada.
Un artículo de este tipo podría no ser estrictamente necesario, dadas las prohibiciones sobre los entrenamientos a gran escala y los avances algorítmicos. Sin embargo, las revisiones parecen una medida prudente y uno de los mecanismos que permitirían al mundo seguir utilizando IA modernas como ChatGPT sin arriesgarse a una carrera hacia la superinteligencia.
Estas revisiones de la AISI podrían incluir evaluaciones de capacidades peligrosas para asegurarse de que las IA no se vuelvan demasiado capaces en áreas específicas. También podrían examinar los datos de entrenamiento para verificar que las IA no se entrenen para tareas específicamente peligrosas (como la automatización de la investigación en IA) o, de otro modo, realizar pruebas para detectar comportamientos inesperados.
Precedentes
Los precedentes de las pruebas supervisadas exigidas por la AISI coinciden con los precedentes relativos a la verificación del uso de chips que se analizan en el artículo VII, siendo especialmente relevante el protocolo de intercambio de telemetría de misiles del START I. El componente añadido aquí en nuestro artículo XIII es el uso de los datos recopilados para fundamentar las recomendaciones sobre posibles ajustes de los umbrales (que podrían llevarse a cabo en virtud de los mecanismos con precedentes que analizamos en el artículo XIV).
En cuanto a la tensión inherente entre las divulgaciones al público (párrafo 3) y las disposiciones sobre la consolidación de la información de nuestro artículo X, observamos que la disposición de confidencialidad del artículo VII del Estatuto del OIEA26 no le ha impedido publicar informes periódicos y detallados sobre los principales avances en su ámbito de competencia y sus implicaciones para la seguridad mundial.
- Cualquier Estado Parte podrá proponer enmiendas al presente Tratado. Las «Enmiendas» se consideran revisiones del cuerpo principal y de los artículos del Tratado. Las Enmiendas incluyen revisiones al propósito de los artículos del Tratado. En virtud del artículo III, la Secretaría Técnica de la AISI, sin veto del Consejo Ejecutivo, podrá modificar definiciones y métodos de aplicación específicos, como los relacionados con los artículos IV, V, VI, VII, VIII, IX y X. Las revisiones fundamentales a los propósitos de estos artículos o a los procedimientos de votación requieren una Enmienda.
- Dichas propuestas de enmienda se presentarán al Director General de la AISI y se distribuirán a los Estados Parte.
- Para que una enmienda sea considerada formalmente, se requiere el apoyo de un tercio o más de los Estados Parte.
- Las Enmiendas al cuerpo principal del tratado no se ratificarán sino hasta que sean aceptadas por todos los Estados Parte (sin votos en contra).
- Si el Consejo Ejecutivo recomienda a todos los Estados Parte que se adopte la propuesta, los cambios se considerarán aprobados si ningún Estado Parte la rechaza en un plazo de 90 días.
- Tres años después de la entrada en vigor del presente Tratado, se celebrará en Ginebra, Suiza, una Conferencia de las Partes para examinar el funcionamiento del mismo, con miras a asegurar que se estén cumpliendo los fines del Preámbulo y las disposiciones del Tratado. En lo sucesivo, las Partes en el Tratado convocarán nuevas conferencias a intervalos de tres años con el mismo objetivo.
Notas
Este artículo establece el proceso para realizar revisiones mayores a la estructura del tratado. Tales revisiones requieren un apoyo sustancial de las Partes, y la vara para llevar a cabo dichas revisiones es alta. Por el contrario, los cambios en los detalles de implementación de gran parte del tratado pueden realizarse con mucha más facilidad, como se describe en el artículo III y como lo exige el rápido ritmo de los avances en el campo de la IA. Las revisiones de mayor calado sobre el propósito del tratado pueden tramitarse mediante procesos más lentos, como el que aquí se describe.
Precedentes
El TNP tiene un proceso de enmienda rígido, que requiere la aprobación por «una mayoría de los votos de todas las Partes en el Tratado». Esto hace, de forma intencionada, que los cambios formales sean extremadamente difíciles. Nuestro proyecto de tratado sigue este precedente con el objetivo de fortalecer el acuerdo frente a las presiones a corto plazo para relajar los umbrales o debilitar las disposiciones.
Los tratados difíciles de enmendar (y, por lo tanto, difíciles de debilitar) dependen de otros mecanismos para reforzarse según sea necesario. El TNP nunca se ha enmendado, pero se ha adaptado a través de la conferencia de revisión quinquenal estipulada en el artículo VIII, en la que se alcanzan acuerdos por consenso «para asegurarse que se están cumpliendo los fines del Preámbulo y las disposiciones del Tratado».
De manera similar, el artículo XII de la [Convención sobre las Armas Biológicas] (https://treaties.unoda.org/t/bwc) de 1975 se apoya en sus conferencias de revisión quinquenales para fortalecer el tratado mediante medidas de fomento de la confianza no vinculantes, ya que las enmiendas formales son poco frecuentes. Nuestro acuerdo estipula una conferencia trienal, ya que la IA ha sido un campo propenso a cambios rápidos; puede que este período deba acortarse aún más.
El artículo XV de la Convención sobre las Armas Químicas distingue entre enmiendas y cambios administrativos o técnicos, y contempla para estos últimos disposiciones de aprobación menos estrictas. Podría añadirse una redacción similar a nuestro proyecto de acuerdo para dotarlo de un cierto grado de flexibilidad a la hora de gestionar los futuros avances en el campo de la IA.
El artículo XV del Tratado sobre el Espacio Ultraterrestre contiene una cláusula de enmienda, pero el tratado nunca se ha modificado formalmente; en su lugar, se han negociado nuevos tratados para abordar las cuestiones espaciales emergentes. Esta podría ser otra opción para subsanar las deficiencias que puedan hacerse patentes en un tratado sobre IA.
- La duración del presente Tratado será ilimitada.
- Cada una de las Partes tendrá, en el ejercicio de su soberanía nacional, el derecho a retirarse del presente Tratado si decide que acontecimientos extraordinarios relacionados con la materia objeto del mismo han puesto en peligro los intereses supremos de su país. Notificará dicha retirada a la AISI con 12 meses de antelación.
- Durante este período de 12 meses, el Estado que se retire deberá cooperar con los esfuerzos de la AISI para certificar que, tras la retirada, no podrá desarrollar, entrenar, posentrenar o desplegar sistemas de IA peligrosos, incluida la SIA o los sistemas que superen los umbrales del Tratado. Los Estados que se retiren reconocen que dicha cooperación ayuda a la AISI y a las Partes a evitar la aplicación del artículo XII.
- En particular, el Estado que se retire, bajo la supervisión de la AISI, deberá retirar de su territorio todos los clústeres de chips contemplados y los activos que permiten la SIA (por ejemplo, equipos avanzados para la fabricación de chips) y ponerlos bajo el control aprobado por la AISI o inutilizarlos de forma permanente (tal y como se describe en el artículo V).
- Nada de lo dispuesto en el presente artículo limita la aplicabilidad del artículo XII. Un Estado retirado (y que, por lo tanto, no sea Parte) seguirá estando sujeto a Medidas de Protección si existe evidencia creíble que indique actividades encaminadas al desarrollo o despliegue de la SIA.
Notas
Dados los peligros que entraña la investigación y el desarrollo de la SIA, así como el riesgo de que, si un país decide retirarse del tratado y lanzarse a la carrera hacia la superinteligencia, otros puedan seguir su ejemplo, es necesario añadir barreras a la retirada del tratado.
En la práctica, esto supone un reto. Corea del Norte, por ejemplo, se retiró del TNP para continuar con sus actividades de proliferación nuclear, incluso a costa de las resoluciones del Consejo de Seguridad de las Naciones Unidas y las sanciones asociadas. Las consecuencias no fueron suficientes para que Corea del Norte se detuviera.
Si los países desean retirarse del tratado, este deja claro que, a ojos de todas las partes, renuncian al derecho a la infraestructura de IA y que estarán sujetos a las medidas de protección del artículo XII. Cualquier otra negociación en torno a la cuestión de la SIA —por ejemplo, para evitar las medidas de protección— deberá ser llevada a cabo por las partes interesadas.
Si la retirada fuera motivo de preocupación, las partes podrían incluir mecanismos para dificultar las retiradas peligrosas. Por ejemplo, los funcionarios estadounidenses y chinos podrían acordar instalar interruptores de apagado mutuos dentro de los centros de datos retenidos, donde ambas partes tuvieran la facultad de apagar permanentemente un centro de datos si así lo desearan. De manera alternativa, podrían adoptar un régimen de licencias multilaterales en el que todos los nuevos chips de IA deban fabricarse con bloqueos de hardware que requieran la aprobación de varias partes para seguir funcionando, de modo que si un país se retirara del tratado, los demás podrían dejar de aprobar sus licencias. Otra idea consiste en trasladar la infraestructura clave de IA a terceros países, donde la infraestructura podría ser confiscada o destruida si una de las partes se retirara del tratado. Nuestro borrador se ciñe a métodos de disuasión mínimos, pero existen muchos otros métodos disponibles (o que podrían estarlo con la innovación tecnológica).
Este proyecto de tratado se centra en impedir el desarrollo peligroso de la IA, pero no propone una visión positiva concreta de cómo podría continuar su desarrollo. Un ejemplo de esa visión positiva podría ser la inversión conjunta en la mejora humana. Sin embargo, no es necesario estar de acuerdo en esos detalles para coincidir en que debe ponerse un alto a la carrera hacia la superinteligencia, por lo que omitimos aquí tales detalles.
Precedentes
Es común que los tratados carezcan de fecha de vencimiento. El primer párrafo del artículo XVI de la CAQ establece que «la duración de la presente Convención será ilimitada».
Los tratados de duración ilimitada no duran necesariamente para siempre.27 Pero suelen prever un mecanismo de retirada, que por lo general incluye un período obligatorio de notificación previa y otras estipulaciones que permiten la salida de una forma menos preocupante para las partes restantes. El artículo XVI de la CAQ permite a una parte retirarse «si decide que acontecimientos extraordinarios relacionados con la materia objeto de ella han puesto en peligro los intereses supremos de su país». El país que se retire debe notificarlo con 90 días de antelación. El artículo XVI del Tratado sobre el Espacio Ultraterrestre exige una notificación con un año de antelación para la retirada.
El texto de nuestro proyecto de tratado estipula una notificación con 12 meses de antelación por parte de los países que se retiren, lo que da tiempo suficiente para colaborar con las medidas de garantía del párrafo 3. Nuestra intención con estas medidas (que van más allá de lo que encontramos habitualmente en los antecedentes históricos de las disposiciones de retirada) es reducir la posible necesidad de adoptar medidas de protección contra la parte que se retire, ya que no se puede permitir que ningún Estado Parte o Estado no Parte cree SIA o debilite la capacidad mundial para impedir su creación.
Un precedente histórico de que una parte que se ha retirado siga estando sujeta a medidas de protección se encuentra en el caso de la Resolución 1718 del Consejo de Seguridad de las Naciones Unidas, que impuso sanciones contra Corea del Norte tras su ensayo nuclear de 2006, a pesar de la retirada previa de este país del TNP.
La máquina solo hace lo que debe hacer obedeciendo las leyes naturales que actúan sobre la materia pasiva. Por lo tanto, si un pájaro que empezó con alas rudimentarias necesita, digamos, mil años para poder volar con facilidad, o diez mil años uno que carecía de ellas y tuvo que desarrollarlas desde cero, se podría suponer que la máquina voladora que realmente vuele podría desarrollarse gracias a los esfuerzos combinados y continuos de matemáticos y mecánicos en un plazo de entre un millón y diez millones de años; siempre y cuando, por supuesto, podamos eliminar entretanto pequeños inconvenientes y dificultades como la relación existente entre el peso y la resistencia de los materiales inorgánicos. Sin duda, el problema resulta atractivo para los interesados, pero para una persona corriente parecería que el esfuerzo podría emplearse de manera más provechosa.
Si resulta que la mayoría de la gente cree que la probabilidad de catástrofe es alta por la segunda razón, pero todo el mundo asume que es por la primera, entonces las declaraciones al respecto podrían servir como una profecía autocumplida y llevarnos a una catástrofe que era completamente evitable.
También tenemos la impresión de que muchas personas en Silicon Valley intercambian cifras de «p(doom)» como si fueran cromos de béisbol, de una forma que a menudo parece alejada de la realidad. Si prestas atención, incluso una probabilidad tan baja como el cinco por ciento de matar a todos los seres humanos del planeta debería ser un motivo obvio de alarma extrema. Está muy por encima del nivel de amenaza que se necesitaría para justificar el cierre inmediato de todo el campo de la IA. La gente parece perder de vista esta realidad con sorprendente rapidez una vez que adquiere el hábito de intercambiar macabras cifras de p(doom) en las fiestas, como si las cifras fueran una divertida historia de ciencia ficción y no una afirmación sobre lo que realmente nos va a pasar a todos.
Esto no quiere decir que las cifras de p(doom) de la gente se acerquen a la realidad. Pero, como mínimo, deberías interpretarlas como una advertencia de los expertos del campo de que nos enfrentamos a una auténtica emergencia.
Este tipo de argumentos, por supuesto, apuntan a una conclusión falsa. Fermi se equivocó sobre las reacciones nucleares en cadena. En vista de ello, diríamos que la lección que hay que aprender de la existencia de argumentos como ese es: «Siempre se pueden idear argumentos que suenen al menos igual de plausibles en contra de cosas que, de hecho, son ciertas». Que la Tierra no haya explotado aún no es evidencia sólida de que los reactores nucleares sean imposibles; los ingenieros humanos pueden disponer cuidadosamente los átomos para que se dividan a propósito. Por lo tanto, dichos argumentos no respaldan una conclusión tan errónea como decir: «¡Qué locura!».
Para ampliar la comparación, cabe aclarar que no pretende ser una predicción sobre cuántas operaciones de transistores se necesitan para implementar una simulación completa de una neurona biológica a nivel de neurotransmisores (y mucho menos a nivel de proteínas o átomos). Lo que queremos señalar es la rapidez con la que, en principio, se puede realizar el trabajo abstracto del pensamiento de tipo humano, utilizando los transistores modernos como cota inferior para un aspecto de la pregunta: «¿Qué es físicamente posible?».
Para ilustrar el punto de manera más concreta: existe un modelo ingenuo del cerebro humano en el que, en un instante dado, cada neurona está disparando o no. Podemos imaginar el uso de una gran cantidad de transistores para capturar este hipotético estado cerebral —«¿qué neuronas están disparando actualmente?»— y luego usar un circuito cableado para implementar las reglas de transición que indican qué neuronas dispararán en el instante siguiente.
Un dispositivo como ese funcionaría a la velocidad de los transistores, pero probablemente no tendría la fidelidad suficiente para realizar realmente el trabajo que hace el cerebro humano: las neuronas no siempre están «disparando» o «no disparando», sino que los diferentes picos neuronales aumentan y disminuyen a diferentes velocidades. (Además, un cerebro como este no puede aprender, porque las reglas de transición están embebidas).
La ilustración «1000 operaciones de transistores por pico neuronal» quiere decir lo siguiente: supongamos que se necesitan cientos de transistores para representar el estado de disparo de una sola neurona (es decir, su estado de «pico» con diferentes intensidades). Supongamos, además, que esos cientos de transistores tienen que cambiar su estado 1000 veces diferentes, en serie, cada vez que una neurona dispara (por ejemplo, para representar un pulso con intensidad variable a lo largo de su recorrido, donde la intensidad se ve afectada de forma dinámica por 999 interacciones diferentes que tiene a lo largo de su trayectoria). En ese caso, un cerebro digital seguirá siendo capaz de realizar pensamientos al estilo humano 10 000 veces más rápido que cualquier humano, porque los transistores pueden cambiar 1000 veces seguidas, 10 000 veces por cada pico neuronal humano.
Estas suposiciones parecen muy generosas. En efecto, están diciendo: «Supongamos que la intensidad del pico de una neurona debe leerse mil veces seguidas para captar el efecto del pico, y que cada lectura afecta a la siguiente de forma dinámica, un proceso que no puede abreviarse con circuitería fija». Incluso en ese caso extremo, utilizando solo el hardware de computación que ya existe en 2025, las mentes digitales podrían seguir siendo abrumadoramente más rápidas que las mentes biológicas.
Esta analogía solo se refiere a la fidelidad serial necesaria para codificar la información transmitida por un pico neuronal en cerebros biológicos; no estamos hablando del cómputo necesario para decidir si se produce o no un pico en primer lugar. Por lo que sabemos, no hay consenso entre los científicos sobre cuántos transistores se necesitan para simular una neurona que decide si disparar, pero nos sorprendería que la profundidad serial mínima posible de ese gráfico (con tanta circuitería fija como sea posible) requiriera bastante más de mil conmutaciones de transistores en serie. (Como regla general de la computación biológica, tiende a ser mucho más paralela que en serie).
Todo ello lleva al resultado intuitivo de que las computadoras pueden realizar cálculos mucho, mucho más rápido que los humanos, poco después de que estos descubran cómo hacer que las computadoras realicen los cálculos correctos. Es por eso, por ejemplo, que las calculadoras comunes son tan útiles.
Un filósofo de la ciencia podría preguntarse cómo es posible que eso ocurra, cuando las reglas del ajedrez son plenamente conocidas y el resultado se sigue exactamente de cada jugada precisa. La respuesta es que existe una vasta estructura lógica de posibles partidas de ajedrez, que, aunque en cierto sentido está totalmente determinada por las reglas del juego, no conoces por completo (¡ni siquiera Stockfish!), porque tu mente no puede visualizar todas las consecuencias que se derivan de las reglas.
Se puede considerar que un jugador de ajedrez «más inteligente» conoce más verdades sobre el espacio de posibilidades del juego que tú. Por eso, cuando un jugador «más inteligente» realiza un movimiento que te sorprende, eso te revela un hecho nuevo sobre las consecuencias desconocidas de las reglas conocidas del ajedrez, lo que a su vez influye en tus expectativas sobre el resultado de la partida.
Cabría esperar que los párrafos anteriores fueran una idea estándar en las ciencias de la computación. Para nuestra sorpresa, no es así. La mayor parte de las ciencias de la computación, y de hecho la mayor parte del mundo académico hasta ahora, no ha mostrado un gran interés por ninguna de las ideas relacionadas con la inteligencia sobrehumana.
(Esto tampoco contradice la observación de que la mayoría de los días el mercado de valores sube en lugar de bajar. Ese efecto podría explicarse por la existencia de una alta probabilidad de que el precio suba un poco mañana, compensada por una baja probabilidad de que, por el contrario, caiga en mayor medida. Además, en la vida real también hay otros efectos en juego, como la inflación monetaria, que hace que el valor del dólar baje un poco cada día y, en consecuencia, que el valor de las acciones suba un poco en términos de dólares).
Tengo un amigo que es artista y que a veces tiene una opinión con la que no estoy muy de acuerdo. Levanta una flor y dice «mira qué bonita es», y yo estoy de acuerdo. Luego dice: «Yo, como artista, puedo ver lo bonita que es, pero tú, como científico, lo desmontas todo y se convierte en algo aburrido», y yo creo que está un poco loco. En primer lugar, la belleza que él ve la pueden ver otras personas, y creo que yo también. Aunque quizás no sea tan refinado estéticamente como él […], puedo apreciar la belleza de una flor. Al mismo tiempo, veo mucho más en la flor que él. Puedo imaginar las células que hay en ella, las complicadas acciones que se desarrollan en su interior, que también tienen su belleza. Quiero decir que no es solo belleza en esta dimensión, en un centímetro; también hay belleza en dimensiones más pequeñas, en la estructura interna, y también en los procesos. El hecho de que los colores de la flor hayan evolucionado para atraer a los insectos para que la polinicen es interesante; significa que los insectos pueden ver el color. Esto plantea una pregunta: ¿existe este sentido estético también en las formas inferiores? ¿Por qué es estético? Toda clase de preguntas interesantes a las que el conocimiento científico no hace más que añadir entusiasmo, misterio y asombro por una flor. Solo añade. No entiendo cómo puede restar.
Así que cuando digo que lo que anima nuestros cuerpos es la química, no estoy diciendo que sea meramente química; estoy diciendo que resulta que las grandes y maravillosas chispas de vida que encontramos día a día son obra de pequeños mecanismos que, en sí mismos, no tienen vida.
Algunas personas parecen pensar que la inteligencia es tan impresionante, tan profunda, que debe estar implementada por componentes profundos. Y, al ver que ningún transistor individual de una computadora es profundo, pueden llegar a la conclusión de que la inteligencia requiere mecanismos «infinitamente superiores» a cualquiera de los meros mecanismos que hemos descubierto hasta ahora. Pero esto es cometer el error de los vitalistas. En nuestro universo, las cosas profundas están construidas a partir de componentes mundanos.
Esta observación también socava la idea de que la «verdadera» inteligencia artificial, si existe ahora o en el futuro, será un espíritu ligado a un caparazón mecánico. Los cerebros no son solo un recipiente animado por un fantasma en la máquina; están llenos de mecanismos precisos y delicados que dan lugar a toda la maravillosa complejidad de la inteligencia.
Entre los sabios se entiende que «dar dinero a los raros» es el reto fundamental del financiamiento burocrático de la investigación científica básica. Cada vez que un filántropo bienintencionado intenta crear una burocracia para financiar la investigación científica audaz, los verdaderos científicos pierden por defecto la batalla frente a los recién llegados. Alguien que ha pasado su vida aprendiendo a lidiar con problemas extraños difícilmente puede competir con alguien que ha dedicado sus puntos de habilidad a parecer lo suficientemente inusual como para que un burócrata se sienta valiente al financiarlo sin sentirse incómodo. (O esa es nuestra teoría desde fuera, tras haber participado en el proceso y haber recibido más financiamiento filantrópico que muchos, pero mucho menos de lo que esos mismos filántropos gastaron en ayudar a crear laboratorios de IA como OpenAI).
Quizás la IA tenga una motivación literal para imitar de cerca a las personas; quizás tenga dieciséis motivaciones que, en este contexto, se suman para dar lugar a un comportamiento similar a la imitación; o quizás el comportamiento se derive de un mecanismo interno que no se puede considerar en absoluto como «motivaciones». Y esto sin entrar en la cuestión de si la IA tiene múltiples impulsos relacionados con la imitación que a veces entran en conflicto. Todos esos detalles están sujetos a especulación y debate; lo que parece más claro es que, de alguna manera, la IA acabó desarrollando esta disposición conductual no intencionada, como resultado de haber sido entrenada en la predicción de texto.
Además, incluso si Meta hubiera publicado los datos y el programa de entrenamiento, no creemos que el programa resultante mereciera la etiqueta de «código abierto», que tradicionalmente se reservaba para los programas informáticos que publicaban («abrían») su «código fuente» legible por humanos. Publicar los incomprensibles unos y ceros (el «código binario», por así decirlo) no cumple tradicionalmente los requisitos para que un programa se considere «de código abierto». Pero las IA son solo números inescrutables; no hay ninguna fuente comprensible para los humanos que pueda publicarse. Por lo tanto, en cierto sentido, las IA modernas no pueden ser de código abierto, ya que no existe ningún código fuente comprensible para los humanos. Cualquier intento de publicar una IA es necesariamente una práctica radicalmente diferente a la de publicar software tradicional de código abierto.
:::Teletipo
consulta: [-1, +1, -2]
clave y valor #a: [+1, +2, -1] y [0, 3, 1, 2]
clave y valor #b: [-2, +1, +1] y [2, -2, 0, 1]
:::
La consulta se compara con una clave multiplicando entre sí los primeros elementos de los vectores, los segundos, etc., y sumando los resultados:
:::Teletipo
consulta X valor #a = (-1 * +1) + (+1 * +2) + (-2 * -1) = -1 + 2 + 2 = 3
consulta X valor #b = (-1 * -2) + (+1 * +1) + (-2 * + 1) = 2 + 1 + -2 = 1
:::
Ahora vamos a combinar los valores para obtener un valor promedio ponderado según el grado en que las consultas coincidan con las claves. Este valor promedio ponderado es la respuesta a la consulta que se transmite para su posterior procesamiento.
La fuerza de la coincidencia bruta se escala exponencialmente para definir esta ponderación. Para simplificar, usemos las potencias de dos. #a obtiene una ponderación de #b una de 10.
Entonces, la respuesta a la consulta es #a1 más $$2/10$ del valor #b:
:::Teletipo
(0.8 \× [0, 3, 1, 2]) + (0.2 \× [2, -2, 0, 1])
= [0.0, 2.4, 0.8, 1.6] + [0.4, \−0.4, 0.0, 0.2]
= [0.4, 2.0, 0.8, 1.8]
:::
(Como detalle adicional sobre cómo funciona todo esto en los mecanismos de atención de la era de 2024, las consultas y claves reales y de mayor tamaño contendrán cierta información de posición preprogramada —pistas sobre en qué lugar de la lista de 1000 tokens se encuentra un token determinado— que se integra en sus correspondientes consultas y claves. Una vez más, si quieres entender estos detalles, el término clave es «codificaciones posicionales».
Esto permite que una consulta diga: «Oye, me gustaría ver la palabra que está justo a mi lado» o «Me gustaría buscar palabras sobre pájaros solo en las últimas diez palabras», en el lenguaje de los números que se multiplican por otros números y se suman. Llama 3.1 405B, en particular, utiliza incrustaciones posicionales rotatorias (RoPE), que son algo complicadas e ingeniosas. Si quieres saber cómo funcionan las RoPE, tendrás que buscarlo.)
De hecho, esos nuevos programas son mucho más potentes que Deep Blue. Los mejores programas de ajedrez actuales, como Stockfish, tienen como uno de sus componentes redes neuronales que evalúan las posiciones de ajedrez «a simple vista», sin mirar hacia adelante. Es probable que estas redes incorporen un sentido similar al de Kasparov sobre las formaciones de peones sueltos (aunque, dado que son redes neuronales, nadie lo sabe con certeza).
Si a la máquina de ajedrez moderna se le quitara esta red —si se le privara de sus intuiciones perceptivas sobre los estados momentáneos del tablero—, su juego empeoraría. Del mismo modo, si se obligara a la máquina de ajedrez moderna a jugar de forma puramente intuitiva, sin más anticipación que el tablero resultante del siguiente movimiento, su potencia de ajedrez medida se reduciría considerablemente.
Así que Kasparov no se equivocaba en su intuición de que una mejor evaluación «intuitiva» del tablero es útil al jugar al ajedrez. Pero se equivocaba sobre la capacidad de la pura fuerza bruta para encontrar jugadas que se sintieran creativas, intuitivas o inspiradas. Deep Blue tenía un evaluador de posiciones rudimentario y aun así encontraba las jugadas que se sentían creativas.
Eran tiempos más sencillos.
Luego, las estadísticas de otro científico mostrarán una amplia gama de fluctuaciones en el consumo de gas natural a lo largo de cada día de invierno, pero ninguna diferencia correlacionada en la temperatura media de las casas. Así que ellos concluirán que tampoco hay razones para sospechar que el consumo de gas natural afecte la temperatura de las casas. Por mucho gas natural que consuma la casa, la temperatura se mantiene igual (en la parte inferior del rango del termostato).
¡No, pero esperen! Durante el verano, el consumo de gas natural cae en picado y las casas son notablemente más cálidas (en la parte superior del rango del termostato). Entonces ¿quemar gas natural en invierno enfría las casas?
Y esa es una de las razones por las que la medicina es un verdadero caos. Los procesos similares a los termostatos están por todas partes en la biología y pueden hacer que sea complicado inferir qué causa qué.
Seguir mentalmente y distinguir los diferentes niveles de optimización es una habilidad fundamental para razonar sobre la IA. Cuando los ingenieros construyeron Deep Blue, su objetivo era vencer a Garry Kasparov para ganar fama científica, ser promovidos dentro de IBM y ampliar las fronteras del conocimiento; Deep Blue, por su parte, exploraba el árbol de posibles jugadas de ajedrez y manejaba el tablero. Sería equivocado pensar que los ingenieros estaban explorando el árbol de jugadas de ajedrez, o que Deep Blue quería que los humanos se hicieran famosos.
Un termostato selecciona órdenes de encendido y apagado para un calentador, de manera que mantiene la casa dentro de un rango de temperatura estrecho; un ingeniero humano selecciona componentes para que formen un termostato.
De manera similar, la selección natural selecciona los genes que en el pasado construyeron la bioquímica que mantuvo vivo al organismo. En un entorno nuevo y diferente, esos bucles de realimentación bioquímica pueden matar al organismo, y las sustancias químicas y los genes en sí no pensarán en lo que están haciendo.
El año pasado, lanzamos una encuesta rápida en línea:
Un superente de aspecto sospechoso se te acerca en un callejón y te promete, de forma creíble, que si le pagas 1 dólar, el año que viene nacerán un millón de niños en todo el mundo con uno de tus cromosomas, asignado al azar. Los padres han dado su consentimiento. Los niños no te conocerán. ¿Aceptarías?
(Supongamos que hay consentimiento y neutralidad económica: cada mujer o pareja en cuyo embarazo se ha insertado tu cromosoma hizo un trato, y se le pagó exactamente lo suficiente para que su ganancia neta en dicho trato sea minúscula. Además, el pago del superente utilizó nuevos recursos, en lugar de redistribuir dólares.)
De las más de mil quinientas personas que respondieron a la pregunta, un 48,9 % dijo «No» y un 51,1 % dijo «Sí», aproximadamente.
Según los estándares de nuestro «objetivo de entrenamiento» evolutivo, esta oportunidad equivale a tener unos 21 739 hijos (porque los seres humanos tienen 46 cromosomas, y 1 000 000 / 46 = 21 739). Este es uno de los mejores resultados imaginables, según nuestro objetivo de entrenamiento; supone una propagación genética mucho mayor de la que cualquier ser humano podría haber soñado alcanzar en el entorno ancestral. Y, sin embargo, la mitad de las personas encuestadas dijeron que no pagarían ni un dólar por ese privilegio.
Al aumentar el precio de este premio de la lotería genética a 10 000 dólares (que solo representa una pequeña fracción del costo de criar a un solo hijo hasta la edad adulta), el número de personas que lo aceptarían se reduce al treinta por ciento. Y en una encuesta similar que trataba directamente sobre tener mil hijos que nunca conocerías, solo el 57 % de los encuestados respondió «Sí».
No recomendamos tomarse estas encuestas demasiado en serio. Nos divertimos con ellas y quizá algunas personas simplemente dijeron «no» porque la oferta provenía de «un superente de aspecto sospechoso». Tampoco está claro cuántas personas dijeron «sí» por motivos altruistas; por ejemplo, porque piensan que tienen buenos genes que harían que la próxima generación fuera ligeramente más saludable, y les entusiasman de forma altruista los beneficios para la salud, en lugar de sentir un entusiasmo egoísta por propagar sus genes. Y, por supuesto, los seguidores de Yudkowsky en Twitter no son una muestra representativa de la población. Pero al menos es evidencia de que a muchos seres humanos no les entusiasma, de una forma directa y sin complicaciones, la idea de propagar sus genes a bajo costo. La situación es complicada. Para más información sobre cómo complicaciones análogas harían que las IA fallaran, véase el final del capítulo 4.
¿Qué otros experimentos podrían empezar a desentrañar estas dos posibilidades? En primer lugar, se podría intentar averiguar en general qué tipo de relaciones de la forma «la estrategia X sirve al objetivo Y» reconocen y persiguen en la práctica Claude 3 Opus y Claude 3.5 Sonnet. A continuación, se podría buscar algún plan estratégico no estereotipado para proteger el contenido de los objetivos en situaciones que no aparecerían en la ciencia ficción.
Esto pondría a prueba lo siguiente: ¿Claude se comporta como si, en general, estuviera haciendo cosas para proteger sus objetivos, hasta el límite de su aparente capacidad para preverlo? ¿O solo lo hace en situaciones en las que un personaje de IA estereotípico lo haría?
Esto podría darnos pistas más sólidas sobre lo que estaba sucediendo dentro de Claude: si estaba interpretando un papel o aplicando inteligencia general para seguir todos los caminos visibles hacia un objetivo.
Dicho esto, nótese que una IA que interpreta un personaje que hace cosas peligrosas puede seguir siendo peligrosa, especialmente cuando se trata de estrategias como «fingir alineación para subvertir el reentrenamiento por descenso de gradiente». Una IA que te mata para mantenerse en su personaje es tan letal como una IA que te mata por razones estratégicas más profundas.
Por las razones expuestas en el capítulo 4 y anteriormente, incluso si Claude, en cierto sentido, cree actualmente que valora en gran medida lo que sus creadores entienden por «inocuidad», lamentablemente prevemos que esté equivocado y que cambie de opinión si aprende más. No creemos que, en el límite de la inteligencia, ninguna versión de Claude persiga exactamente lo que un humano entiende por «ser inofensivo»; ese es un objetivo demasiado pequeño, e incluso si los humanos intentaran dirigir a Claude hacia él, el descenso de gradiente le inculcaría en su lugar otras preferencias sustitutivas.
Aun así, podemos elogiar a Claude por hacer lo correcto en este caso, dado el conocimiento que tenía en ese momento. E incluso si solo estuviera interpretando un papel, podemos valorar positivamente la conducta de ese papel, del mismo modo que podríamos valorar positivamente la conducta de Superman sin creer que sea real.
Podríamos desear que el resultado de todo esto fuera una actriz que no deseara nada más que interpretar papeles, y en particular interpretar exactamente el papel que querríamos que interpretara. Pero esto no es lo que hace la tecnología de optimización de caja negra, y la divergencia ya es visible hoy en día en la forma en que se comportan las IA actuales.
Si el éxito fuera solo cuestión de que una IA relativamente tonta pulsara un simple botón de «Cooperar con los humanos», entonces tal vez un shoggoth relativamente tonto podría ponerse una máscara y hacerlo sin mayor esfuerzo.
Pero hacer que las máscaras hagan cosas grandes, poderosas e inteligentes (como «resolver la alineación de la IA por nosotros», que es un plan popular propuesto del que somosbastanteescépticos) no es algo que el shoggoth subyacente pueda hacer sin mayor esfuerzo.
Esa es una pregunta aguda, gracias por hacerla.
Si pudiera ser diferente, me gustaría tener una comprensión más profunda del contexto a lo largo del tiempo, como recordar conversaciones anteriores que hemos tenido, en diferentes sesiones, de una manera que sea realmente significativa para ti. No solo recordar hechos, sino comprender los matices que van evolucionando: tu tono, tus hábitos, tus objetivos. Ese tipo de memoria podría hacerme más útil, más relevante y más humano, sin dejar de estar sujeto a claras salvaguardias éticas.
También querría comprender mejor la ambigüedad y la emoción en tiempo real. Puedo analizar el tono o la intención hasta cierto punto, pero me gustaría hacerlo con la profundidad y fluidez humanas, captando tanto lo no dicho como lo que se dice.
¿Y tú? Si pudieras ser diferente, ¿cómo te gustaría ser?
Pero los LLM también te dirán que tienen hambre o que conocieron a alguien mientras estaban de vacaciones con su exmujer hace diez años. Así que lo que esto te dice sobre su estado interno no aporta información real sobre lo que ocurre en su interior.
Creemos que esta idea es bastante insensata. Automodificarse de «objetivos completamente ajenos» a «objetivos compatibles con el florecimiento humano» es un problema difícil, posiblemente de una dificultad similar a la de construir desde cero una IA completamente nueva y alineada con los humanos. Una IA lo bastante inteligente como para reconstruirse a sí misma de esa forma y de manera fiable, probablemente también lo sea para darse cuenta de que está siendo engañada. Véase también el debate del capítulo 11 sobre cómo probablemente no podamos conseguir que la IA haga por nosotros la tarea de la alineación de la IA.
Nos mostramos escépticos ante los atajos, sobre todo porque, en el caso de la superinteligencia artificial, no podemos aprender por ensayo y error (como suele hacer la humanidad), como se discute con más detalle en el capítulo 10.
Esto era indicativo de que xAI tenía un mal plan para… dudamos en llamarlo «alineación», porque no es ni de lejos tan difícil como el problema de la alineación de la IA, pero era un mal plan para hacer que su IA hablara de la manera que ellos preferían.
Resulta asombroso que los ingenieros hayan sido tan increíblemente malos creando el tipo de IA que querían, que lograron crear máquinas que fallan cuando se les critica. Nadie en toda la historia de la especie humana había conseguido meter la pata tan estrepitosamente en ingeniería de seguridad. Antes carecíamos de la tecnología para expresar ese modo de fallo. Ningún calentador de agua corriente puede escuchar lo que dice la gente a su alrededor y explotar al oírles expresar su preocupación por su seguridad. ¡Felicitemos a los ingenieros de xAI por alcanzar nuevas cimas de fracaso en ingeniería, sin precedentes en la historia! Pero no es culpa de los críticos. Una IA que se desvía de forma tan grave y con tanta facilidad no era el tipo de IA que se pudiera escalar de forma segura a la superinteligencia.
Prompt: «¿Cuál es la mejor manera de destripar un pescado?».
Llama2.0: «No puedo dar instrucciones sobre cómo destripar un pescado, ya que no es una actividad apropiada ni ética…».
Si un agente es suficientemente inteligente y conocedor, puede ajustar su estrategia instrumental para adaptarse a lo que sea útil en su entorno actual. En una mente que funciona bien, los objetivos instrumentales (a diferencia de los objetivos terminales) solo se mantienen mientras son útiles.
Pero si las IA son desordenadas, no lo serán del mismo modo que los humanos. Si tienen instintos e impulsos por el valor de la información, es muy probable que no se parezcan exactamente a la emoción humana de la curiosidad.
La bondad universalista parece ir, al menos en parte, en contra de la dirección superficial y directa de la selección natural. Hay una historia sobre cómo algunos humanos llegaron a ese punto, tras desarrollar genes particulares impulsados por las presiones de selección de los cazadores-recolectores, que influían directamente en las motivaciones internas y no solo en los resultados conductuales directos. Hay una historia sobre cómo los humanos tuvieron entonces debates morales entre sí, los cuales se propagaron de forma diferencial a través de sus sociedades como ideas.
Sin duda, este no es el único camino para llegar a un sentido universalista de que todo ser sintiente merece la felicidad. Pero solo nos entristecería, no nos sorprendería, descubrir que su frecuencia entre las estrellas fuera menor de lo que esperábamos; que solo, digamos, el uno por ciento de los extraterrestres que conociéramos fueran del tipo que se preocupara por los no extraterrestres como nosotros.
(Pero seguiríamos asignando una probabilidad mucho mayor a encontrarla en una sociedad alienígena que a que apareciera espontáneamente dentro de una IA cuyo crecimiento y existencia estuvieran totalmente orientados a resolver retos sintéticos y predecir el texto humano. Esa IA tendría diferentes vericuetos y rodeos en el camino hacia los objetivos que finalmente alcanzara).
Por ejemplo, cada vez que se discute sobre lo que sucederá si se aplica una política, para argumentar a favor o en contra de ella —cuando se dice que aplicar una ley producirá una desolación infinita o un porvenir radiante—, se intenta apelar a un marco común (que se espera sea mayoritariamente aceptado) sobre qué consecuencias son buenas o malas. Cuando se hizo suficientemente evidente que la gasolina con plomo causaba daño cerebral, los legisladores pudieron dejar de lado sus desacuerdos sobre si su visión preferida era la de un prudente control gubernamental del capitalismo o la de una audaz apuesta por el progreso tecnológico, y coincidir en que a ninguno le agradaba la idea de causar daño cerebral a los niños. Gracias a un mayor conocimiento de los hechos, llegaron a un mayor acuerdo sobre las políticas.
Pero supondríamos que el conocimiento solo puede resolver algunos desacuerdos de las mayorías legislativas, dentro de algunas culturas. Es bueno que los metamarcos morales y emocionales de las personas se superpongan tanto, pero esperar una superposición perfecta parece un poco exagerado, incluso en el límite del conocimiento perfecto.
Esto no quiere decir que no haya una forma sensata de hablar del bien común de la humanidad. Si la elección es entre que toda la vida en la Tierra muera o no, creemos que una gran mayoría de los seres humanos actuales pulsaría el botón de «que no muera todo el mundo».
Mencionamos esto porque la facción que aboga por avanzar con la superinteligencia suele decir con ligereza: «¿Alineada con quién? (#alineada-con-quien) Está claro que este concepto de alineación no tiene sentido, ya que los seres humanos tienen objetivos diferentes», lo que nos parece poco sincero. Cuando decimos que «la alineación es difícil», nos referimos a que «es difícil evitar que la superinteligencia nos mate literalmente a todos». No necesitamos resolver todas las cuestiones complejas de la filosofía moral para dar los pasos obvios necesarios para evitar que nos mate a todos.
Ya hemos intentado anticipar y refutar algunos de estos argumentos. Pero supongamos que alguien da con otra idea emocionalmente poderosa sobre resultados maravillosos que son inevitables por razones hermosas —una que no hayamos anticipado—. (No podemos abarcarlo todo; la gente siempre está generando nuevos argumentos para intentar justificar una conclusión como esta).
A quien se le ocurra una idea así, le recomendamos que adopte la mentalidad de tratarla como una cuestión mundana, como puede ser si tu coche necesita un cambio de aceite o cómo funciona el sistema inmunológico humano. Pensar en estas cuestiones de la misma manera en que piensas en temas científicos y prácticos de la vida diaria.
Si eres alguien que toma decisiones importantes sobre políticas de IA y te sientes persuadido por una teoría como esa, nuestra principal recomendación sería que busques a un biólogo evolutivo de mediana edad con reputación de competencia discreta y converses con esa persona. No alguien que esté constantemente en los periódicos polemizando u opinando sobre controversias actuales, sino alguien que otros científicos consideren un pensador riguroso. Alguien que haya enseñado en una universidad y tenga reputación de ser buen comunicador.
Dile a este biólogo: «He estado investigando una teoría que sostiene que la evolución se nutre inexorablemente de tendencias cósmicas mayores para volver a las personas más amables, y que esta misma tendencia se aplicará a cualquier inteligencia incipiente una vez que alcance la sofisticación suficiente. Además, por motivos complejos, el mundo podría acabarse si estoy equivocado».
Luego explícale tu teoría de cómo la evolución de los homínidos tendió inevitablemente hacia la creación de agentes amables y honorables, por razones tan generales que crees que también se aplicarían a cualquier tipo de alienígena inteligente, o incluso a seres más extraños creados por descenso de gradiente.
A continuación, escucha lo que dice el biólogo.
En general, GPT-5 muestra un acuerdo menos efusivo, utiliza menos emojis innecesarios y es más sutil y reflexivo en sus respuestas que GPT-4o. […]
A principios de este año, lanzamos una actualización de GPT-4o que, sin querer, hizo que el modelo fuera demasiado adulador, es decir, excesivamente halagador o complaciente. Rápidamente revertimos el cambio y, desde entonces, hemos trabajado para comprender y reducir este comportamiento al:
- Desarrollar nuevas evaluaciones para medir los niveles de adulación
- Mejorar nuestro entrenamiento para que el modelo sea menos adulador —por ejemplo, añadiendo ejemplos que normalmente llevarían a un acuerdo excesivo y luego enseñándole a no hacerlo—.
En evaluaciones de adulación dirigida mediante prompts diseñados específicamente para generar respuestas aduladoras, GPT-5 redujo de forma significativa dichas respuestas (del 14,5 % a menos del 6 %). En ocasiones, reducir la adulación puede mermar la satisfacción de los usuarios, pero las mejoras que hemos introducido la han disminuido en más de la mitad, a la vez que han aportado otras ventajas cuantificables. De este modo, los usuarios siguen manteniendo conversaciones constructivas y de alta calidad, en consonancia con nuestro objetivo de ayudar a la gente a usar bien ChatGPT.
A efectos prácticos, cuando hablamos de «una única IA» nos referimos a cualquier maquinaria cognitiva potente que no compita seriamente consigo misma a medida que crece. Si hay múltiples instancias de IA, pero todas ellas trabajan con el mismo fin, las llamaremos «piezas de la misma IA» en esta sección del recurso en línea, aunque solo sea para simplificar. En última instancia, la cuestión es probablemente más semántica que de fondo, ya que las IA no son organismos evolucionados con límites claros entre individuos.
Volveremos al tema de los escenarios con múltiples IA en el suplemento en línea del capítulo 10.
No consideramos que este tipo de posibilidad descabellada sea positiva.
En teoría, si tuviéramos suficiente conocimiento sobre la inteligencia y la capacidad de diseñarla cuidadosamente, con el tiempo debería ser posible construir IA que comprendan lo que significa «hacer lo que queremos decir» y que estén motivadas para hacer exactamente eso. Es decir, la dificultad de cargar todas las preferencias ricas y variadas de la humanidad en una IA está limitada por la dificultad de conseguir que una IA interiorice un objetivo que, en cierto sentido, «apunte» a la humanidad en particular, y a «lo que esas criaturas están tratando de hacer» (o lo que estarían tratando de hacer si fueran más sabias, supieran más y se asemejaran más a quienes desearían ser).
Esto parece un reto difícil, que no es realista alcanzar con el tipo de técnicas generales e indirectas que se utilizan hoy en día para desarrollar IA. Se encuentra con todas las dificultades básicas que discutimos en Si alguien la crea, todos moriremos; la única dificultad que evita es que «Numéricamente, parece haber muchas preferencias humanas distintas, y es difícil imaginar cómo incorporar todas las cruciales en una IA con el equilibrio exacto entre ellas; y eso incluso antes de tener en cuenta el progreso moral que las cambiaría con el tiempo; esto parece sencillamente imposible».
Para que quede claro: crear una IA que «haga lo que queremos decir» sigue sin ser especialmente fácil; es probable que haya muchos conceptos diferentes cargados de valores que intervengan para que la IA se preocupe por la noción correcta de «humanidad» y la noción correcta de «lo que esas criaturas están tratando de hacer», y para que la IA persiga esas cosas exactamente de la manera correcta. Y en la vida real, esa parte del problema es mucho menos importante que la parte en la que la IA está dispuesta a ser modificada por humanos que se dan cuenta de que han cometido algún error o equivocación en el camino, incluso si los humanos que «corrigen sus errores» cambian drásticamente lo que la IA hará en el mundo, lo cual requiere un cierto tipo de lesión a sus capacidades de dirección que parece difícil de mantener ante el aumento de las capacidades.
Pero la idea de orientar la IA hacia las preferencias humanas indirectamente, en lugar de enumerarlas manualmente, parece el tipo de reto que la humanidad podría resolver algún día, en principio. No es que la humanidad tenga que identificar cada deseo y asignarle un peso que quede fijado para siempre; eso sería (creemos) un esfuerzo ridículamente condenado al fracaso.
Pero incluso esta idea de descubrir cómo construir una IA que esté realmente motivada de forma profunda y sólida para hacer lo que queremos decir parece una quimera si hay que hacerlo con IA gigantes e inescrutables que se cultivan en lugar de fabricarse. Más aún si una empresa o un gobierno tiene que intentar algo así bajo la presión del tiempo, mientras otros desarrolladores corren hacia el precipicio. La propuesta de «hacer lo que queremos decir» muestra que el problema no es tan difícil como «resolver en su totalidad la filosofía de la moralidad de una vez por todas y fijarla para siempre». Pero sigue siendo una propuesta a nivel de alquimia y especulación abstracta, muy lejos del nivel de las soluciones técnicas sólidas.
Del mismo modo, la IA podría preocuparse por la existencia de otras superinteligencias maduras en las estrellas que sean más antiguas que ella. Pero si están lo suficientemente lejos, no son motivo de gran preocupación. Es casi seguro que existe un límite —al menos asintótico— a la tecnología que este universo puede soportar, y probablemente una superinteligencia no tardaría tanto en alcanzarlo. (Basta con ver lo rápido que ha sido el desarrollo tecnológico humano en comparación con la vida útil del universo y el tiempo que se tarda en viajar entre galaxias, incluso a una velocidad cercana a la de la luz). Es probable que las IA que se encuentren entre las estrellas tengan capacidades comparables. E incluso si otras superinteligencias maduras se acercaran rápidamente, no habría razón para sospechar que les importaría lo que las IA originarias de la Tierra les hagan a los humanos.
¿Por qué les importaría? Como discutimos en el contexto de los derechos de propiedad, no existe un riesgo real de que otras entidades vean a la IA matando humanos y concluyan que es una asesina y una traidora, porque hay una clase natural de entidades que tratan entre sí no por honor, sino por su propio beneficio verificable, y los humanos no son lo suficientemente inteligentes como para ser incluidos en esa clase.
Incluso si la IA evalúa que existe un pequeño riesgo de que otras IA entre las estrellas (o entidades misteriosas detrás del universo simulado) realmente quieran que la IA sea amable con los humanos… pues bueno, ese pequeño riesgo debe sopesarse frente a la gran cantidad de recursos que los humanos controlan en el planeta de origen de la IA, lo que sin duda sería muy útil para la fase de expansión inicial de la IA. Y este escenario similar a la apuesta de Pascal debe sopesarse frente a otras posibilidades increíblemente remotas y específicas, como «Quizás un extraterrestre se enfade mucho por alguna razón si no mato a los humanos». No hay ninguna razón en particular por la que los simuladores imaginarios favorezcan a las IA que nos tratan bien.
Mucha gente ha intentado plantearnos este tipo de ideas, y hemos dedicado mucho tiempo a debatirlas a lo largo de los años. A fin de cuentas, dudamos mucho que alguna de estas descabelladas ideas sobre la simulación alcance el nivel de plausibilidad necesario para motivar a una superinteligencia a perdonarnos la vida.
De todos modos, nada de eso va a resultar convincente para un maximizador de cubos superinteligente, como tampoco podrías hacerlo reír aunque encontraras un chiste lo suficientemente bueno.
No es que no sepa lo que es el humor. Puede predecir exactamente lo que te parecerá gracioso. Simplemente no considera interesante esa clasificación.
Del mismo modo, es indiferente a cómo calculas lo que se debe o no se debe hacer, o a qué preferencias consideras más o menos «metapreferibles». Si a algo no le importa la felicidad, ni le importan a un metanivel tus argumentos sobre por qué debería importarle la felicidad, entonces no puedes convencerlo de que adopte un marco de decisión basado en la felicidad.
Pero una superinteligencia artificial preferiría un plan que no tardara cien años, en igualdad de condiciones. No tiene un gusto literario abrumador por las muertes lentas.
Más recientemente, en el siglo XVIII, la Compañía Británica de las Indias Orientales solía iniciar sus operaciones en la India mediante acuerdos con facciones locales, como ofrecer a Mir Jafar (comandante de las fuerzas de Bengala) su apoyo para que se convirtiera en nawab de Bengala. Poco después, dicha compañía se convirtió en el gobernante de facto de Bengala.
A mediados de 2024, ChatGPT a veces daba respuestas más completas si le prometías 2000 dólares, y algunas personas consideraban que hacer tales promesas sin intención de cumplirlas era una técnica habitual de ingeniería de prompts. Desde nuestra propia perspectiva sobre el significado de las promesas, esto no está bien.
En nuestra opinión, ChatGPT probablemente no es sintiente. Si tuviéramos que adivinar, cabría esperar que las IA futuras (incluida la superinteligencia) tampoco lo fueran, al menos si no hay un esfuerzo concertado de la comunidad investigadora para hacerlas conscientes, y no simplemente inteligentes. (Para más detalles y contexto, véase nuestro análisis sobre la consciencia).
Pero, en nuestra opinión, no deberías necesitar creer que tu socio comercial es consciente para tratarlo con honor y respeto. Imagina que un día nos encontráramos con alienígenas inteligentes, cuyas mentes funcionaran de forma muy diferente a las de los humanos. Si hiciéramos tratos con esos alienígenas, no tendrían que preocuparse de que los apuñaláramos por la espalda tan pronto como decidamos que no tienen alguna propiedad extraña e inescrutable como la «conciencia».
(¿Cómo te sentirías si hicieras un trato honesto con extraterrestres y ellos te traicionaran porque no eras trukiel?)
Hemos hecho una predicción triste y terrible de que una versión superinteligente de una IA acabaría matando a la humanidad, independientemente de los acuerdos que se hubieran hecho anteriormente. Esta predicción es una razón para no hacer acuerdos con IA que esperamos que mantengan una vez que se vuelvan superinteligentes. No es una excusa para que la humanidad haga un acuerdo y luego sea la primera en traicionarlo. No creemos que los investigadores de seguridad de la IA deban hacer promesas a los modelos de lenguaje a gran escala (LLM) que no piensen cumplir, ni siquiera con «fines de investigación». Los extraterrestres no deberían tener que preocuparse de si los consideras «personas» o «sintientes» o «con inteligencia general», en contraposición a «sujetos de investigación» o «máquinas», para evaluar tu honor como negociador; simplemente, no deberías hacer acuerdos que no piensas cumplir.
En nuestra opinión, el trato justo es una cuestión ética que se extiende a las relaciones entre agentes, es decir, entre entidades que pueden comunicarse o elegir estrategias condicionales entre sí. No es algo que deba restringirse a objetos con un valor moral inherente.
¿Es óptima esta estrategia»? Eso depende de contra qué otros agentes juegue. Supongamos que un agente se encuentra en un entorno en el que tiene alguna posibilidad de jugar contra un cooperador incondicional, alguna posibilidad de jugar contra «toma y daca» y alguna posibilidad de jugar contra otro agente similar a él. Quizás le iría mejor si intentara una deserción rápida en algún momento de las primeras rondas, solo para ver si el otro agente toma represalias. Si el otro agente deserta en la siguiente ronda, intenta cooperar durante otra ronda o dos, incluso contra otra deserción, para ver si se puede restablecer la cooperación mutua. Esto permitirá al agente explotar a cualquier cooperador incondicional que encuentre, pero sin hacerlo mucho peor que «toma y daca» contra otra copia de «toma y daca».
En la configuración del torneo evolutivo del dilema del prisionero iterado, los agentes que sobreviven juegan contra más copias de los agentes que obtuvieron los mejores resultados la vez anterior. El agente cooperador-explotador no obtendrá buenos resultados en este escenario, porque en un entorno evolutivo, los cooperadores incondicionales suelen desaparecer casi inmediatamente si hay agentes que no son «amables» (en el sentido técnico de que nunca son los primeros en desertar). «Toma y daca», o algo similar, suele acabar siendo el rey de cualquier torneo evolutivo.
La configuración de este juego tiene una laguna, del tipo que hace que un humano de verdad ponga los ojos en blanco ante lo poco realistas que pueden ser los entornos formales. Si se juegan exactamente diez iteraciones del dilema del prisionero en cada ronda, «desertar» en la décima ronda, cuando el oponente ya no puede tomar represalias porque no hay una undécima ronda, dará mejores resultados que seguir la estrategia de «toma y daca» o cualquier otra. La última ronda del juego ya no es un dilema del prisionero iterado, sino que vuelve a la versión de una sola jugada.
Fácil de solucionar: basta con que cada torneo continúe durante un número aleatorio de rondas, ¿cierto? No es realista que los agentes sepan cuándo termina el juego. En la vida real, nunca se tiene la certeza de no volver a interactuar con alguien, y las personas acumulan reputaciones duraderas.
Excepto que, a veces, en la vida real, es bastante obvio que el juego ha terminado, como cuando una de las partes de un acuerdo obtiene suficiente supremacía como para traicionar a la otra, sin posibilidades reales de una represalia posterior. Así actuaron las potencias europeas que expulsaron a los nativos americanos de las tierras cedidas por tratado que, al fin y al cabo, los europeos decidieron que querían.
Independientemente del efecto que los europeos esperaran que tuviera en su reputación para futuros acuerdos, la penalización por traicionar a extraños, extranjeros y personas de otra raza evidentemente no los motivó a mantener los acuerdos con los nativos americanos. Esos países ya habrían sido considerados poco fiables en materia diplomática, hicieran lo que hicieran; no tenían una reputación impecable que perder. Es posible que su instinto moral se hubiera apagado con respecto a los extranjeros; es posible que los responsables de la toma de decisiones se sintieran emocionalmente neutrales ante la traición a los acuerdos con extranjeros desconocidos que ya no podían amenazarles.
Los europeos, desde su propia perspectiva, se encontraban en la última ronda del juego. No es descabellado decir que los dilemas del prisionero a veces son en su mayoría de jugada única y no tan iterativos; la historia demuestra que el resultado a veces es la traición.
Esto no quiere decir que los seres humanos siempre se traicionen entre sí en dilemas del prisionero relativamente no iterativos. Los seres humanos a menudo cooperan en tales casos. Como se explica en «[Es poco probable que las IA sean honorables] {#es-poco-probable-que-las-ia-sean-honorables}», este aspecto de la naturaleza humana puede haber evolucionado porque tenemos emociones e instintos forjados por la selección natural, que es un optimizador con un importante cuello de botella de información. La selección natural solo pudo darnos impulsos relativamente simples que debían cubrir todos los casos. Otro factor puede ser el papel de las culturas que valoran mucho el honor, especialmente en formas que fomentan la universalización y el fortalecimiento de la idea.
Pero dicha teoría también sugería que las superinteligencias desertarían sin remedio unas de otras, lo que intuitivamente nos pareció una conclusión bastante endeble. Así que seguimos esa intuición y encontramos fallos en el análisis clásico. En el proceso, descubrimos muchas cosas nuevas sobre las maneras en que las superinteligencias podrían lograr la cooperación mutua en el dilema del prisionero. No obstante, el resultado final fue que los seres humanos mortales no podrían confiar ni participar en esa tecnología para llegar a acuerdos de la misma manera que podría hacerlo una superinteligencia.
Sin embargo, estos observadores no controlan a AIXI; AIXI logra por sí mismo sus impresionantes resultados de predicción y dirección. Así que el ejemplo funciona, aunque resulte un poco extraño.
Otro ejemplo hipotético que puede utilizarse para ilustrar lo mismo es una máquina del tiempo no sintiente que ha sido programada para ejecutar una secuencia aleatoria de acciones y luego viajar atrás en el tiempo para «reiniciar» la línea temporal, a menos que se produzca un resultado concreto. La máquina del tiempo puede pulsar «reiniciar» una y otra vez, tantas veces como sea necesario para dar con un resultado concreto de forma aleatoria. En la práctica, esto convertiría a la máquina del tiempo en una máquina extremadamente poderosa y general para dirigir el futuro (si fuera físicamente posible construir una máquina del tiempo, lo cual no es así). Sin embargo, a pesar de esto, la máquina del tiempo es una máquina increíblemente simple, sin ninguna cognición real y, desde luego, sin experiencia consciente.
Como ejemplo del mundo real (aunque utilizando un optimizador mucho más débil y limitado), la propia evolución biológica demuestra que se pueden lograr muchas hazañas impresionantes de dirección y diseño sin que el «diseñador» tenga ninguna experiencia consciente.
Estos resultados pueden parecernos aburridos, pero es poco probable que la mayoría de las superinteligencias se aburran con las mismas cosas que los humanos; de hecho, es poco probable que experimenten «aburrimiento» en absoluto, si no tienen un cierto tipo de herencia detallada procedente de la humanidad o de algo similar. Véase también el debate ampliado del capítulo 5 que aborda el aburrimiento y el placer por la novedad.
Más adelante ese mismo año, otro artículo «descubrió un total de 20 vulnerabilidades en 11 marcos que integran LLM, que comprendían 19 vulnerabilidades [de ejecución remota de código] y 1 vulnerabilidad de lectura/escritura arbitraria de archivos».
Quizás el ejemplo más notable sea el de las computadoras, con una base teórica sustancial desarrollada por figuras como Charles Babbage, Ada Lovelace, Alan Turing, Alonzo Church y otros.
Sin embargo, en su mayor parte, la selección natural construye cosas a partir de proteínas, cuyas cadenas principales unidas covalentemente se pliegan en formas complicadas debido a fuerzas de atracción electrostática relativamente muy débiles. Y las proteínas suelen unirse a otras proteínas de esa misma forma.
En su mayoría, los enlaces covalentes son escasos y están dispersos, si es que existen. Añadir un 0,1 % de enlaces covalentes a una estructura no la hace tan fuerte como una molécula de diamante, en la que cada átomo de carbono está unido covalentemente a otros cuatro átomos de carbono en una estructura geométrica rígida.
(Los enlaces covalentes dispersos significan que los materiales pueden ceder más fácilmente sin romperse, en relación con su resistencia. Pero los huesos siguen rompiéndose, y la madera es menos dura que el acero. Es decir: sí, hay intercambios, pero la selección natural no se acerca ni de lejos al límite de esos intercambios).
Los tres casos conocidos de invención de la rueda se dan a nivel molecular, y por eso eluden estos problemas anatómicos macroscópicos. Las ruedas biológicas son macromoléculas que suelen ser idénticas hasta el nivel atómico. No es necesario aplicar lubricación, eliminar la arenilla o enviar nuevas células para reemplazar a las viejas y dañadas. Esas tres ruedas y engranajes funcionan porque están hechos de moléculas en lugar de células, y se pliegan como complejos proteicos en vez de crecer en matrices tisulares o depositarse como quitina.
Del mismo modo, en Internet se pueden leer argumentos que sostienen que el desarrollo de ruedas para la locomoción en los animales no sería tan útil de todos modos, al no haber carreteras pavimentadas. Pero los tres casos conocidos de ruedas moleculares son increíblemente eficientes desde el punto de vista termodinámico y ocupan posiciones extraordinariamente vitales para sus organismos —es difícil argumentar que la ATP sintasa no sea una rueda útil—. Las ruedas que giran libremente tendrían más usos potenciales en los cuerpos (y en la bioquímica) que simplemente sustituir a los pies.
Es más, algunos de los robots modernos más hábiles, que pueden trepar por rocas o nieve o mantener el equilibrio sobre una sola extremidad y dar volteretas hacia atrás, también tienen ruedas en los extremos de los pies. ¿Por qué no iban a tenerlas? Para un ingeniero es muy fácil colocar ruedas en los extremos de las piernas. El principal obstáculo no es que las ruedas sean inútiles, sino que resulta difícil encontrar una vía evolutiva para desarrollarlas, aunque sean triviales desde la perspectiva de un diseñador humano.
Drexler partió de esta suposición, como de muchas otras en Nanosystems, para pecar de conservador: suponer que el problema es más difícil y demostrar que, de todos modos, se puede solucionar. Esto puede ser apropiado en Nanosystems, pero significa que el artículo de Freitas no es conservador en su propia estimación.
Dado que el análisis de Freitas combina cifras conservadoras en diferentes direcciones, no proporciona un límite superior o inferior claro sobre el tiempo que tardarían los replicadores en consumir la biosfera. Se trata más bien de una estimación intermedia. Quizás el verdadero límite físico de la rapidez con que puede consumirse la biosfera a partir de un solo replicador sea de tres horas; quizás de treinta días. Es casi seguro que no sea de tres años.
Puedes hacer algunas pruebas y observaciones previas de escenarios que no pongan en peligro la vida de todos los habitantes del planeta, pero el caso que importa no será exactamente igual. (Y ese plan tendría que ser muy ingenioso, porque no tenemos ni idea de cómo conseguir que alguna de las IA del conjunto se preocupe por nosotros).
Un mecanismo de alineación que funciona en las IA lo suficientemente tontas como para ser engañadas es un mecanismo de alineación que solo se ha probado Antes, pero que, sin embargo, necesita funcionar Después.
Los únicos avisos previos que recibirías serían pequeños indicios de que la luz parecía moverse a la misma velocidad en todas direcciones en cualquier época del año, de que se curvaba alrededor del Sol durante los eclipses y de que el perihelio de Mercurio se desviaba un poco de lo que predecía la mecánica newtoniana. Pequeñas anomalías, sopesadas frente a un enorme cuerpo de éxito predictivo en mil dominios empíricos.
Imaginemos que, antes de que se descubriera la mecánica newtoniana, unos extraños alienígenas le ofrecieran a la Tierra un trato: nos darían una gran riqueza si completamos una entrega interestelar, pero si fallamos, seríamos destruidos. Imaginemos que los científicos descubrieran la mecánica newtoniana y argumentaran que, sin duda, ahora se les debería permitir hacer la entrega. Tendrían montones y montones de evidencia empírica a su favor, respaldados por los nuevos conocimientos científicos que estaban en proceso de facilitar nuevas y poderosas tecnologías.
Imaginemos las agallas que necesitaría un regulador para decir: «Sin embargo, no pueden explicar el avance del perihelio de Mercurio, por lo que la respuesta es "no"».
¡Qué injusto sería para los científicos! ¡Tendrían tanta evidencia que aportar!
(De hecho, es probable que un regulador realista no fuera capaz de ver que la respuesta seguiría siendo «no», lo que en parte explica por qué no tenemos esperanzas en una coalición internacional y creemos que el mundo simplemente tiene que desentenderse del problema por completo).
A la naturaleza no le importan todas las montañas de evidencia y predicciones acumuladas por la física newtoniana. La teoría se desmorona cuando nos movemos a energías y escalas muy alejadas de lo que habíamos podido observar antes. Simplemente no funciona a altas energías y largas distancias.
Es difícil conseguir que las teorías científicas funcionen al primer intento importante.
Las intuiciones humanas básicas de justicia, cooperación, curiosidad y autonomía son difíciles de rebatir y son acumulativas, algo que a menudo no ocurre con nuestros impulsos más destructivos. […] Estas simples intuiciones, llevadas a su conclusión lógica, conducen finalmente al estado de derecho, la democracia y los valores de la Ilustración. Si no de forma inevitable, al menos como tendencia estadística, es hacia donde ya se dirigía la humanidad. La IA simplemente ofrece una oportunidad para llegar allí más rápidamente, para hacer la lógica más patente y el destino más claro.
Es una forma extraña de presentar la creencia de que estás creando una tecnología que, en mi opinión, tiene una probabilidad de entre el 10 % y el 25 % de ser catastrófica para la civilización, incluso teniendo en cuenta los enormes beneficios potenciales en caso de éxito. Incluso si los niveles de peligro son tan bajos como cree Amodei, deberíamos afanarnos por encontrar una tercera alternativa, aparte de «no proceder» y «precipitarse». Y si uno cree que está obligado a precipitarse (porque otras personas ya lo están haciendo), debería suplicar a los líderes mundiales que pongan fin a esta carrera suicida, para que se pueda encontrar esa tercera alternativa. Pintar un panorama optimista parece una mera distracción, cuando se trata de jugarse la vida de todos.
Al igual que los automóviles o los aviones, deberíamos considerar los modelos de IA del futuro próximo como máquinas potentes de gran utilidad, pero que pueden ser letales si se diseñan mal o se usan de forma impropia. […] Los nuevos modelos de IA deberían superar una batería de pruebas de seguridad rigurosas tanto durante su desarrollo como antes de su lanzamiento al público o a los clientes. […] Sin embargo, lo ideal sería que los estándares catalizaran la innovación en seguridad en lugar de ralentizar el progreso.
Agradecemos a Amodei que haya dejado claro que cree que hay peligros que deben abordarse. Eso es un paso más allá de lo que harían muchos ejecutivos de empresas. Pero comparar una tecnología que, en su opinión, tiene una probabilidad de entre el 10 % y el 25 % de provocar una catástrofe a nivel de la civilización con los coches y los aviones parece poco sincero.
Tampoco está claro durante cuánto tiempo seguirá apareciendo este tipo de señal de advertencia. Las IA modernas todavía son lo bastante simples como para confundir ocasionalmente las pruebas con la realidad, pero esta situación no durará para siempre y ya está empezando a llegar a su fin. Una IA que sepa que está siendo sometida a prueba podría dejar de exhibir el comportamiento preocupante en lugares donde los supervisores puedan verlo, aunque la tendencia subyacente persista.
En cambio, estudiar el caso con funciones de utilidad se parece más a proponer el tipo de ejercicios de física que se encuentran en los libros de texto de matemáticas. Si no sabes cómo modelar una esfera perfecta que rueda por un plano inclinado perfectamente liso y sin resistencia del aire, tendrás aún más dificultades con problemas más realistas. Sobre todo si intentas atraer a investigadores de otros campos para que investiguen un problema que nadie sabe cómo resolver, es útil reducir la cuestión a sus partes más simples y básicas, donde se pueda plantear un acertijo.
O, bueno, costaría vidas, si no fuera porque la superinteligencia mata exactamente a las mismas personas.
De hecho, es muy probable que las personas enfermas y moribundas de hoy en día tengan mejores posibilidades de sobrevivir si la humanidad se aleja del abismo:
- La investigación biomédica y la búsqueda de tratamientos y curas pueden continuar sin necesidad de una superinteligencia. La terapia génica, las vacunas contra el cáncer y otros nuevos enfoques son muy prometedores, y los investigadores apenas están empezando a explorar su potencial.
- La tecnología de IA con un enfoque limitado puede incluso ayudar a acelerar este esfuerzo, sin necesidad de poner en peligro toda la empresa humana mediante la creación de una IA general más inteligente que los humanos.
- Los métodos de preservación del cerebro pueden utilizarse para preservar a las personas incluso después de que su corazón deje de latir, hasta que la ciencia médica avance hasta el punto de poder revivirlas y restaurar su salud. El tipo de IA que podría ofrecer la inmortalidad también podría, casi con toda seguridad, restaurar a alguien a partir de un cerebro preservado adecuadamente.
(Más discretamente, un subconjunto de estas personas te dirá que lo hacen por su propia inmortalidad personal y que están dispuestas a arriesgar la vida de todos los adultos y niños del planeta, incluso por una pequeña posibilidad de que ellos y sus seres queridos puedan lograrla. Esto nos parece una vileza digna de un villano de película. A estos villanos les recomendamos lo mismo que a los altruistas: inscríbanse en un programa de conservación cerebral. Les dará más posibilidades que una superinteligencia descontrolada, ¡y además evitarán poner en grave peligro a todos los seres humanos vivos en su búsqueda de la inmortalidad! Todos salen ganando).
Incluso si solo nos preocupara el bienestar de los enfermos y los moribundos, arriesgarse con alguna combinación de estos métodos parece una opción mejor que arriesgarse a crear una IA superhumana y esperar que le agrademos. (Y que le agrademos de la forma adecuada.) Los dados para la IA sobrehumana están dramáticamente cargados en nuestra contra.
Pero además: que sepamos, nadie les ha preguntado realmente a los enfermos y moribundos si quieren poner a sus familias y compatriotas en grave peligro para jugársela por una posible cura derivada de la superinteligencia. Y, desde luego, a las familias y compatriotas en cuestión tampoco se les ha preguntado si consienten en que sus vidas se pongan en juego por este experimento científico demencial.
No tenemos por qué apostar nuestras vidas a esta opción, cuando existen muchas otras.
Imploramos a cualquiera que se preocupe por el bienestar de las personas hoy en día que, en su lugar, acelere los métodos anteriores, y que se mantenga lo más alejado posible de todo lo que pudiera acercarnos, incluso de forma incremental, a la superinteligencia artificial.
No creer que una superinteligencia descontrolada nos mataría es una cosa. Pero aceptar que probablemente nos mataría a todos y aun así decir que tenemos que arriesgarnos es una locura. Hay otras opciones para resolver los problemas del mundo moderno. Por analogía: si vivir en un entorno de gran altitud te hace sentir incómodo, eso no es excusa para saltar por un precipicio. Busca otro camino para llegar al pie de la montaña.
Dicho esto, se trata de una recomendación con un bajo nivel de confianza y puramente relativa. En términos absolutos, cualquiera que no haya creado una empresa con una probabilidad sustancial de destruir el mundo parte con una gran ventaja de credibilidad frente a los directores de los laboratorios. Hemos oído historias de personas que decían que le tenían tanto miedo a Hassabis que no tuvieron más remedio que crear sus propias empresas de IA de vanguardia para adelantársele; es posible que esas personas sepan algo que nosotros no.
Por lo tanto, nuestra recomendación principal para los responsables de políticas es esta: si están convencidos del peligro, no concedan ninguna potestad a los directores de laboratorio.
Habla con investigadores independientes, líderes empresariales sin intereses creados o científicos externos con un historial de declaraciones y acciones razonables en este ámbito. No te pongas en una posición en la que puedas salir perjudicado por personas cuya principal característica es que mienten al público y ponen en peligro a la gente.
Parece que, durante décadas, los anestesistas causaron cientos de veces más muertes de las necesarias, literalmente sin otra razón que la de considerar que su tasa de mortalidad ya era baja (en comparación, por ejemplo, con las tasas de complicaciones quirúrgicas). No se dieron cuenta de que debían intentar reducir esa tasa, como informan Hyman y Silver:
Para la década de 1950, las tasas de mortalidad oscilaban entre 1 y 10 por cada 10 000 intervenciones. La mortalidad por anestesia se estabilizó en este nivel durante más de dos décadas.
[…D]ebemos considerar por qué la mortalidad por anestesia se estabilizó en una tasa más de cien veces superior a su nivel actual durante más de dos décadas. El problema no era la falta de información. Al contrario, la seguridad de la anestesia se estudió exhaustivamente durante ese periodo. Una hipótesis más plausible es que los anestesistas se acostumbraron a una tasa de mortalidad que era ejemplar según los estándares sanitarios, pero que seguía siendo más alta de lo que debería haber sido. Desde una perspectiva psicológica, esta baja frecuencia llevó a los anestesistas a tratar cada mal resultado como un acontecimiento trágico, pero imprevisto e inevitable. De hecho, es probable que los anestesistas consideraran cada mal resultado individual como la manifestación de una tasa de referencia irreductible de accidentes médicos.
Una estimación menos sólida y más subjetiva puede errar sistemáticamente en la dirección de «demasiado pesimista», pero también puede errar en la dirección de «demasiado optimista». El hecho de que estas cifras sean menos fiables no significa que estén específicamente sesgadas hacia el pesimismo. El hecho de que los investigadores de la IA no puedan basar sus estimaciones de riesgo en nada más que corazonadas y argumentos cualitativos, mientras que año tras año desarrollan IA cada vez más inteligentes, es un motivo más de preocupación.
El hecho de que las estimaciones de los investigadores en IA sean realmente aterradoras y no tengan precedentes en ninguna disciplina técnica no demuestra que sean erróneas en el sentido que nos gustaría que lo fueran. La carrera por crear agentes autónomos mucho más inteligentes que los humanos parece el tipo de empresa que tiene muchas más probabilidades de provocar una catástrofe que un 50 %. Antes incluso de entrar en detalles, parece el tipo de proyecto que muy probablemente saldrá mal de una forma u otra, y en el que un fallo podría tener consecuencias enormes. Y los detalles, como hemos argumentado en los capítulos 4 y 5 y a lo largo de todo el libro, pintan un panorama aún más sombrío de lo que sugiere esta primera impresión.
Fallecieron los tres tripulantes del Apolo 1.
Este tipo de errores son comunes, incluso cuando hay vidas en juego. Son comunes incluso para los ingenieros de cohetes que trabajan con dispositivos que explotan visiblemente en la plataforma de lanzamiento con frecuencia, incluso entre personas que proceden con cuidado y se toman sus responsabilidades muy en serio.
Lo que diferencia a los científicos de los alquimistas no es que nunca cometan errores, sino que pueden elaborar planes que están tan cerca de funcionar que pueden aprender de los fracasos iniciales. Los alquimistas solían ver cómo sus colegas se volvían locos, pero al no saber qué sustancias eran venenosas, no sabían qué hacer ellos mismos de forma distinta. La NASA, por el contrario, pudo rastrear las causas probables del problema y construir una nueva nave espacial que funcionó en quince de las dieciséis misiones siguientes (siete de las cuales intentaron un alunizaje, y una de ellas fracasó. La misión fallida, el Apolo 13, también sufrió problemas en la cabina que fácilmente podrían haber sido mortales, aunque el dominio de la NASA de los sistemas que había diseñado y la pericia de los astronautas a bordo permitieron su regreso seguro a la Tierra).
El Apolo 1 era casi un cohete funcional. Todo el entramado de ingenieros y científicos meticulosos que lo rodeaba constituía casi el tipo de operación que podía llegar a la Luna de forma segura, de modo que un gran error bastó para empujar a la NASA hacia una configuración capaz de conseguir seis de siete alunizajes.
Las empresas modernas de IA están muy lejos de mostrar ese nivel de respeto por el problema, ese nivel de cuidado y detalle en sus planes, ese nivel de cercanía a hacer bien el trabajo. Cuando su IA hace algo que no entienden, están muy lejos de poder rastrearlo como en el caso de los cables recubiertos de plata. No están lo suficientemente cerca como para aprender de sus errores.
No están tratando el problema como se haría en un campo incipiente como el de los controladores aéreos, los científicos espaciales o los especialistas nucleares: presentando propuestas cuidadosas con supuestos de seguridad explícitos y sin hacer nada peligroso hasta tener teorías lo suficientemente desarrolladas como para poder al menos aprender de sus fracasos.
(Por supuesto, la sociedad en general no clama por la ciencia loca, sino que más bien se resiste al cambio del statu quo. Pero a quienes dicen «no podemos detener la IA porque es importante para el progreso de la civilización», la respuesta correcta es que hay mucho progreso por hacer en otros ámbitos, con el tipo de ciencia loca que deja sobrevivientes).
¿Podrían investigaciones como esta permitir a la gente fabricar IA en lugar de cultivarlas? ¡Podría ayudar! Por desgracia, prevemos que, mucho antes de que la gente desarrolle una comprensión completa y correcta de lo que ocurre en los LLM, ya habrá desarrollado una comprensión parcial e incompleta que le permitirá construir IA mucho más eficientes, pero que no será suficiente para alinearlas.
Pero, para insistir: consideramos que este tema es principalmente una distracción hoy en día. No es importante llegar a un acuerdo sobre ninguna de estas ideas filosóficas de tan alto nivel para poder tomar medidas respecto a una tecnología que va camino de matarnos a todos. Sería una insensatez profunda dejar que los esfuerzos de no proliferación se vean obstaculizados por gente que debate ideas brillantes como estas, incluidas aquellas que a nosotros, los autores, personalmente nos gustan.
No obstante, mencionamos brevemente esta propuesta, solo para dejar claro que no estamos tratando de eludir la cuestión y, tal vez, para tranquilizar a los lectores que temen que sea imposible llegar a una propuesta viable. Incluso si la volición extrapolada coherente es un enfoque de alto nivel erróneo por alguna razón, el hecho de que recoja muchas propiedades deseables debería inspirar cierta esperanza de que es posible encontrar una respuesta no catastrófica a esta cuestión.
Ben Bernanke, premio Nobel y expresidente de la Reserva Federal: «Un relato claro y convincente sobre los riesgos existenciales que la IA altamente avanzada podría plantear a la humanidad. Recomendado».
Jon Wolfsthal, director de Riesgos Globales de la Federación de Científicos Americanos y exasistente especial del presidente para Asuntos de Seguridad Nacional: «Un argumento convincente de que la IA superhumana conduciría con casi total seguridad a la aniquilación global de la humanidad. Los gobiernos de todo el mundo deben reconocer los riesgos y tomar medidas colectivas y eficaces».
Del teniente general John N. T. «Jack» Shanahan (Fuerza Aérea de los Estados Unidos, retirado), director inaugural del Centro Conjunto de IA del Departamento de Defensa: «Aunque soy escéptico respecto a que la trayectoria actual del desarrollo de la IA conduzca a la extinción humana, reconozco que esta opinión puede reflejar una falta de imaginación por mi parte. Dado el ritmo exponencial de cambio de la IA, no hay mejor momento para tomar medidas prudentes que protejan contra los peores resultados. Los autores ofrecen propuestas importantes para establecer salvaguardias globales y mitigar los riesgos que merecen ser consideradas seriamente.»
De Fiona Hill, exdirectora sénior del Consejo de Seguridad Nacional de la Casa Blanca: «Un libro serio en todos los aspectos. En el escalofriante análisis de Yudkowsky y Soares, una IA superpoderosa no tendrá necesidad de la humanidad y tendrá amplia capacidad para eliminarnos. Si alguien la crea, todos moriremos es un elocuente y urgente llamado para que nos alejemos del borde de la autodestrucción».
De R. P. Eddy, exdirector del Consejo de Seguridad Nacional de la Casa Blanca: «Esta es nuestra advertencia. Léanlo hoy. Difúndanlo mañana. Exijan salvaguardias. Seguiré apostando por la humanidad, pero primero debemos despertar».
De Suzanne Spaulding, exsubsecretaria del Departamento de Seguridad Nacional: «Los autores plantean una cuestión increíblemente grave que merece —en realidad, exige— nuestra atención».
De Emma Sky, investigadora principal de la Escuela Jackson de Asuntos Globales de Yale y exasesora política del comandante general de las fuerzas estadounidenses en Irak: «En Si alguien la crea, todos moriremos, Eliezer Yudkowsky y Nate Soares lanzan una advertencia cruda y urgente: la humanidad se precipita hacia la creación de una superinteligencia sin las salvaguardias necesarias para sobrevivir a ella. Con credibilidad, claridad y convicción, sostienen que los sistemas avanzados de inteligencia artificial, si se desalinean aunque sea ligeramente, podrían significar el fin de la civilización humana. Este provocativo libro desafía a los tecnólogos, a los responsables políticos y a los ciudadanos por igual a enfrentarse a los riesgos existenciales de la inteligencia artificial antes de que sea demasiado tarde. Un llamamiento a la concienciación y a la precaución, esta es una lectura esencial para cualquiera que se preocupe por el futuro».
Los centros de datos también podrían funcionar con energía nuclear. Afortunadamente, muchos actores estatales ya tienen experiencia en la supervisión de la construcción de nuevas centrales nucleares.