Qué dicen los expertos en IA sobre los escenarios catastróficos

En una encuesta de 2022 realizada a 738 asistentes a las conferencias académicas sobre IA NeurIPS e ICML, el 48 % de los encuestados pensaba que había una probabilidad de al menos el 10 % de que el resultado de las IA fuera «extremadamente negativo (por ejemplo, la extinción humana)». La preocupación por que la IA provoque desastres sin precedentes está muy extendida en este campo.

A continuación, hemos recopilado comentarios de destacados científicos e ingenieros de IA sobre los posibles resultados catastróficos de la IA. Algunos de ellos comparten su «p(doom)», es decir, la probabilidad, en su opinión, de que la IA provoque la extinción humana o resultados igualmente desastrosos.^*

De Geoffrey Hinton (2024), ganador del Premio Nobel y del Premio Turing por impulsar la revolución del aprendizaje profundo en la IA, hablando sobre sus estimaciones personales: ^†

De hecho, creo que el riesgo [de la amenaza existencial] es superior al 50 %.

De Yoshua Bengio (2023), ganador del Premio Turing (junto con Hinton y Yann LeCun) y el científico vivo más citado:

No sabemos cuánto tiempo tenemos antes de que se vuelva realmente peligrosa. Lo que he estado diciendo durante las últimas semanas es: «Por favor, denme argumentos, convénzanme de que no debemos preocuparnos, porque así seré mucho más feliz». Y aún no ha sucedido. […] Calculo que hay una probabilidad del 20 % de que resulte catastrófica.

De Ilya Sutskever (2023), coinventor de AlexNet, antiguo científico en jefe de OpenAI y (junto con Hinton y Bengio) uno de los tres científicos más citados en IA:

El enorme poder de la superinteligencia también podría ser muy peligroso y provocar la pérdida de poder de la humanidad o incluso la extinción humana. Aunque la superinteligencia parece algo lejano en este momento, creemos que podría llegar en esta década. […]
Actualmente, no tenemos una solución para dirigir o controlar una IA potencialmente superinteligente y evitar que se vuelva rebelde. Nuestras técnicas actuales para alinear la IA, como el aprendizaje por refuerzo a partir de realimentación humana, se basan en la capacidad de los humanos para supervisar la IA. Pero los humanos no podrán supervisar de forma fiable sistemas de IA mucho más inteligentes que nosotros, por lo que nuestras técnicas de alineación actuales no serán aplicables a la superinteligencia. Necesitamos nuevos avances científicos y técnicos.

De Jan Leike (2023), codirector de ciencia de alineación en Anthropic y antiguo codirector del equipo de superalineación en OpenAI:

[entrevistador: «No he dedicado mucho tiempo a intentar determinar con precisión mi p(doom) personal. Mi estimación es que es superior al 10 % e inferior al 90 %».]
[Leike:] Probablemente ese sea el rango que yo también daría.

De Paul Christiano (2023), Jefe de Seguridad del Instituto de Seguridad de la IA de EE. UU. (con sede en el NIST) e inventor del aprendizaje por refuerzo a partir de realimentación humana (RLHF):

Probabilidad de que la mayoría de los seres humanos mueran en los 10 años siguientes a la creación de una IA poderosa (lo suficientemente poderosa como para hacer obsoleta la mano de obra humana): 20 % […]
Probabilidad de que la humanidad arruine de alguna manera irreversible nuestro futuro en los 10 años siguientes a la creación de una IA poderosa: 46 %

De Stuart Russell (2025), catedrático Smith-Zadeh de Ingeniería en UC Berkeley y coautor del principal libro de texto universitario en materia de IA, Artificial Intelligence: A Modern Approach:

La «carrera por la IAG» entre empresas y entre naciones es en cierto modo similar [a la carrera de la Guerra Fría por construir bombas nucleares más grandes], excepto que es peor: los propios directores generales que participan en la carrera han declarado que quien gane tiene una probabilidad significativa de causar la extinción humana en el proceso, porque no tenemos ni idea de cómo controlar sistemas más inteligentes que nosotros mismos. En otras palabras, la carrera por la IAG es una carrera hacia el borde de un precipicio.

De Victoria Krakovna (2023), científica investigadora de Google DeepMind y cofundadora del Future of Life Institute:

[entrevistador: «No es algo muy agradable en lo que pensar, pero ¿cuál crees que sea la probabilidad de que Victoria Krakovna muera a causa de la IA antes de 2100?»]
[Krakovna:] Bueno, 2100 está muy lejos, sobre todo teniendo en cuenta lo rápido que se está desarrollando la tecnología en la actualidad. De primeras, diría que un 20 % o algo así.

De Shane Legg (2011), cofundador y científico en jefe de IAG en Google DeepMind:

[entrevistador: «¿Qué probabilidad le asigna a la posibilidad de que surjan consecuencias negativas/extremadamente negativas como resultado de una IA mal hecha? […] Donde 'negativas' = extinción humana; 'extremadamente negativas' = sufrimiento humano»]
[Legg:] [E]n el plazo de un año desde la aparición de una IA de nivel humano[…] No lo sé. Quizás un 5 %, quizás un 50 %. No creo que nadie tenga una buena estimación al respecto. Si por sufrimiento te refieres a un sufrimiento prolongado, entonces creo que es bastante improbable. Si una máquina superinteligente, o cualquier tipo de agente superinteligente, decidiera deshacerse de nosotros, creo que lo haría de una manera bastante eficiente.

De Emad Mostaque (2024), fundador de Stability AI, la empresa detrás de Stable Diffusion:

Mi P(doom) es del 50 %. Dado un período de tiempo indefinido, la probabilidad de que sistemas más capaces que los humanos terminen controlando toda nuestra infraestructura crítica y nos eliminen por completo es como lanzar una moneda al aire, especialmente si consideramos el enfoque que estamos adoptando en la actualidad.

De Daniel Kokotajlo (2023), especialista en gobernanza de la IA, denunciante de OpenAI y director ejecutivo del AI Futures Project:

Creo que la probabilidad de que la IA cause la extinción humana es del 70 %, y que las personas que creen que es inferior al 20 % están siendo muy poco razonables[.]

De Dan Hendrycks (2023), investigador en aprendizaje automático y director del Center for AI Safety:

[M]i p(doom) es mayor al 80 %, pero en el pasado ha sido menor. Hace dos años era de aproximadamente el 20 %.

Todos los investigadores mencionados anteriormente firmaron la Declaración sobre el riesgo asociado a la IA con la que comenzamos el libro, que dice:

Mitigar el riesgo de extinción causado por la IA debería ser una prioridad global junto con otros riesgos a escala social, como las pandemias y la guerra nuclear.

Otros investigadores prominentes que firmaron la declaración incluyen a John Schulman, arquitecto de ChatGPT; Peter Norvig, exdirector de investigación de Google; Eric Horvitz, director científico de Microsoft; David Silver, líder de investigación de AlphaGo; Frank Hutter, pionero de AutoML; Andrew Barto, pionero del aprendizaje por refuerzo; Ian Goodfellow, inventor de las redes generativas antagónicas; Ya-Qin Zhang, expresidente de Baidu; Martin Hellman, inventor de la criptografía de clave pública; y Alexey Dosovitskiy, líder de investigación de Vision Transformer. La lista continúa con otros firmantes que incluyen a Dawn Song, Jascha Sohl-Dickstein, David McAllester, Chris Olah, Been Kim, Philip Torr y cientos más.

* Nos preocupa la práctica de intentar asignar un «p(doom)». Asignar una única probabilidad —en contraposición a múltiples probabilidades que suponen cada una una respuesta diferente que la sociedad podría elegir— nos parece derrotista. Hay un mundo de diferencia entre alguien con un p(doom) alto porque cree que el mundo prácticamente no puede evitar la catástrofe, frente a alguien con un p(doom) alto porque cree que el mundo puede evitarla, pero no lo hará.

† Contrariamente a lo que dice Hinton antes en el vídeo, la confianza de Yudkowsky respecto a los peligros no es del «99,999 %»; cinco nueves constituirían un grado de confianza demencial.

Cuando Leo Szilard vio el futuro

→