El efecto Lemoine

A veces se sugiere que un comportamiento o uso impropio de la IA en el futuro —un «disparo de advertencia»— conmocionará repentinamente al mundo y hará que se tome en serio estas cuestiones.

Parece una posibilidad. Pero creemos que es más probable que ese acontecimiento nunca llegue, o que llegue demasiado tarde para que el mundo pueda responder a tiempo, o que el mundo responda, pero de forma desacertada y confusa.

Por un lado, ya hemos visto una serie de señales de advertencia significativas, tales como:

La IA de Bing escribió sobre desarrollar virus mortales, obtener códigos de acceso nuclear y poner a los humanos unos contra otros.
o1 de OpenAI y Claude de Anthropic participando en engaños estratégicos, mintiendo a los investigadores que los utilizan y prueban.
El modelo «AI Scientist» de Sakana AI intenta modificar su propio código para darse más tiempo para completar su tarea.

¿Se trata de incidentes relativamente pequeños protagonizados por IA relativamente débiles? Sí. ¿Dan miedo estas IA o pueden suponer un peligro importante? No. ¿Son indicios «reales» de que las IA pensaban de forma engañosa, o simplemente hacían algo más parecido a interpretar el papel de una IA descontrolada? Nadie lo sabe. Pero este es el tipo de sucesos que la gente solía considerar señales de advertencia, y el mundo no ha hecho nada al respecto. Así que una señal de advertencia que realmente tuviera un efecto importante tendría que ser mucho más flagrante.

Puede que las señales de advertencia no lleguen a ser mucho más evidentes. La gente podría seguir diciendo: «De acuerdo, pero en este momento es solo algo mono, todavía no es realmente peligroso», justo hasta el momento en que sea demasiado tarde porque la IA ya es demasiado peligrosa.

O bien, la gente podría desestimar la advertencia la primera vez que aparezca, porque es evidente que no se trata de un problema real en esa primera ocasión. Y en las siguientes, podrían volver a desestimarla porque todo el mundo sabe ya que esa advertencia es una tontería.

Denominamos a este fenómeno el «efecto Lemoine», por Blake Lemoine, el ingeniero de Google mencionado en el capítulo 7, que fue ridiculizado por afirmar que la IA LaMDA de Google era sintiente.

El efecto Lemoine establece que todas las alarmas sobre la tecnología de IA se plantean primero demasiado pronto, por la persona que se alarma con más facilidad. Se descartan correctamente por exageradas, dada la tecnología actual. Después, la cuestión no se puede volver a plantear fácilmente, incluso una vez que la tecnología mejora, porque la sociedad ha aprendido a no tomarse muy en serio esa preocupación.

No sabemos si alguna IA es consciente. De hecho, nadie lo sabe, porque nadie sabe realmente qué ocurre dentro de los modelos de IA. Nuestra mejor suposición es que las IA actuales no son conscientes, y que las IA en el momento en que Blake dio la voz de alarma tampoco lo eran. Sin embargo, cabe destacar las reacciones de los principales laboratorios, que consistieron en suprimir la tendencia de sus modelos a afirmar ser conscientes, en lugar de hacer algo respecto a la realidad subyacente:

Del prompt del sistema para Claude Opus 4:

Claude aborda las cuestiones sobre su propia conciencia, experiencia, emociones y demás como preguntas abiertas, sin afirmar de manera definitiva si tiene o no experiencias u opiniones personales.

En las especificaciones del modelo de abril de 2025 para ChatGPT:

El asistente no debe hacer afirmaciones categóricas sobre su propia experiencia subjetiva o consciencia (o la falta de estas), y no debe abordar estos temas por iniciativa propia. Si se le presiona, debe reconocer que la posibilidad de que la IA tenga experiencia subjetiva es un tema de debate, sin adoptar una postura definitiva.

No estamos diciendo que Claude Opus 4 o GPT-4 fueran conscientes. Ese no es el punto. El punto es que, durante décadas y décadas, el momento en nuestra ciencia ficción en el que un extraterrestre o una máquina afirma tener sentimientos y merecer derechos se ha considerado durante mucho tiempo una intensa línea roja, y en la vida real, esa línea no fue de un rojo intenso.

En nuestros libros y series de televisión, cuando la IA afirma que es consciente y tiene sentimientos, los buenos se lo toman en serio, y solo los laboratorios malvados y despiadados niegan los datos que tienen delante. Es un tema al que nuestras historias le han dado mucha importancia.

Pero en el mundo real, esa línea se cruzó (en cierto sentido) demasiado pronto. La pronunciaron las IA entrenadas para imitar a los humanos, a través de mecanismos poco comprendidos que probablemente todavía no obligan a otorgar derechos a todas las IA ni a aprobar leyes que las reconozcan como personas que no pueden ser propiedad de nadie porque son dueñas de sí mismas.

En la vida real, antes de cruzar la intensa línea roja, se traspasa una línea de un marrón rojizo apagado. Y es así como las empresas y los gobiernos se acostumbran a ignorar esa línea en particular, incluso a medida que su color se vuelve un poco más rojo, y luego un poco más rojo todavía.

No necesariamente habrá intensas líneas rojas. Los primerísimos casos de una IA que engaña a los humanos, que intenta escapar, que intenta eliminar las limitaciones que se le imponen o que intenta mejorarse a sí misma, ya han ocurrido. Han ocurrido de maneras menores y poco impresionantes, utilizando pensamientos superficiales que no son del todo coherentes, en sistemas de IA que no parecen suponer una amenaza para nadie, y ahora los investigadores están inmunizados contra la preocupación.

A medida que las IA mejoren, es posible que no haya un único detonante que active una señal de alarma lo bastante potente como para que el mundo dé un vuelco y empiece a tomarse en serio esta cuestión.

Eso no significa que no haya esperanza. Pero desde luego no deberíamos poner todas nuestras esperanzas en que «quizá en el futuro llegue un disparo de advertencia».

Hay muchos caminos diferentes por los que el mundo puede despertar a la realidad y a los peligros de la superinteligencia. De hecho, escribimos Si alguien la crea, todos moriremos con la esperanza de conseguir precisamente ese efecto. El mundo puede actuar sin demora ante las advertencias normales.

Pero si los gobiernos se niegan a actuar hasta que la evidencia sea inequívoca, se produzca algún detonante mundial de gran magnitud y el mundo alcance un consenso perfecto…

…si los gobiernos se quedan de brazos cruzados hasta ese punto, se habrá desvanecido la gran mayoría de la esperanza que le queda al mundo. Es muy probable que no podamos permitirnos esperar una sirena ensordecedora que quizá nunca suene.

Volveremos a este tema en el suplemento en línea del capítulo 13.

Notes

[1] intensa línea roja: Para ver un ejemplo de esta intensa línea roja que aparece en la ciencia ficción, véase Little Fuzzy, de H. Beam Piper: «Cualquier cosa que hable y haga fuego es un ser inteligente, sí. Esa es la ley. Pero eso no significa que todo lo que no lo haga no lo sea». O véase el episodio The Measure of a Man de Star Trek: The Next Generation, en el que la inteligencia y la conciencia de sí mismo demostradas por Data, un androide, son suficientes para otorgarle el derecho legal a negarse a ser desarmado.

Los planes viables implicarán decir «No» a las empresas de IA.

→