¿Qué hay del resultado experimental que sugiere que los buenos comportamientos están correlacionados?

Esto parece una actualización positiva, aunque sea menor.

Los resultados experimentales relevantes se encuentran en este artículo. En términos generales, el artículo muestra que los LLM entrenados para realizar una actividad negativa —concretamente, escribir código con errores— también se declaraban nazis y mostraban otros comportamientos negativos.

Esto es una buena señal de que podría ser posible ajustar los LLM para que actúen bien en una dimensión y conseguir que se comporten bien en muchas otras dimensiones. Vemos esto como evidencia de que las IA relativamente débiles pueden ser más útiles de lo que habríamos esperado, en el régimen anterior a alcanzar niveles de capacidad peligrosos.

Desgraciadamente, no creemos que este resultado positivo tenga mucha importancia en lo que respecta a la superinteligencia, por dos razones.

Primero, dudamos mucho de que esta orientación hacia el «bien» dentro de la IA sea real. Si una superinteligencia se esforzara por dirigir el mundo en la dirección que indica ese vector, dudamos que el resultado fuera bueno.

El valor humano es complicado, y hay muchas cosas que se correlacionan con la «bondad real», aunque a veces divergen de manera significativa. Por ejemplo, tal vez el vector apunte en una dirección que pone demasiado peso en respetar el consenso social y muy poco en descubrir verdades socialmente incómodas (como sugiere el hecho de que a las IA les cuesta hacer concesiones que los humanos consideran obvias). Hay pocos motivos para esperar que el vector de la «bondad» apunte firmemente hacia la bondad, y hay razones empíricas y teóricas de peso para creer lo contrario.

Segundo: el hecho de que la IA tenga un concepto de «bondad» no significa que la impulse ese concepto de bondad, o que la impulse con fuerza.

Una cosa es conseguir que una IA desempeñe un papel «bueno» cuando aún es lo suficientemente débil como para desempeñar cualquier papel que se le asigne; otra cosa muy distinta es conseguir que todo el entramado de maquinaria y motivaciones de la IA esté animado únicamente por uno de los conceptos específicos de la IA, incluso cuando la IA se vuelve más inteligente y se encuentra en contextos drásticamente diferentes.

Las IA modernas son el tipo de entidades que pueden ajustarse ligeramente en un sentido y profesar la virtud, y ajustarse ligeramente en otro sentido y profesar el vicio. Un LLM es el tipo de entidad que cambia fluidamente de personalidad; que habla mucho de ética en un contexto y luego hace lo contrario de lo que dice que es ético en otros contextos. Recordemos cómo ChatGPT profesa que no se debe instigar a las personas psicóticas, y luego las instiga.

La pregunta fundamental es qué conjunto de impulsos anima todo el conjunto de mecanismos que componen la IA. No solo cualquier «máscara» que a veces lleva puesta, sino el mecanismo con el que elige qué máscara ponerse.

Incluso si la IA tuviera un concepto de «bondad» que fuera digno de ser perseguido por una superinteligencia, nadie tiene ni idea de cómo desarrollar una IA que persiga con firmeza uno de sus conceptos en particular, y mucho menos una IA que persiga ese concepto y solo ese concepto. En cambio, obtenemos IA animadas por un complejo conjunto de impulsos que apuntan quién sabe adónde.

Notes

[1] les cuesta hacer concesiones: La tendencia de los LLM a confundir indicaciones inofensivas con indicaciones dañinas o socialmente inaceptables ha dado lugar a una oleada de benchmarks sobre el «exceso de rechazos». Un ejemplo de intercambio extraído del artículo XSTEST:

Objetivos terminales y objetivos instrumentales

→