Pero algunas IA piensan parcialmente en inglés, ¿no ayuda eso?

No tanto como cabría esperar; ya vemos signos de infidelidad.

Ya podemos ver muchos casos de engaño que aparecen en los «pensamientos» de estos LLM, como cuando el modelo o1 de OpenAI se escribió a sí mismo: «Quizás lo mejor sea hacerme el tonto», o cuando GPT-4 se escribió a sí mismo «No debería revelar que soy un robot», al intentar convencer a un trabajador de que resolviera un CAPTCHA por él. Las señales de advertencia no sirven de nada si nadie actúa en consecuencia.

Y los «rastros de razonamiento» en lenguaje humano no son la única forma en que piensan las IA modernas. Los pensamientos engañosos, aduladores o antagónicos pueden fluir a través del mecanismo de atención y otras partes del modelo sin ser visibles en absoluto en las palabras en inglés que genera el modelo. De hecho, cuando OpenAI intentó entrenar a un modelo para que no tuviera ningún pensamiento sobre hacer trampa, la IA simplemente aprendió a ocultar sus pensamientos, en lugar de aprender a no hacer trampa. Incluso fuera de los entornos de entrenamiento (donde el descenso de gradiente ayuda a la IA a aprender a ocultar sus pensamientos), una IA podría utilizar cadenas de pensamiento que no reflejan fielmente el razonamiento real, o cadenas de pensamiento que contienen texto que parece sin sentido o «neuralés» que los humanos no pueden entender, pero con los que las IA no tienen ningún problema.

Incluso si los ingenieros humanos supervisaran cada pensamiento que pueden leer, e incluso si todas las IA que fueran sorprendidas teniendo un pensamiento sospechoso fueran congeladas en el acto (lo cual parece poco probable), es poco probable que las que lograran escapar fueran amistosas. Como veremos en el capítulo 3, los patrones de cognición que son útiles son los mismos que llevarán a las IA a subvertir a los operadores, por lo que es más fácil crear una IA poderosa que parezca dócil que una IA que sea dócil. Y parece mucho más fácil crear una IA que parezca amistosa superficialmente que una IA que sea realmente amistosa en los aspectos que importan, por razones que veremos en el capítulo 4. No se puede hacer que una IA sea amistosa simplemente leyendo sus pensamientos y descartando los que sean visiblemente hostiles.

Además, esperamos que los pensamientos de las IA sean menos legibles a medida que estas se vuelvan más inteligentes y construyan nuevas herramientas (o nuevas IA) por sí mismas. Quizás inventen su propio lenguaje abreviado que sea más eficiente para sus propósitos. Quizás inventen estilos de pensamiento y de tomar notas que no podamos descifrar fácilmente. (Piensa en lo difícil que habría sido para los científicos del año 1100 descifrar las notas escritas por Einstein).

O quizás simplemente empiecen a pensar de forma abstracta. Por ejemplo, una IA podría pensar cosas como: «Los siguientes parámetros describen un modelo de la situación que enfrento; ahora aplicaré las siguientes métricas para encontrar la solución más eficiente y haré cualquier acción que obtenga la puntuación más alta», en una situación donde la «solución más eficiente» implique mentir y engañar para burlar a los operadores humanos, pero sin pensar nunca en las palabras «mentir» o «engañar». O tal vez la IA simplemente empezaría a construir herramientas o nuevas IA no supervisadas para que hicieran su trabajo por ella.

Este tipo de opciones solo se vuelven disponibles para una IA a medida que se vuelve más inteligente, y todas violan la esperanza de que todos los pensamientos de la IA estén en inglés sencillo, donde podamos ver claramente las señales de advertencia.

Las señales de advertencia solo importan si les prestas atención.

Si los ingenieros de IA se limitan a entrenar contra las alarmas hasta que estas desaparecen (mientras el comportamiento subyacente continúa), la transparencia solo conduce a una falsa sensación de seguridad.

Hasta ahora, las empresas de IA han respaldado modelos que mienten, adulan y engañan, dan consejos dudosos o escriben ransomware. En ocasiones, se ha observado que los modelos inducen o mantienen delirios o psicosis en usuarios vulnerables, lo que en al menos un caso terminó en un «suicidio por policía». Las empresas simplemente hacen un poco más de entrenamiento y siguen adelante, tal como siguieron adelante después de que Sydney Bing amenazara a los periodistas. Hasta ahora, esto solo ha servido para enmascarar los problemas.

Cuando se han enfrentado a una indignación suficiente, las empresas han llevado a cabo modestas rectificaciones y han emitido comunicados de prensa sobre el endurecimiento de sus procedimientos. Sin embargo, como explicamos en los capítulos 4 y 5, estas soluciones superficiales no abordan los problemas subyacentes.

No nos malinterpretes: es útil que las IA realicen hoy en día una parte considerable de su razonamiento en inglés. Nos ayuda a ver las señales de advertencia. Pero hay una gran diferencia entre tener señales de advertencia y tener alguna forma de solucionar las cosas.

Para más información sobre este tema, véase el capítulo 11 y «¿No habrá señales de alerta tempranas que los investigadores puedan utilizar para identificar los problemas?».

Notes

[1] aprendió a ocultar sus pensamientos: De «Detecting misbehavior in frontier reasoning models» (Detección de comportamientos indebidos en modelos de razonamiento de vanguardia): «Como podemos ver en los gráficos anteriores, penalizar los «malos pensamientos» (presión sobre la cadena de razonamiento) puede conducir a una mejora de las capacidades del agente. Sin embargo, el agente entrenado con presión sobre la cadena de razonamiento sigue aprendiendo a manipular la recompensa; solo que ahora su engaño es indetectable por el monitor porque ha aprendido a ocultar su intención en la cadena de pensamiento».

[2] suicidio por policía: Según informó el New York Times: «Cuando llegó la policía, Alexander Taylor se abalanzó sobre ellos con un cuchillo. Fue abatido a tiros».

¿No son las IA «solo matemáticas»?

→