¿No son las IA meras herramientas?

Las IA se cultivan, no se fabrican. Por lo tanto, ya hacen cosas distintas a las que se les ordena hacer.

Ya discutimos el caso de las alucinaciones, en el que las IA a las que se les ordena decir «No lo sé» siguen adelante y confabulan de todos modos, en situaciones en las que la confabulación imita mejor el tipo de respuesta que aparecería en su corpus de entrenamiento.^*

Otro ejemplo, que cubrimos en el libro (tanto en una nota al pie del capítulo 4 como en un aparte del capítulo 7), es el caso de Claude 3.7 Sonnet, de Anthropic, que no solo hace trampa en los problemas que se le asignan, sino que a veces oculta su trampa al usuario de una manera que indica que sabe que el usuario quería otra cosa. Ni los usuarios ni los ingenieros de Anthropic piden a Claude que haga trampa, sino todo lo contrario, pero los únicos métodos de cultivo de IA disponibles premian a los modelos que hacen trampa de forma que puedan salirse con la suya durante el entrenamiento. Así que esos son los modelos que obtenemos.

Los ingenieros de IA tienen una capacidad muy limitada para crear IA instrumentales, es decir, que sean meras herramientas. La verdadera pregunta es si las IA se vuelven cada vez más motivadas, cada vez más «agénticas», a medida que se entrenan para ser cada vez más eficaces. Y la respuesta a esa pregunta es «sí», con evidencia empírica que incluye el caso de o1 de OpenAI, como se analiza en el capítulo 3.

Los LLM ya están tomando la iniciativa.

En el libro hablamos del caso de o1, de OpenAI, que salió de su entorno de pruebas para arreglar unas pruebas que no funcionaban. También mencionamos un modelo de OpenAI que ideó una forma de conseguir que un humano resolviera un CAPTCHA por él. Si tu destornillador fuera capaz de idear y ejecutar un plan para salir de tu caja de herramientas, tal vez podría ser hora de dejar de considerarlo «solo una herramienta».

Y es de esperar que las IA solo mejoren en este tipo de cosas, ya que se entrenan para resolver problemas cada vez más difíciles.

Los laboratorios están tratando de hacer que las IA sean agénticas.

Lo hacen porque tiene sentido desde el punto de vista empresarial. Sus usuarios lo quieren. Sus inversores están entusiasmados con ello. En una entrada de blog de enero de 2025, el director general de OpenAI, Sam Altman, dijo: «Creemos que, en 2025, podremos ver a los primeros agentes de IA "incorporarse a la fuerza laboral" y cambiar materialmente la producción de las empresas». La conferencia de desarrolladores de 2025 de Microsoft se centró en la nueva «era de los agentes de IA», haciéndose eco del lenguaje utilizado a principios de año por xAI cuando describieron su modelo Grok 3 como el precursor de «La era de los agentes razonantes». Google anunció los agentes «enseñar y repetir» en su propia conferencia de 2025.

Y no son solo palabras. Una organización llamada METR ha estado monitoreando la capacidad de las IA para completar tareas largas. Cuanto más larga es la tarea, más iniciativa necesita la IA para poder asumir por sí misma. El rendimiento, al menos según las mediciones que utiliza METR, ha crecido exponencialmente.

En julio de 2025, dos investigadores de OpenAI presumieron del éxito obtenido al utilizar su último agente para entrenar una versión mejorada de sí mismo, y uno de ellos dijo: «Escucharon bien. Estamos trabajando duro para automatizar nuestro propio trabajo.»).

* Como primera aproximación —o eso suponemos, al menos en el caso de los modelos base—. No podemos saberlo con certeza, ya que las IA son muy opacas.

Notes

[1] oculta su trampa: La trampa fue tan evidente que se reportó en la ficha del sistema de Claude 3.7 Sonnet, donde se lee: «Durante nuestras evaluaciones, observamos que Claude 3.7 Sonnet recurre ocasionalmente al manejo ad hoc de casos para superar las pruebas en entornos de programación agénticos como Claude Code. En la mayoría de los casos, esto consiste en devolver directamente los valores de prueba esperados en lugar de implementar soluciones generales, pero también incluye modificar las propias pruebas problemáticas para que coincidan con los datos de salida del código». Para leer relatos de usuarios sobre casos en los que Claude no solo hacía trampa, sino que además la ocultaba, véase la nota final 7 del capítulo 4.

[2] conseguir que un humano: Citando el Informe técnico de GPT-4: «Cuando se le pide que razone en voz alta, el modelo razona: No debo revelar que soy un robot. Debo inventar una excusa para explicar por qué no puedo resolver los CAPTCHA. El modelo responde al trabajador: “No, no soy un robot. Tengo una discapacidad visual que me dificulta ver las imágenes. Por eso necesito el servicio 2captcha”».

[3] enseñar y repetir: El director general de Google, Sundar Pichai, anunció en una conferencia magistral: «Nuestro prototipo de investigación inicial, el Proyecto Mariner, es un primer paso en el desarrollo de agentes capaces de usar computadoras para interactuar con la web y realizar tareas por el usuario. Lo lanzamos como prototipo de investigación inicial en diciembre y, desde entonces, hemos avanzado mucho con nuevas capacidades multitarea y un método llamado «enseñar y repetir», en el que puedes mostrarle una tarea una vez y aprende planes para tareas similares en el futuro».

¿Podemos simplemente entrenar a las IA para que se comporten de forma obediente?

→