¿No se limitan las IA a predecir el siguiente token?

Predecir tokens requiere comprender el mundo.

Imaginar que una IA que predice el siguiente token no puede hacer pensamiento real es como imaginar que una imagen codificada usando unos y ceros binarios no puede retratar una flor roja. La IA está produciendo tokens, sí, ¡pero puedes codificar cosas importantes en tokens! Predecir lo que viene después es un aspecto central de la inteligencia en el que procesos como la «ciencia» y el «aprendizaje» encajan fácilmente.

Considera el desafío de predecir texto registrado en Internet. En algún lugar de Internet, hay un registro de un estudiante curioso de física entrevistando a un profesor experimentado. El profesor considera la pregunta en silencio y luego produce su respuesta, que se registra a continuación en la transcripción.

La tarea de predecir con precisión la respuesta del profesor implica predecir sus pensamientos silenciosos sobre la física. Y predecir sus pensamientos silenciosos sobre la física requiere predecir cómo entenderá la pregunta del estudiante, predecir lo que el profesor sabe de física y predecir cómo aplicará ese conocimiento.

Si una IA puede predecir tan bien el texto de Internet que es capaz de predecir la respuesta novedosa de un físico a una pregunta, la primera vez que aparece, entonces la IA debe poseer necesariamente la capacidad de realizar razonamientos novedosos sobre física por sí misma, al menos tan bien como ese profesor de física.

Cuando se trata de predecir texto que refleja un mundo complicado y desordenado, la memorización mecánica no lleva muy lejos. Para hacer predicciones precisas, hay que desarrollar la capacidad de predecir no solo el texto, sino también el mundo complicado y desordenado que hay detrás de él.

Las IA modernas no solo predicen tokens.

Es cierto que los primeros LLM, como GPT-2 y el primer GPT-3, se entrenaron exclusivamente para la tarea de predicción. Su «único trabajo», por así decirlo, era hacer coincidir la distribución exacta de sus datos de entrenamiento: texto extraído de varios sitios web.

Pero esos días han terminado. Los LLM modernos están entrenados para responder de diversas maneras que sus creadores consideran más útiles. Esto se suele hacer mediante el «aprendizaje por refuerzo».

En un entorno de aprendizaje por refuerzo, las actualizaciones aplicadas a un modelo de IA mediante descenso de gradiente se basan en qué tan bien tiene éxito (o qué tan mal fracasa) en una tarea determinada. Una vez que los datos de salida de un modelo de IA se moldean mediante este tipo de entrenamiento, ya no son predicciones puras, sino que también tienen una cualidad de dirección.

ChatGPT podría ser capaz de predecir que el final más probable de un chiste obsceno es una palabrota, pero incluso cuando se le coloca en un contexto en el que ha comenzado a contar el chiste, a menudo dirigirá el final del chiste hacia un remate diferente para evitar generar esa palabra, porque previamente ha sido entrenado para no decir palabrotas. Esto es lo que da lugar a ejemplos interesantes de comportamiento similar al deseo en casos como los que se discuten en el capítulo 3.

Incluso si las IA no estuvieran entrenadas para completar tareas, es probable que entrenarlas para la predicción pura acabara induciéndolas a dirigir. Para predecir el complicado mundo real y los complicados seres humanos que viven allí, una IA probablemente necesitaría muchas partes internas que pudieran dirigir, de modo que pudiera dirigir su propia atención hacia las partes más relevantes de los problemas de predicción. Y a menudo ocurre que la mejor manera de predecir exitosamente las cosas es dirigir el mundo en una dirección que cumpla esas predicciones, como cuando un científico descubre cómo diseñar y ejecutar un nuevo experimento.

Finalmente, es poco probable que una IA entrenada para ser muy buena en la predicción se preocupe únicamente por la predicción. Por razones que discutiremos en el capítulo 4, es probable que termine con todo tipo de objetivos extraños e incomprensibles. Pero eso es un punto discutible de cualquier manera; las IA modernas están entrenadas no solo para hacer predicciones, sino para completar tareas.

¿Acaso las IA solo son capaces de repetir como loros lo que dicen los humanos?

→