¿Acaso las IA solo son capaces de repetir como loros lo que dicen los humanos?

Para predecir bien el siguiente token, los LLM necesitan aprender cómo funciona el mundo.

Supongamos que un médico está redactando un informe sobre lo que le ha sucedido a un paciente. Una parte del informe médico dice lo siguiente:

Al tercer día de ingreso, el paciente presentó confusión aguda y temblores. Se detectaron niveles de amonio sérico…

Imaginemos una IA entrenada con estos datos a la que se le pide que prediga la siguiente palabra, siendo dos candidatos plausibles «elevados» o «normales». No se trata solo de predecir el tipo de palabras que usan los humanos; se trata de predecir lo que ocurrió en el mundo de la realidad médica, la biología y los acontecimientos dentro del paciente. ¿Cuánto amonio había por medir en la vida real?

La IA que predice la siguiente palabra tiene aquí una tarea más difícil que la persona que redactó el informe. La persona que redactó el informe solo estaba escribiendo lo que de hecho observó. La IA que predice el informe tiene que adivinarlo de antemano.

La IA asigna una probabilidad del 70 % a «elevados», del 20 % a «normales» y del 10 % a otras palabras.

La siguiente palabra del informe es «normales».

Todo lo que hay dentro de la IA que pensaba que iba a ser «elevados» pierde un poco de fuerza, dentro de la comprensión de la medicina por parte de la IA. Todos los parámetros se ajustan mínimamente para hacer que la comprensión médica que predijo «normales» sea más dominante.

Hasta que, tras un entrenamiento suficiente, la IA realiza algunos diagnósticos médicos mejor que la mayoría de los médicos.

La IA no está siendo entrenada para escribir tonterías que suenen como un informe médico típico. Está siendo entrenada para predecir la siguiente palabra exacta en todos los informes médicos particulares que ve.

Quizás si empezáramos con un modelo muy pequeño con muy pocos parámetros, solo podría aprender a escribir tonterías con tintes médicos, pero con modelos más grandes, eso no parece ser lo que está ocurriendo en los benchmarks que comparan médicos humanos con IA.

Cuando alguien se te acerca y te dice con tono de gran sabiduría que una IA no es más que «un loro estocástico», es posible que esté imaginando los divertidos programas informáticos antiguos que ampliaban frases basándose en la frecuencia de grupos de palabras («n-gramas»): «En ocasiones anteriores en las que hemos visto estas dos palabras en el corpus, ¿cuál ha sido normalmente la siguiente palabra?».

Los sistemas que adivinan la siguiente palabra basándose en las dos o tres últimas son triviales y existían mucho antes que los LLM. No desafían a los humanos en la capacidad de predecir casos médicos. No suenan como personas hablándote. Si se pudieran obtener miles de millones de dólares en ingresos simplemente haciendo lo del loro probabilístico, la gente lo habría hecho mucho antes.

Si los miles de millones de cálculos dentro de un LLM real no estuvieran haciendo ningún trabajo pesado, si el sistema solo escupiera una suposición superficial basada en las características superficiales de las palabras anteriores, entonces sonaría como los sistemas pasados que realmente escupían suposiciones superficiales. Por ejemplo, entrenado con Jane Austen, un sistema de n-gramas produce:

«¡Eres encantadora en todos los sentidos!», exclamó él con una sonrisa de complicidad, y de vez en cuando yo hacía una reverencia y ellos veían una calesa y cuatro caballos que desear.

Un LLM, al que se le pide que produzca una frase al estilo de Jane Austen, resulta muchísimo más convincente; si no nos crees, prueba preguntando a uno.

Además, aunque no podemos saber mucho sobre lo que ocurre dentro de la mente de una IA, la empresa de IA Anthropic publicó una investigación afirmando que su IA (Claude) planificaba más de una palabra por adelantado. Es decir, Claude estaba considerando qué frases y significados posteriores podrían ser plausibles, con el fin de adivinar qué letras podrían aparecer.

Las IA ya pueden superar sus datos de entrenamiento o prescindir de los datos humanos.

En 2016, una IA llamada AlphaGo, creada por Google DeepMind, venció al campeón mundial humano en el juego de mesa Go. Se entrenó con una enorme biblioteca de partidas humanas de Go y también aprendió jugando muchas partidas contra sí misma.

El hecho de que fuera capaz de vencer a los humanos sugiere que fue capaz de aprender estrategias generales a partir de su entrenamiento, y que logró modelar patrones profundos en sus datos de entrenamiento, incluidos (quizás) patrones profundos que los humanos aún no habían detectado. El descenso de gradiente refuerza todo lo que funciona, independientemente de su procedencia.

Pero el dominio de AlphaGo técnicamente solo sugería el hecho de que las IA pueden superar con creces sus datos de entrenamiento. La gente aún podría objetar que tal vez AlphaGo solo estaba copiando a los humanos y logrando ganar al ser más coherente en aplicar habilidades de nivel humano, en lugar de utilizar nuevos patrones que los humanos encontrarían novedosos o reveladores.

Esto no encajaría muy bien con el caso del ajedrez computacional (donde los maestros de ajedrez humanos aprenden muchas estrategias y conocimientos de los motores de ajedrez computacionales que los superan ampliamente). Pero tras AlphaGo, hubo personas que argumentaron que la IA solo venció a Lee Sedol porque se entrenó con grandes cantidades de datos humanos.

Al parecer, la gente de DeepMind también vio esas objeciones. Durante el año y medio siguiente, crearon una IA llamada AlphaGo Zero, lanzada en 2017. No se entrenó con ningún dato humano en absoluto. Aprendió jugando contra sí misma. Superó a los mejores jugadores humanos después de solo tres días.

Aún se podría objetar que el Go es bastante más sencillo que el mundo real, y que es mucho más fácil descifrar el Go desde cero que descifrar (por ejemplo) la ciencia, la física y la ingeniería desde cero. ¡Y eso es cierto! Pero tampoco es exactamente lo que decían los detractores antes de que las computadoras se volvieran buenas jugando Go.

Allá por 1997 —diecinueve años antes de que ganara AlphaGo— la gente predecía que transcurrirían cien años para que las computadoras jugaran Go a nivel superhumano. Así que al menos sabemos que muchas personas tienen intuiciones erróneas sobre este tipo de cosas.

El mundo real es un entorno más complicado que el Go. Los patrones cognitivos que subyacen a la ingeniería, la física, la fabricación, la logística, etc. son más complejos que los patrones cognitivos que subyacen al juego hábil de Go. Pero no hay base teórica alguna para la idea de que, una vez que las IA puedan aprender esos patrones, estarán limitadas a las variantes humanas. El descenso de gradiente reforzará las partes de la IA que encuentren patrones cognitivos que funcionen realmente bien, independientemente de su procedencia.

Nada de esto es un argumento de que los LLM en particular aprenderán esos patrones hasta el punto de poder automatizar el progreso científico y tecnológico. No sabemos si pueden o no pueden. El punto es que «solo» entrenarlos con texto humano no es ningún tipo de limitación fundamental. Sí se entrenan únicamente con datos humanos, pero no dejes que eso te ciegue a las chispas de generalidad y los indicios de razonamiento profundo enterrados en la pila gigantesca de «instintos» superficiales.

Tendremos más que decir, en el capítulo 3, sobre cómo una IA podría generalizar desde un conjunto limitado de ejemplos hacia una capacidad más general.

Notes

[1] personas que argumentaron: Por ejemplo, tras la victoria de AlphaGo sobre Lee Sedol, Yann LeCun argumentó que AlphaGo «no era verdadera inteligencia artificial» porque se basaba en el aprendizaje supervisado.

[2] solo tres días: Figura 1, p. 4 del preprint de AlphaZero: «20 bloques durante 3 días».

¿No serán las IA inevitablemente frías, mecánicas y lógicas, o les faltará alguna chispa crucial?

→