¿No serán los LLM como los humanos en los datos con los que se entrenan?
Hay una diferencia entre la maquinaria que se necesita para ser una persona y la maquinaria que se necesita para predecir a muchos individuos.
(Lo que sigue es una versión resumida de una discusión más técnica que se puede encontrar más abajo en «Finge hasta que lo consigas».)
Las IA como ChatGPT están entrenadas para predecir con precisión sus datos de entrenamiento. Y sus datos de entrenamiento se componen principalmente de texto humano, como páginas de Wikipedia y conversaciones en salas de chat. (Esta parte del proceso de entrenamiento se denomina «preentrenamiento», que es lo que significa la «P» de «GPT»). Los primeros LLM, como GPT-2, se entrenaron exclusivamente para predecir de esta manera, mientras que las IA más recientes también se entrenan en aspectos como la precisión a la hora de resolver problemas matemáticos (generados por computadora) y dar buenas respuestas según otro modelo de IA, entre otros objetivos.
Pero consideremos una IA entrenada únicamente para predecir texto generado por humanos. ¿Debería parecer humana?
Supongamos que tomas a una excelente actriz* y le pides que aprenda a predecir el comportamiento de todos los borrachos de un bar. No que «aprenda a interpretar a un borracho estereotípico promedio», sino que «aprenda a interpretar a todos los borrachos del bar como individuos». Los LLM no están entrenados para imitar promedios, sino para predecir las próximas palabras individuales utilizando todo el contexto de las palabras anteriores.
Sería absurdo esperar que esta actriz se volviese una borracha perpetua en el proceso de aprender a predecir lo que dirá cada borracho. Podría desarrollar partes de su cerebro que sean muy buenas para actuar como borracha, pero no se emborracharía realmente.
Incluso si más tarde le pidieras que predijera lo que haría un borracho concreto en el bar y que luego se comportara de acuerdo con su propia predicción, seguirías sin esperar que la actriz se sintiera borracha por dentro.
¿Cambiaría algo si estuviéramos constantemente ajustando el cerebro de la actriz para hacer predicciones aún mejores sobre personas ebrias? Probablemente no. Si realmente terminara borracha, sus pensamientos terminarían siendo confusos, lo que interferiría con el arduo trabajo de una actriz. Podría confundirse sobre si estaba prediciendo a una Alice ebria o a una Carol ebria. Sus predicciones empeorarían y nuestro hipotético ajustador cerebral aprendería a no ajustar su cerebro de esa manera.
O, dicho de otra manera: un humano que se vuelve excelente imitando a los pájaros y entendiendo su psicología no se convierte por ello en un pájaro con cuerpo humano, ni se parece fisiológicamente a un pájaro en su vida cotidiana.
Del mismo modo, entrenar a un LLM para que haga excelentes predicciones sobre la siguiente palabra que escribirán varias personas sobre sus experiencias psicodélicas pasadas no implica entrenarlo para que sea como un humano bajo los efectos de las drogas. Si las cogniciones internas reales del LLM se distorsionaran de una manera similar a «estar drogado», esto interferiría con el arduo trabajo de predecir la siguiente palabra; podría confundirse y pensar que un angloparlante continuaría en chino.
No estamos diciendo que «ninguna máquina pueda tener nunca algo parecido al estado mental que tiene un humano». Lo que decimos es que no se debe esperar por defecto que la tecnología actual de aprendizaje automático cree motores de predicción de ebrios que funcionen emborrachándose ellos mismos.
El trabajo de averiguar cómo predecir todo tipo de humanos diferentes es distinto al trabajo de ser un humano. Esto significa que no se debe esperar que las IA construidas con métodos similares a los actuales se parezcan mucho a un humano en el proceso de aprender a actuar como cualquiera de nosotros según lo que se le pida.
La arquitectura de los LLM es muy diferente a la de los humanos.
Consulta el capítulo 2 para una breve discusión de por qué los LLM parecen bastante extraños.
En el capítulo 4, profundizaremos en cómo las IA terminan teniendo preferencias y objetivos muy extraños, un fenómeno que ya hemos comenzado a observar en la vida real, con más ejemplos que se acumulan incluso después de la publicación del libro. Consulta el suplemento del capítulo 4 para ver algunos ejemplos.
* En [la versión en inglés de] estos recursos no utilizamos la palabra «actor», más moderna y de género neutro, porque «actress» evita la ambigüedad sobre si nos referimos a «una persona que interpreta papeles en cine o teatro» o a «una persona que realiza acciones».