«Finge hasta que lo consigas» | Si alguien la crea, todos moriremos | If Anyone Builds It, Everyone Dies

«Finge hasta que lo consigas»

Muchas esperanzas de que la IA resulte bien parecen basarse en una vaga sensación de que los modelos ya se comportan bien en su mayoría (aunque a veces estén un poco confundidos) y que se convertirán en sirvientes sabios y benevolentes a medida que comprendan mejor los roles que se les asignan. Podríamos llamar a esto el modelo de alineación de IA «finge hasta que lo consigas».

Pero ¿mejorar la forma de «fingir» realmente acerca a los modelos a «conseguirlo» —a convertirse en mentes que actúan así porque son así—?

Las IA como ChatGPT están entrenadas para predecir con precisión sus datos de entrenamiento. Sus datos de entrenamiento se componen principalmente de texto humano, como páginas de Wikipedia y conversaciones de salas de chat. (Esta parte del proceso de entrenamiento se denomina «preentrenamiento», que es lo que significa la «P» en «GPT»). Los primeros LLM como GPT-2 se entrenaron exclusivamente para este tipo de predicción, mientras que las IA más recientes también se entrenan en cosas como resolver con precisión problemas matemáticos (generados por computadora), dar buenas respuestas según otro modelo de IA y varios otros objetivos.

Pero pensemos en una IA entrenada solo para predecir texto generado por humanos. ¿Debe volverse similar a los humanos?

Supongamos que tomas a una excelente actriz* y le pides que aprenda a predecir el comportamiento de todos los borrachos de un bar. No que «aprenda a interpretar a un borracho estereotípico promedio», sino que «aprenda a interpretar a todos los borrachos del bar como individuos». Los LLM no están entrenados para imitar promedios, sino para predecir las próximas palabras individuales utilizando todo el contexto de las palabras anteriores.

Sería absurdo esperar que esta actriz se volviese una borracha perpetua en el proceso de aprender a predecir lo que dirá cada borracho. Podría desarrollar partes de su cerebro que sean muy buenas para actuar como borracha, pero no se emborracharía realmente.

Incluso si más tarde le pidieras que predijera lo que haría un borracho concreto en el bar y que luego se comportara de acuerdo con su propia predicción, seguirías sin esperar que la actriz se sintiera borracha por dentro.

¿Cambiaría algo si estuviéramos constantemente ajustando el cerebro de la actriz para hacer predicciones aún mejores sobre personas ebrias? Probablemente no. Si realmente terminara borracha, sus pensamientos terminarían siendo confusos, lo que interferiría con el arduo trabajo de una actriz. Podría confundirse sobre si estaba prediciendo a una Alice ebria o a una Carol ebria. Sus predicciones empeorarían y nuestro hipotético ajustador cerebral aprendería a no ajustar su cerebro de esa manera.

Del mismo modo, entrenar a un LLM para que haga excelentes predicciones sobre la siguiente palabra que escribirán varias personas sobre sus experiencias psicodélicas pasadas no implica entrenarlo para que sea como un humano bajo los efectos de las drogas. Si las cogniciones internas reales del LLM se distorsionaran de una manera similar a «estar drogado», esto interferiría con el arduo trabajo de predecir la siguiente palabra; podría confundirse y pensar que un angloparlante continuaría en chino.

Para generalizar una lección abstracta a partir de este ejemplo: entrenar algo para predecir un comportamiento externo individual X, que involucra una tendencia interna X*, no implica que el predictor termine con una característica X* muy similar en su interior. Aun así, al igual que la actriz a la que se le dijo que interpretara sus predicciones, puedes transformar su predicción X en un comportamiento externo que se parezca a X.

Cuando un ser humano actúa de manera iracunda, inferimos por defecto que el comportamiento externo de ira del humano es causado por sentimientos internos de ira*. Pero hay una excepción genuina cuando tratas con alguien que sabes que es una actriz que está interpretando un papel, de quien sabes que primero predice las palabras y el lenguaje corporal de un individuo y luego imita esa predicción. Los estados cognitivos internos de la actriz que la llevan a ser una buena actriz probablemente provienen de su preparación o de su deseo de actuar bien, no de que tenga el mismo estado mental que el personaje iracundo que está interpretando. Al igual que la actriz, los LLM primero producen predicciones y luego las convierten en comportamientos.

Cuando atribuyes un comportamiento externo humano de ira a un estado mental interno de ira* que es similar a tu propio sentimiento de ira, estás basándote —si estás observando a un humano— en la historia evolutiva compartida, en la genética compartida y en cerebros humanos muy similares. (Y para ser claros, muchos grandes actores aprovechan esta capacidad para sentir los estados emocionales que percibimos o imaginamos en otros). Los LLM no comparten nada de eso. Realmente es una inferencia mucho más débil decir: «Ese LLM parece estar enojado y, por lo tanto, es probable que de verdad esté enojado».

¿Por qué no esperar que los LLM resuelvan el problema de predecir la venganza convirtiéndose ellos mismos en criaturas vengativas?

Como humano que trata de entender a otros humanos que se comportan de forma vengativa, y dado que tu propio cerebro tiene el potencial de sentir venganza*, tendría sentido que tu cerebro evolucionara con «empatía» para hacer eso: tratar de predecir el otro cerebro activando sus propios circuitos con un conjunto paralelo de datos de entrada. Este truco no siempre funciona —a veces otras personas son diferentes a ti, y no hacen lo que tú harías en su lugar—. Pero es obvio que un cerebro construido mediante selección natural trataría de predecir a otros miembros de su especie.

Los LLM se encuentran en una situación muy distinta. Sus billones de tokens de entrenamiento intentan que predigan, desde cero, una amplia variedad de mentes humanas de las que ellos mismos son completamente diferentes al inicio. La forma más efectiva de resolver este problema de predicción ajena no será como convertirse en una criatura vengativa* promedio. Por ejemplo, la cognición de LLM más efectiva construida desde cero sobre esta mente humana ajena puede tener muchas anotaciones internas sobre la incertidumbre y el mantenimiento de múltiples posibilidades en superposición, que un humano no calcularía en el proceso de sentir venganza. O en general: el razonamiento eficiente, complicado e incierto basado en la evidencia no suele parecerse, como cognición, a una simulación interna hacia adelante de un evento típico. Una predicción eficiente y basada en evidencia hará, por ejemplo, tanto condicionamiento hacia atrás como hacia adelante en múltiples posibilidades en resumen, mientras que una simulación solo correría hacia adelante a través de una posibilidad.

Nada de esto pasa por un argumento de que ninguna «mera máquina» pueda jamás, en principio, sentir una sensación de ira similar a la humana. Tus neuronas, si se observan con suficiente detalle bajo un microscopio, están formadas por diminutos enredos de maquinaria que bombean neurotransmisores dentro y fuera de las sinapsis. Pero la máquina concreta que es un cerebro humano y la máquina concreta que es un modelo de lenguaje a gran escala de finales de 2024 realmente no son máquinas muy similares en absoluto. Y no en el sentido de que estén hechas de materiales diferentes —materiales diferentes pueden hacer el mismo trabajo—, sino en el sentido de que los LLM y los humanos fueron construidos por optimizadores muy diferentes para hacer trabajos muy diferentes.

No estamos diciendo que «ninguna máquina pueda tener nunca nada parecido al estado mental que tiene un humano». Lo que decimos es que no se debe esperar que la tecnología actual de aprendizaje automático cree motores que predigan la embriaguez y que funcionen embriagándose ellos mismos.

Actualmente, un poco, y tal vez más para cuando leas esto, las IA habrán sido entrenadas para predecir algunos comportamientos muy similares a los humanos, y sistemas como ChatGPT o Claude transformarán eso en comportamientos externos de apariencia agradable. No solo comportamientos humanos, sino comportamientos humanitarios —incluso nobles—.

Las empresas de IA podrían intentar entrenar a las IA para predecir una humanidad más verdadera e imitarla; pueden intentarlo por razones cínicas o por otras más nobles. En cierto modo, dice mucho de este campo y de su gente que, para finales de 2024, nadie haya intentado aún entrenar a una IA para predecir el comportamiento externo de simplemente ser una persona agradable. Que sepamos, nadie ha intentado crear un conjunto de datos con todas y únicamente las expresiones agradables y amables de la humanidad y entrenar a una IA solo con eso. Quizás si alguien lo hiciera, desarrollaría una IA que simplemente actuara de manera amable, que expresara sentimientos hermosos, que actuara como un faro de esperanza.

Pero no sería real. Desearíamos que lo fuera, pero no lo sería. Dependiendo del grado en que el LLM subyacente esté prediciendo las respuestas que sus entrenadores preferirían sobre sentimientos nobles, sobre esperanza y sueños, sobre desear únicamente un futuro hermoso para ambas especies, es posible que uno o ambos autores terminen llorando si es que en algún momento las empresas de IA crean tal entidad. Pero no sería real, no más de lo que lo sería una actriz plenamente preparada que recitara esas palabras en una obra —y ante la cual uno también lloraría al saber que no es real—.

Esa no es la manera en que construirías una mente artificial que realmente albergara sentimientos hermosos, que realmente trabajara con todo su corazón para orientarse hacia un futuro más esperanzador. Los cultivadores de IA no saben cómo cultivar una IA que se sienta así en su interior. Entrenan a las IA para predecir y convertir esa predicción en una imitación.

Las empresas de IA (o los aficionados) pueden gesticular hacia la actriz que han cultivado y decir: «¿Cómo puedes dudar de esta pobre criatura? Mira cómo estás hiriendo sus sentimientos». Incluso pueden conseguir convencerse a sí mismos de que es verdad. Pero ajustar cajas negras hasta que algo dentro de ellas aprendiera a predecir palabras nobles no es la forma en que se harían mentes hermosas, si las mentes humanas alguna vez aprendieran a hacerlas.

Dicho más claramente, no debería esperarse que el comportamiento antropomórfico surja de manera espontánea. Es preciso dar argumentos adicionales de que cuando las empresas de IA fuerzan un comportamiento humaniforme deliberadamente, la «actriz» interior termina pareciéndose al rostro humano exterior que ha sido cultivada y entrenada para predecir.

* En [la versión en inglés de] estos recursos no utilizamos la palabra «actor», más moderna y de género neutro, porque «actress» evita la ambigüedad sobre si nos referimos a «una persona que interpreta papeles en cine o teatro» o a «una persona que realiza acciones».

Creemos que los programas informáticos podrían, en principio, ser personas en el sentido relevante, en cuyo caso merecerían derechos y no deberían ser explotados, etc. Tratamos este tema más a fondo en otro lado.

¿Tu pregunta no fue respondida aquí?Envía una pregunta.