Ortogonalidad: las IA pueden tener (casi) cualquier objetivo

Diálogo sobre nidos correctos, continuación

En el capítulo 5, contamos la historia de los extraterrestres de los nidos correctos, que evolucionaron para encontrar profunda e intuitivamente «correcto» tener un número primo de piedras en su nido. Podríamos imaginar una rama de su conversación que continúa de la siguiente manera:

CHICO PÁJARO: Volvamos al punto en el que dijiste que te sorprendería encontrar extraterrestres con sentido del humor. Seguramente no eres de los que creen que los nidos en los que vivimos son simplemente arbitrarios, ¿verdad?
CHICA PÁJARO: En absoluto. «Trece es correcto, nueve es incorrecto» es una respuesta verdadera a una pregunta que nacemos para hacernos por nuestra propia naturaleza. Un alienígena que se dirige hacia cosas diferentes no está en desacuerdo con nosotros sobre si trece es correcto. Es como encontrarse con un alienígena que carece de sentido del humor: ¡la existencia de un alienígena así no prueba que ningún chiste sea gracioso! Solo ayuda a mostrar que lo «gracioso» es algo que está en nosotros.
CHICO PÁJARO: ¿En nosotros? No lo sé, me gusta pensar que tengo bastante sentido del humor. ¡Lo siguiente será decir que todos los sentidos del humor son igual de buenos!
CHICA PÁJARO: ¡Puede que tengas mejor sentido del humor que la mayoría! Pero «tener mejor sentido del humor» es también algo que está en nosotros. No es que haya una vara de medir cósmica que podamos usar para juzgar lo refinado que es el gusto estético de alguien. La medida del humor ocurre dentro de nuestras mentes. Nosotros somos los que contenemos la vara de medir; nosotros somos a los que nos importa.
CHICO PÁJARO: Así que volvemos a lo arbitrario.
CHICA PÁJARO: ¡No! Bueno, ¿quizás? Depende de lo que entiendas por «arbitrario».
CHICO PÁJARO: ¿Cómo?
CHICA PÁJARO: Por ejemplo, sé que te encanta el alpiste de vainilla, ¿cierto? Y no es como si pudieras usar pura fuerza de voluntad para que el alpiste de chocolate te pareciera más sabroso. Así que no es «arbitrario», no es algo que puedas cambiar por capricho.
CHICO PÁJARO: Vale, claro...
CHICA PÁJARO: No hay una respuesta objetiva fuera de ti sobre si la vainilla o el chocolate son más sabrosos, pero tampoco es una elección que puedas hacer tú mismo. Simplemente eres así. Tus preferencias no dependen de ti, y tampoco son objetivamente convincentes para todas las mentes posibles. Si te encontraras con un extraterrestre, no podrías convencerlo de que el alpiste de vainilla es delicioso utilizando pura lógica, y tampoco podrías convencerlo de que tenga sentido del humor.
CHICO PÁJARO: ¡Puedo intentarlo!
CHICA PÁJARO: Te estaré apoyando. Pero quizás una mejor forma de decirlo es que hay una propiedad complicada que poseen los buenos chistes, y nuestros cerebros calculan si las expresiones tienen esa propiedad que llamamos «humor». Y nos encanta cuando una expresión tiene esa propiedad. La existencia o ausencia de esa propiedad es un hecho objetivo sobre una expresión (tal como tú la calculas, en un contexto determinado). Un extraterrestre podría aprender a hacer el cálculo. Pero la parte que hace que nos encante esa propiedad no es objetiva. Es menos como una predicción y más como… bueno, no es exactamente un destino hacia el que nos dirigimos, pero es un hecho adicional sobre nosotros, que no sería cierto para la mayoría de los extraterrestres, porque nuestro humor evolucionó a lo largo de algún extraño y retorcido camino evolutivo que no suele ocurrir. No es que los extraterrestres se equivoquen sobre qué chistes son graciosos; es solo que sus cerebros no están calculando el humor, como tampoco juzgan sus viviendas en términos del número de piedras dentro de ellas. Simplemente no les importa.
CHICO PÁJARO: Vaya, qué visión tan deprimente del universo. Extraterrestres que nunca se ríen, que tienen nidos con la cantidad incorrecta de piedras… Seguro que si los extraterrestres dedicaran suficiente tiempo a pensar en ello, se darían cuenta de lo mucho que se están perdiendo. Vivir en nidos incorrectos, que no les causen gracia los chistes, ignorar por completo el alpiste de vainilla. ¿No acabarían encontrando una forma de corregir esos defectos y dotarse de sentido del humor y de todo lo demás que se están perdiendo?
CHICA PÁJARO: Podría entender que los extraterrestres quisieran cambiar, crecer y añadir nuevas metas, posiblemente. Pero ¿por qué elegirían precisamente esos cambios?
CHICO PÁJARO: ¡Porque sería muy barato! Para cuando esos alienígenas fueran tecnológicamente avanzados y pudieran modificarse libremente, probablemente estarían caminando entre las estrellas. Solo necesitarían una pequeña fracción de todos sus recursos para poner el número correcto de piedras en sus nidos. Y piensa en todos los increíbles libros de chistes que podrían crear si dedicaran una pequeña fracción de sus recursos a investigar el humor. No tendrían que preocuparse mucho, en comparación con lo ricos que serían. ¿De verdad están tan obsesionados con sus principales prioridades que no pueden dedicar un poquito a esto?
CHICA PÁJARO: No estoy diciendo que solo les importen un poco los nidos correctos y que se nieguen obstinadamente a dedicar recursos a sus prioridades menores. Lo que digo es que esto no sería una prioridad para ellos en absoluto. Estas cuestiones concretas simplemente no estarían dentro de ellos. Y si buscaran nuevas propiedades que añadirse a sí mismos, añadirían otras, que sirvieran aún mejor a sus extraños propósitos. No son como nosotros. Quizás podríamos ser amigos y quizás tengamos otras cosas en común. Quizás el amor, quizás la amistad… eso me parece menos complicado y contingente. Incluso podrían surgir unas cuantas especies evolucionadas.
CHICO PÁJARO: Bueno, si no son los alienígenas, ¿qué hay de las criaturas mecánicas que podrían crear accidentalmente? ¿Esas entrarán en razón?
CHICA PÁJARO: Mmm. En realidad, me temo que la situación podría ser aún peor en ese caso. Pensando en lo diferente que sería el proceso de creación de una máquina inteligente del proceso de evolución biológica, me siento un poco menos optimista de que eso diera lugar al amor o la amistad, en ese caso tan exótico.

Los buenos conductores pueden conducir a diferentes destinos

Las mentes con una inteligencia similar no necesariamente comparten valores similares. Esta idea se conoce como la tesis de la ortogonalidad, y sostiene que «qué tan inteligente eres» y «qué es lo que realmente quieres» son ortogonales (es decir, varían por separado).

La tesis de la ortogonalidad dice que, en principio, casi nunca es mucho más difícil perseguir un objetivo por sí mismo que perseguir un objetivo por razones instrumentales. Puedes aprender carpintería porque necesitas construir una mesa, mientras que tu vecino la aprende porque le agrada la actividad en sí misma.

Una consecuencia de esta tesis es que no todos los agentes suficientemente inteligentes valoran la bondad, la verdad o el amor, simplemente por ser lo suficientemente inteligentes como para comprenderlos. No es confuso ni factualmente incorrecto que los alienígenas del nido correcto valoren los números primos de piedras en sus nidos. Si se volvieran más inteligentes, no se darían cuenta de repente de que deberían preocuparse por otras cosas. Mentes diferentes realmente pueden dirigirse a destinos diferentes.

Por supuesto, nada de esto dice nada sobre lo fácil o difícil que es crear una IA que persiga un objetivo u otro. Cualquier método dado para desarrollar IA hará que algunas preferencias sean más fáciles de inculcar y otras más difíciles.

(El capítulo 4 trata, en cierto sentido, de cómo los únicos tipos de preferencias que son desproporcionadamente fáciles de inculcar mediante el descenso de gradiente son los complejos, extraños e involuntarios. Así que tampoco pinta bien en ese aspecto. Pero ese punto no está relacionado con la tesis de la ortogonalidad).

El objetivo de la tesis de la ortogonalidad es responder a la intuición de que sería estúpido que una superinteligencia artificial persiguiera cosas que los humanos encuentran aburridas o sin sentido, y que una IA inteligente elegiría perseguir otra cosa en su lugar. Podemos llamar «arbitrario» al objetivo de la IA, pero la IA puede llamarnos «arbitrarios» a nosotros también. Las palabras fuertes no cambian la situación práctica.

El argumento básico detrás de la tesis de la ortogonalidad es el siguiente: por cada mente que pueda calcular cómo producir muchos cubos microscópicos de titanio —que podría producir de manera muy eficiente muchos cubos pequeños a cambio de un pago lo suficientemente grande—, hay alguna otra mente que simplemente tiene esos cálculos conectados a su sistema de acción.

Imaginemos a una persona competente que necesita desesperadamente vender muchos cubos de titanio para ganar suficiente dinero para alimentar a su familia. Esa persona no reflexionaría y se daría cuenta de que los cubos de titanio son aburridos para luego hacer otra cosa, a menos que esa «otra cosa» también le reportara suficiente dinero para alimentar a su familia.

Por lo tanto, una mente que simplemente tomara las acciones que le reportaran más cubos tampoco decidiría reflexionar, darse cuenta de que los cubos minúsculos son aburridos y empezar a hacer otra cosa en su lugar. Sus acciones no están vinculadas a sus cálculos sobre lo que es más «divertido» o «significativo», en el sentido en que los humanos se preocupan por esas cosas. Sus acciones están vinculadas a sus cálculos sobre lo que le reporta más cubos.

Cualquier mecanismo mental capaz de descubrir cómo fabricar cubos si se le da una razón suficiente podría operar en otra mente para dirigir directamente sus acciones. Lo que significa que es posible que las inteligencias artificiales se vean motivadas por la búsqueda de (por ejemplo) pequeños cubos de titanio, sin tener en cuenta la moralidad.

Una IA así no tendría por qué confundirse sobre la bondad o la moralidad. Una vez que fuera lo suficientemente inteligente, probablemente sería mucho mejor que los humanos a la hora de calcular qué acción es la más bondadosa o cuál es la más moral. Podría sacar una nota excelente en un examen escrito sobre ética. Pero no estaría motivada por esos cálculos; sus acciones no serían una respuesta a la pregunta «¿cuál de estas opciones genera mayor bondad?». Sus acciones serían una respuesta a una pregunta diferente: «¿Cuál de estas opciones genera más cubos diminutos?»^*

Se puede encontrar una discusión más profunda sobre la tesis de la ortogonalidad aquí. Para una discusión sobre una forma específica en la que las IA modernas ya están mostrando una distinción entre comprender y preocuparse, vuelve a leer el debate ampliado del capítulo 4 sobre la psicosis inducida por la IA.

* Puede tener sentido decirle a un humano —que tiene todo un marco de metapreferencias que quizás compartas en gran medida— «Creo que estás valorando las cosas equivocadas». Quizás algunos de esos argumentos tengan el poder de hacerte cambiar de una manera que nunca creíste posible. Quizás incluso sientas que hay una estrella moral fuera de ti, que siempre has estado siguiendo sin saberlo.

Convergencia instrumental

→