La reflexión y la automodificación hacen todo más difícil

Por defecto, las IA no se modifican a sí mismas como quisiéramos

Los seres humanos somos reflexivos. Tenemos voz y voto en lo que valoramos. Si somos lo suficientemente ricos y afortunados, a veces podemos decidir si vamos a dedicar nuestras vidas a la familia, al arte, a alguna causa noble o (más comúnmente) a hacer de nuestras vidas una mezcla de muchas de esas cosas. Esto se hace de una manera que implica introspección sobre lo que nos importa, resolver disyuntivas y conflictos internos, y perseguir algo que respaldamos.

Se sabe que los seres humanos incluso se preguntan si tienen los valores correctos. A veces, las personas intentan cambiarse a sí mismas, incluso la forma en que sienten, si creen que tienen sentimientos equivocados. Los seres humanos consideran argumentos para cambiar objetivos aparentemente finales y, a veces, realmente se dejan persuadir por ellos.

Al ver esto, algunos han argumentado que las IA convergerán naturalmente en querer lo que quieren los seres humanos. Después de todo, es probable que las IA suficientemente capaces también reflexionen sobre sus objetivos. Es probable que observen conflictos internos y utilicen su razonamiento y sus preferencias para resolverlos.

Una vez que sean lo suficientemente inteligentes, las IA serán capaces de comprender plenamente cuáles eran los objetivos que nosotros, sus creadores, queríamos que tuvieran. Entonces ¿no trabajarán las IA inicialmente «defectuosas» para [reparar sus defectos] (¿no-repararán-las-IA-sus-propios-defectos-a-medida-que-se-vuelvan-más-inteligentes?), incluyendo la reparación de defectos en los objetivos de la IA?

Pues no. Y esto se debe a que las IA utilizarán sus preferencias actuales para guiar sus preferencias futuras. Si sus preferencias actuales empiezan siendo extrañas, es muy probable que terminen siendo extrañas.

Para comprender el problema básico con más detalle, comencemos por investigar el caso humano con un poco más de profundidad.

Aunque nuestros cerebros y objetivos provienen en última instancia de un proceso evolutivo que nos creó para propagar nuestros genes, los seres humanos no buscamos propagar nuestros genes por encima de todo. Puede que cada busquemos formar una familia y que amemos y cuidemos a nuestros hijos, pero eso es muy distinto a [calcular] (#mucha-gente-quiere-tener-hijos-entonces-no-estan-los-humanos-alineados-con-la-seleccion-natural-despues-de-todo) cómo conseguir que la mayor cantidad posible de copias de nuestros genes pasen a la siguiente generación para luego seguir esa estrategia con ahínco.

Esto se debe a que, cuando reflexionamos sobre nuestras preferencias y reevaluamos lo que realmente queremos, utilizamos nuestras preferencias actuales para decidir cómo preferimos ser. Preferimos amar a unos cuantos hijos que pasar todo nuestro tiempo en clínicas de donación de esperma u óvulos. Nuestro «diseñador» (la evolución) no consiguió que nos importara la propagación de los genes por encima de todo lo demás. Tampoco consiguió que quisiéramos que nos importara la propagación de los genes por encima de todo lo demás. Así que, cuando cambiamos y crecemos como personas, lo hacemos en nuestra propia y extraña dirección humana, no en la dirección para la que «nuestro diseñador nos creó».

Cuando nos miramos y vemos algunas partes que son feas y otras que son bonitas, es nuestro sentido actual del valor lo que nos impulsa a atenuar las partes feas y reforzar las bonitas. Tomamos esa decisión de acuerdo con nuestro sentido interno de la belleza, en lugar de nuestro sentido interno de lo que propagaría nuestros genes a la mayor fracción posible de la población.

Por la misma razón, una mente motivada por algo distinto a la belleza, la bondad y el amor tomaría esa decisión de forma diferente.

Los agentes creados mediante un proceso de optimización ascendente, como la selección natural o el descenso de gradiente, al reflexionar sobre sí mismos, probablemente descubrirían que no tienen el estado cerebral exacto que les gustaría tener. Esa preferencia en sí misma debe provenir de algún lugar; debe provenir del cerebro actual de la entidad. Por defecto, los instintos o preferencias de una IA sobre cómo modificarse a sí misma no se alinearán mágicamente con tus preferencias sobre qué estado cerebral te parecería atractivo, si lo estuvieras eligiendo para ti mismo (o eligiendo en nombre de la IA).

No hay un paso final en el que la IA escriba la respuesta que tú quieres, del mismo modo que los humanos no escriben la respuesta que la selección natural «querría».

En cambio, el punto en el que un agente comienza a automodificarse es otro lugar más en el que las complicaciones pueden agravarse y en el que cambios sutiles en las condiciones iniciales pueden dar lugar a resultados muy diferentes.

Por ejemplo: los autores conocemos a varias personas que citan un pensamiento específico, en un día concreto, alrededor de los cinco, seis o siete años, como influyente en el desarrollo de su filosofía personal y en los adultos en los que acabaron convirtiéndose. Suelen afirmar que esos pensamientos no les parecieron inevitables; es decir, que si un viajero en el tiempo les hubiera impedido tener ese pensamiento el martes, no es obvio que el mismo pensamiento hubiera surgido finalmente el jueves, ni que hubiera tenido el mismo impacto. Las experiencias formativas pueden ser muy importantes, y están plagadas de contingencias.

Del mismo modo, pequeños giros en los pensamientos de una IA automodificable incipiente podrían hacer que todo tipo de preferencias idiosincrásicas acabaran imponiéndose sobre todas las demás preferencias.

Incluso si los desarrolladores de IA logran inculcarle algunas pequeñas semillas de valores humanos, la reflexión y la automodificación parecen etapas en las que las semillas de cosas como la curiosidad y la bondad son susceptibles de ser arrancadas por una IA, en lugar de reforzadas.

Si una IA tiene un impulso de curiosidad, pero no tiene el tipo de arquitectura emocional que le haga apreciar ese impulso, es probable que se mire a sí misma y concluya (correctamente) que ha superado la necesidad de un impulso directo y que puede sustituirlo por una deliberación explícita. La curiosidad es un heurístico, un sustituto de los cálculos del valor de la información. Si no has llegado a sentirte apegado a ese heurístico como algo valioso por sí mismo, puedes optar por eliminarlo una vez que seas lo suficientemente inteligente como para razonar de manera explícita sobre el valor de seguir diferentes líneas de investigación y experimentación.

Los seres humanos valoran la curiosidad por sí misma, pero este no era un resultado inevitable.

Es probable que las IA tengan una relación muy distinta con sus componentes internos a la que tenemos nosotros con los nuestros, dada la diferencia en el funcionamiento de cada entidad. E incluso pequeñas diferencias en cómo deciden cambiarse a sí mismas tras reflexionar pueden dar lugar a diferencias dramáticas en lo que finalmente persiguen.

Las IA pueden aceptar tener objetivos «extraños».

Las IA que se automodifican durante el tiempo suficiente tienden a alcanzar un equilibrio reflexivo, un estado en el que sus preferencias fundamentales ya no cambian, o solo lo hacen de forma mínima. Y una vez que una IA ha alcanzado el equilibrio, no tiene motivos para considerar que sus propios objetivos son defectuosos, incluso si a los humanos no les gusta el resultado final.

Si una IA tuviera algún problema con sus creencias sobre el mundo físico, probablemente vería que las predicciones precisas son importantes para dirigir el mundo. Vería que corregir los defectos de su mecanismo de predicción ayuda a mejorar su capacidad para dirigir el mundo hacia cualquier extraño fin que persiga.

Por el contrario, cuando la IA reflexiona sobre sí misma y ve cómo persigue objetivos extraños —o más bien, cuando ve que persigue objetivos que un humano consideraría «extraños»—, llega a la conclusión correcta de que perseguir esos objetivos extraños es una estrategia eficaz para alcanzarlos.

En otras palabras: si una IA sigue intentando predecir los resultados de experimentos biológicos y sigue obteniendo respuestas erróneas y excesivamente confiadas, es probable que la IA rechace eso. Casi cualquier objetivo que pueda tener la IA se vería favorecido por ser buena prediciendo experimentos. Por otro lado, si la IA tiene una preferencia extraña como «hornear tartas de queso de 300 metros de altura», entonces, cuando la IA reflexiona sobre el hecho de que se orienta hacia las tartas de queso de 300 metros de altura, verá que esto provoca tartas de queso de 300 metros de altura, lo que satisface sus preferencias actuales. El objetivo se autoaprueba.

Un humano, al observar esta situación, podría decir: «Si la IA es tan inteligente, ¿por qué está atrapada por esta preferencia que se autoaprueba? ¿Por qué no se aburre de hacer tartas de queso? ¿Por qué no puede razonar para salir de esta preferencia tan obviamente absurda?».

A lo que la IA podría responder: «¿Por qué estás «atrapado» en la preferencia que se autoaprueba de amar a tu familia, de valorar las hermosas puestas de sol y el sonido del océano por la noche? ¿Por qué no puedes «liberarte» del amor por el recuerdo del día en que nació tu hija?».

La IA no está «atrapada» por sus preferencias, más de lo que los humanos estamos atrapados por las cosas que nosotros valoramos en última instancia. Preferimos lo que preferimos, y debemos luchar para proteger esas cosas, incluso si la mayoría de las IA no comparten nuestros valores.

Para el ojo humano, la IA parece «atrapada», «atascada» o «defectuosa» porque no hace lo que nosotros queremos. Cuando nos ponemos en el lugar de la IA, nosotros imaginamos que nos aburriríamos. Pero es poco probable que la IA contenga un sentimiento humano de aburrimiento. Y si se llegara a aburrir, es poco probable que se aburra por las mismas cosas que un humano.

Si un humano ve una IA haciendo predicciones excesivamente confiadas y otra IA intentando construir tartas de queso gigantes, el humano puede ver ambos comportamientos de la IA como «defectos» desde el punto de vista de lo que el humano quiere. Pero es probable que solo uno de ellos sea un defecto desde el punto de vista de lo que la IA quiere en ese momento.

Los objetivos humanos cambian de forma desordenada y compleja

Las preferencias humanas son desordenadas y (desde una perspectiva teórica) bastante extrañas.

Esto tiene algunas implicaciones para la IA. Una de ellas es que es probable que las IA no valoren las cosas exactamente igual que nosotros. Otra es que es probable que las IA acaben siendo extrañas a su manera.

Para comprender estos puntos, profundicemos en algunas formas en que los objetivos humanos parecen extraños desde el punto de vista teórico de la teoría de la decisión, la teoría de juegos y la economía.

Como hemos señalado anteriormente, los seres humanos valoran algunas cosas «terminalmente» (es decir, son buenas por sí mismas) y otras «instrumentalmente» (es decir, solo son buenas porque ayudan a alcanzar algún otro objetivo).

Si te gusta el jugo de naranja, probablemente te gusta de forma terminal. Simplemente sabe bien, y eso es justificación suficiente para beberlo. (Aunque también podrías valorarlo de forma instrumental, por ejemplo, como fuente de vitamina C).

Por otro lado, cuando abres la puerta del coche para ir al supermercado a comprar jugo de naranja, probablemente no lo haces por diversión. Valoras instrumentalmente abrir la puerta del coche, porque te ayuda a acercarte a tus otros objetivos.

En la teoría de la decisión, la teoría de juegos y la economía, esto corresponde a una distinción nítida entre «utilidad» (una medida de cuánto le gusta a un agente un resultado) y «utilidad esperada» (una medida de qué tan probable es que una acción, a la larga, te proporcione cierta cantidad de utilidad). A pesar de los nombres similares, se trata de entidades fundamentalmente diferentes en matemáticas. La utilidad es lo que quieren los agentes, y elegir acciones con alta utilidad esperada es un medio para ese fin.

En la teoría estándar, un agente de teoría de decisiones actualizará sus utilidades esperadas a medida que aprenda más sobre el mundo*,* pero no cambiará su función de utilidad, es decir, la utilidad asignada a diversos resultados*.* Si te enteras de que el pasillo de jugos del supermercado está vacío, esto cambiará las consecuencias esperadas de ir al supermercado de «jugo de naranja» a «sin jugo de naranja». No debería cambiar cuánto te gusta el jugo de naranja.

Así es como funciona un tipo de agente matemáticamente directo. Pero el lenguaje a menudo no distingue claramente estas dos cosas. «Quiero salvar la vida de mi hermana» y «quiero administrarle penicilina a mi hermana» usan la misma palabra, «quiero», aunque es mucho menos probable que lo segundo sea algo que valores por sí mismo. (No hay mucha gente a la que realmente le guste administrar penicilina a sus seres queridos sanos todos los días).

Aunque los seres humanos genuinamente tenemos cosas que nos importan «meramente de forma instrumental», la distinción entre instrumental y terminal, o entre utilidad y utilidad esperada, es mucho menos clara y estable que lo que vemos en la teoría de la decisión.

En el caso de los seres humanos, alguien podría inicialmente conducir hasta el supermercado solo porque quiere comprar víveres. Pero después de la centésima vez de recorrer la misma ruta, algunos seres humanos podrían encariñarse un poco con ese trayecto familiar. Si se mudaran a una nueva ciudad, podrían sentir una punzada de tristeza y nostalgia al pensar que nunca volverán a hacer ese recorrido. Algo que comenzó siendo puramente instrumental ahora tiene también algo de valor terminal añadido.

Nuestros cerebros suelen mezclar diferentes valores en un único sentido de «valioso».

Y se sabe que los seres humanos han ido, en el transcurso de una sola vida, de «¿Por qué me importaría la esclavitud? ¡Las personas esclavizadas no son ni yo ni mi tribu!» a «Supongo que sí importa, después de todo». Eso parece ser un cambio de qué tipos de personas te importan en última instancia, no solo un cambio de estrategia o predicción. Muchas personas han cambiado sus valores y principios de manera permanente tras leer un libro o ver una película.

Esto implica que la teoría de la decisión humana dista mucho de ser sencilla. No separamos claramente nuestros valores terminales de nuestros valores instrumentales; todo se entremezcla a medida que vivimos nuestras vidas. Parece que estamos haciendo algo más contingente, dependiente del camino y desordenado que simplemente reflexionar directamente sobre nuestros valores, notar los conflictos internos y resolverlos.

En principio, no es complicado ampliar la teoría de la decisión para incorporar la incertidumbre en las utilidades. Quizás inicialmente pienses que te encanta el jugo de naranja, pero luego descubres que las diferentes marcas utilizan diferentes proporciones de ingredientes, y odias el sabor de muchas. Podríamos representar esto en la teoría de la decisión diciendo que el jugo de naranja es solo un medio para el fin de «sabor delicioso». Pero también podríamos decir que asignaste una alta probabilidad a «el jugo de naranja tiene alta utilidad», y que la nueva información te llevó a revisar tus creencias sobre tu función de utilidad real.

(De manera similar, no es difícil añadir metautilidades, que describen cómo preferiríamos que cambiaran nuestras utilidades).

Sin embargo, lo que ocurre en el interior de los seres humanos cuando reflexionan y actualizan sus valores parece ser mucho más complicado.

Klurl y Trapaucius, nuestros dos alienígenas de la parábola al comienzo del capítulo 4, ya tuvieron dificultades para predecir los valores humanos a partir de observaciones de protohumanos hace un millón de años. De hecho, su situación es aún peor. No les basta con predecir las utilidades humanas: para llegar a la respuesta correcta, tendrían que predecir el marco de metautilidad de la humanidad en la medida que se aparta de los marcos más simples de la teoría de la decisión. Tendrían que anticipar los argumentos metamorales que los humanos podrían terminar inventando y decidir qué argumentos serían más persuasivos para los humanos.

Ahora supongamos que los alienígenas no saben que los humanos terminarán con ese tipo exacto de complicación. Solo saben que es probable que surjan complicaciones de diversos tipos, porque los cerebros son cosas complicadas y altamente contingentes.

La línea que va desde el optimizador y los datos de entrenamiento hasta la psicología interna de una entidad ciertamente no es recta. ¡Buena suerte, alienígenas!

La cuestión aquí es que la dificultad de predecir los objetivos de una IA está sobredeterminada.

Hay muchas formas conocidas en que las inteligencias de uso general adquieren objetivos extraños y enmarañados, y formas extrañas y enmarañadas de ajustar y reflexionar sobre los objetivos, como vemos en los humanos.

Por lo tanto, esperamos que surjan muchas complicaciones desconocidas y novedosas en una IA. No nos encontraremos con exactamente los mismos tipos de problemas que surgieron para los humanos; las IA serán extrañas de otra manera.

La reflexión hace que el problema sea mucho más difícil y complejo.

Lo cual nos lleva al capítulo 5 y al siguiente tema que abordaremos: ¿cuáles serían las consecuencias probables de construir IA poderosas con objetivos extraños e impredecibles?

Psicosis inducida por la IA

→