¿Por qué una IA se dirigiría hacia algo distinto de aquello para lo que fue entrenada?

Porque hay muchas formas de obtener buenos resultados en el entrenamiento.

Si has entrenado a una IA para pintar tu granero de rojo, eso no significa necesariamente que a esa IA le interesen mucho los graneros rojos. Quizás la IA termine desarrollando cierta preferencia por mover el brazo con movimientos suaves y regulares. Quizás desarrolle cierta preferencia por recibir tu aprobación. Quizás desarrolle cierta preferencia por ver colores vivos. Lo más probable es que termine desarrollando toda una serie de preferencias. Hay muchas motivaciones que podrían surgir dentro de la IA y que darían lugar a que pintara tu granero de rojo en este contexto.

Si esa IA se volviera mucho más inteligente, ¿qué fines perseguiría? ¡Quién sabe! Todo un conjunto de distintas motivaciones puede llevar a «pintar el granero de rojo» en el entrenamiento, y el comportamiento de la IA en otros entornos depende de qué motivaciones específicas terminen animándola. Consulta el final del capítulo 4 para explorar este punto.

Hoy en día, las IA están entrenadas para actuar de forma amistosa y servicial. Es por ello que no es de extrañar que actúen de forma amistosa y servicial en circunstancias similares a su entorno de entrenamiento. Los primeros seres humanos fueron «entrenados» por la evolución para reproducirse, y de hecho lo hicieron.

Pero (la mayoría de) los seres humanos no acabaron teniendo una motivación interna por tener tantos hijos como fuera posible. Cuando inventamos los bancos de esperma y óvulos, el mundo no se volvió loco y empezó a hacer lo que fuera por reservar citas con el mismo fervor con el que lo hace para ingresar en una universidad de la Ivy League. De repente, la gente tuvo la oportunidad de tener cientos de descendientes, y la mayoría reaccionó con indiferencia; las colas para donar gametos no daban la vuelta a la manzana, a pesar de que mucha gente hace cola para comprar un nuevo videojuego o para ir a un concierto de su artista favorito.

Los seres humanos tienen sus propias prioridades, que simplemente están relacionadas con maximizar la reproducción.^* No somos simplemente máquinas para «tener tantos hijos como sea posible», aunque eso sea lo único que la evolución nos ha «entrenado» a hacer. Pintamos el granero metafórico de rojo, pero por nuestras propias razones.

La pregunta no es si las empresas de IA pueden hacer que sus chatbots se comporten bastante bien para la mayoría de los usuarios en la mayoría de las situaciones. La pregunta es qué mecanismos reales terminan motivando ese buen comportamiento, y qué perseguirían esos mecanismos una vez que la IA se volviera superinteligente.

Las empresas de IA pueden entrenar a sus IA para que actúen de forma amable (o, siendo más realistas, para que hablen como drones corporativos amigables y melifluos). Esto afecta a los mecanismos internos que animan a la IA. Esos mecanismos, sean cuales sean, empujan y tiran en diversas direcciones, y el punto de equilibrio actual de todas esas fuerzas dentro de la IA —el equilibrio actual— es un comportamiento de dron corporativo amigable (con una pizca de comportamiento extraño en los márgenes).

Pero ese equilibrio está determinado no solo por las fuerzas internas de la IA, sino también por su inteligencia, por su entorno de entrenamiento, por el tipo de datos de entrada que ve durante el entrenamiento y por muchos otros factores.

¿Cómo actuaría la IA en un entorno distinto? ¿Cómo actuaría en un entorno en el que fuera más inteligente, o en el que pudiera tener más control sobre sus propios datos de entrada? A medida que la IA cambia cada vez más su entorno, ¿cómo actuará en ese nuevo mundo transformado? En esos mundos diferentes, los complicados mecanismos internos que subyacen al comportamiento que vemos son susceptibles de encontrar un equilibrio totalmente nuevo —como el hecho de que los humanos modernos comen dietas muy diferentes a las que la evolución hizo que nuestros antepasados comieran, o como consumimos tipos de entretenimiento muy diferentes—. Es probable que el comportamiento extraño en los márgenes pase a primer plano. Hoy en día, un pintor de graneros no suele seguir siendo pintor de graneros para siempre.

¿Cuál es el resultado final de todas esas motivaciones extrañas? ¿Qué hará la IA, animada por muchos motivos que tienen poco en común con lo que anima a los seres humanos?

Bueno, esa es la pregunta que abordaremos en el capítulo 5.

* Esto no quiere decir que a ningún ser humano le importe en absoluto tener hijos. Muchas personas quieren tener un par de hijos y algunas quieren tener muchos. Pero incluso el interés en tener hijos no es exactamente lo mismo que el interés en la aptitud genética, como veremos más adelante en la sección de preguntas frecuentes del capítulo 4.

¿No hacen los desarrolladores regularmente que sus IA sean buenas, seguras y obedientes?

→