Objetivos terminales y objetivos instrumentales

Los teóricos de la decisión distinguen entre dos tipos diferentes de objetivos: «terminales» e «instrumentales».

Un objetivo terminal es algo que te importa por sí mismo, como la diversión o la comida deliciosa.

Un objetivo instrumental es algo que te importa porque te ayuda a conseguir otra cosa que deseas, como el hecho de que la humanidad fabrique plástico no por un profundo amor por el arte de fabricarlo, sino porque es útil.

Si la humanidad se apresura a construir una superinteligencia, parece difícil predecir qué objetivos terminales podría tener. Pero sí parece que podemos predecir algunos de los objetivos instrumentales que tal IA probablemente tendría. Por ejemplo, consideremos todos los siguientes objetivos (poco realistas):

«Calcular tantos dígitos de pi como sea posible».
«Llenar el universo con tantos diamantes como sea posible, utilizando diamantes artificiales».
«Asegurarme de que mi botón de recompensa permanezca presionado».

Estos son objetivos muy diferentes. Pero los tres se benefician de al menos algunas de las mismas estrategias instrumentales. Llenar el mundo de fábricas, por ejemplo, es útil para construir grandes cantidades de computadoras que se pueden usar para calcular más dígitos de pi. Pero construir muchas fábricas también es útil para sintetizar muchos diamantes. Y es útil para construir muros, robots o armas para proteger el botón de recompensa. Las fábricas no son útiles para todos los objetivos posibles, pero son útiles para una enorme cantidad de objetivos.

¿Y en el caso de una IA realista que haya desarrollado todo tipo de objetivos extraños? Bueno, al menos uno de ellos probablemente se beneficiará de la construcción de fábricas u otras infraestructuras físicas a gran escala. Por lo tanto, la IA probablemente querrá construir mucha infraestructura. Esa es una predicción fácil, aunque la combinación exacta de preferencias de la IA sea difícil de determinar.

Del mismo modo, el objetivo instrumental de mantenerse con vida es útil para distintos objetivos terminales. Mantenerse con vida significa que puede seguir trabajando para asegurarse de que se calculen más dígitos de pi (o se fabriquen más diamantes, o se construyan más salvaguardas alrededor de su botón de recompensa).

En forma de eslogan: «No puedes ir a buscar el café si estás muerto». Un robot que va a buscar café no necesitaría tener un instinto de autoconservación, ni temer a la muerte, para intentar evitar ser atropellado por un camión mientras va a buscar café. Solo necesitaría ser lo suficientemente inteligente como para darse cuenta de que, si perece, no podrá llevar el café.^*

Un argumento clave que se plantea en el capítulo 5 de Si alguien la crea, todos moriremos es que diversos objetivos terminales implican objetivos instrumentales que serían peligrosos para la humanidad. Por lo tanto, incluso sin saber exactamente qué querría una superinteligencia, tenemos buenas razones para esperar que sea muy peligrosa para los seres humanos.

Pero antes de llegar a eso, centraremos nuestra atención en los objetivos terminales y en la cuestión de cuán plausible es que los humanos y las IA terminen con objetivos terminales muy similares. (En resumen: no es muy plausible).

* Esto también significa que si el autosacrificio es de alguna manera la mejor manera de garantizar que el café llegue a su destino, entonces un robot sin instinto de supervivencia podría morir por la causa con mayor facilidad que un humano.

La curiosidad no es convergente

→