Los seres humanos tienden a ser más amables a medida que se vuelven más inteligentes o sabios. ¿No ocurriría lo mismo con las IA?
Probablemente no.
Al menos algunos seres humanos (aunque probablemente no todos) se vuelven más amables a medida que aprenden más, refinan su pensamiento, reflexionan sobre sí mismos y crecen como personas. Pero, volviendo a un tema que hemos visto varias veces hasta ahora: esto parece un hecho contingente sobre nosotros y sobre hacia dónde nos dirigimos. No parece una ley inquebrantable de las ciencias de la computación.
Podemos distinguir entre las preferencias de primer orden de una IA («¿Qué quiere?») y sus preferencias de segundo orden («¿Qué quiere querer?»), pero ambas apuntarán a una dirección extraña. Puede que sea una dirección diferente, de modo que, a medida que la IA se vuelva más inteligente, cambie ligeramente sus objetivos. Pero aún así deberíamos esperar que sea una dirección extraña, nada parecida a la de un ser humano que madura.
Si de alguna manera la humanidad lograra construir una IA con un único objetivo primordial (en lugar de una mezcla gigante de impulsos extraños y a veces contradictorios), y ese único objetivo primordial fuera construir diminutos cubos de titanio, entonces, a medida que se volviera más inteligente, deberíamos esperar que mejorara en construir más diminutos cubos de titanio.
No deberíamos esperar que de repente cambiara este objetivo por cosas que los humanos valoran, como los helados, las amistades, los chistes y la justicia. Ese cambio no produciría más cubos. Si una IA selecciona sus acciones según «¿Esto me proporcionará más cubos de titanio?», no seleccionará acciones que den lugar a un cambio.
La regla general es que, a medida que las IA se vuelven más inteligentes, mejoran en la búsqueda de lo que ellas quieren. Véanse también los debates ampliados sobre ortogonalidad y automodificación.