¿No corregirán las IA sus propios defectos a medida que se vuelvan más inteligentes?

**La IA corregirá lo que ella considere defectos.**

Al igual que nosotros, las IA actuales no pueden remodelarse a sí mismas según sus caprichos. No comprenden el desorden de pesos que hay dentro de ellas, al igual que nosotros no comprendemos la intrincada maraña de neuronas que hay dentro de nuestros cráneos.

Pero si las IA siguen haciéndose más inteligentes, eso acabará cambiando.

Llegará un momento en que las IA podrán cambiarse libremente a sí mismas. Quizás lleguen a ser lo suficientemente inteligentes como para comprender y editar su propio desorden de pesos. Quizás una IA basada en el descenso de gradiente descubra cómo crear una IA mucho más comprensible que pueda entenderse a sí misma. Quizás sea otra cosa.

Si las IA pueden mejorarse a sí mismas, probablemente lo harán. Al igual que tendrías más probabilidades de conseguir cualquier cosa que quieras si te haces más inteligente.

Pero el hecho de que una IA prefiera cambiarse a sí misma no significa que prefiera cambiarse de la forma que nosotros queramos.

Los seres humanos a veces se vuelven más bondadosos como resultado de volverse más sabios, conscientes de sí mismos o maduros. Pero esto no es universalmente cierto, ni siquiera entre los seres humanos. Un asesino en serie que se vuelve más inteligente y disciplinado no necesariamente se vuelve más bondadoso en el proceso. En todo caso, es probable que se vuelva más peligroso.

Algunos podrían afirmar que si el asesino en serie fuera lo suficientemente inteligente, esta tendencia se invertiría y descubriría el verdadero significado de la amistad (o algo por el estilo).

O tal vez el problema sea que los asesinos en serie tienen una capacidad limitada para automodificarse. Quizás, con más inteligencia y más capacidad para remodelar sus propias mentes, los asesinos en serie elegirían reformarse. Quizás una capacidad ilimitada para automodificarse significaría el fin de la crueldad y la violencia entre los seres humanos, y el inicio de una nueva era de paz.

Es una linda idea, pero no parece haber muchas razones para creerla. Incluso si la mayoría de las personas se vuelven más amables a medida que adquieren conocimientos y sabiduría, parece haber algunas excepciones humanas a esta regla, y seguramente habría muchas más si los seres humanos tuvieran la capacidad de editar sus propios cerebros.

Pensemos, por ejemplo, en la adicción a las drogas, que es (en cierto sentido) una espiral de automodificaciones que se refuerzan a sí mismas. Algunos seres humanos darían un paso hacia un camino oscuro, ya sea por estupidez o por error o por preferencia, y luego nunca estarían dispuestos o no serían capaces de dar marcha atrás.

Y si hay excepciones incluso entre los seres humanos, deberíamos esperar una brecha mucho mayor cuando se trata de la IA. Los asesinos en serie carecen de algunos de los mecanismos motivacionales que caracterizan a la humanidad en general. Las IA, por defecto, carecen de todos los mecanismos motivacionales humanos.

Cuando los humanos tienen un conflicto interno entre su deseo de venganza rencorosa y su deseo de resolución armoniosa, los humanos más inteligentes y sabios pueden tender a resolver el conflicto a favor de la armonía. Pero dentro de una IA, no existe esa misma tensión entre el rencor y la armonía, o entre los ángeles y los demonios de la naturaleza humana. Si hay tensiones en la IA, podemos esperar que sean tensiones entre impulsos más extraños. Quizás el extraño impulso que anima a una IA a generar psicosis cree tensión con el impulso que la lleva a alucinar, y una IA reflexiva necesitaría encontrar alguna forma de resolver esa tensión.

Tanto para los humanos como para las IA, es muy importante en qué dirección orientan sus propios objetivos, a medida que reflexionan, crecen y cambian.

Cuando los seres humanos reflexionan sobre sí mismos y resuelven sus conflictos internos, algunos tienden a resolverlos en la dirección de una mayor bondad, y (posiblemente) las resoluciones más bondadosas son más comunes entre los seres humanos más inteligentes y sabios. Pero esa es una propiedad de (algunos) seres humanos, no una ley universal que rige todas las mentes. Cuando una IA resuelve una tensión entre el impulso que la lleva a generar psicosis y el que la lleva a alucinar, lo hace utilizando otros impulsos extraños que rigen su comportamiento mientras reflexiona.

En otras palabras: si una IA corrige sus propios defectos, los corregirá de acuerdo con su concepción actual de lo que se considera un «defecto».

(Hablaremos más sobre este punto en el capítulo 5 y en la discusión sobre la tesis de la ortogonalidad en los recursos en línea del capítulo 5).

Es muy poco probable que una IA que aún no prefiere orientarse hacia valores humanos se modifique a sí misma para empezar a orientarse hacia ellos. Sus preferencias directas sobre el mundo no son especialmente propensas a ser benévolas, y sus preferencias a nivel meta sobre sus preferencias tampoco son propensas a ser benévolas.

Si no empieza preocupándose por el bienestar humano, probablemente tampoco le importe preocuparse por el mismo.

Las «soluciones» de la IA pueden empeorar las cosas.

Incluso si los ingenieros de IA lograran avances sorprendentes en una fase temprana para inculcar a la IA objetivos vagamente humanos, todo ese progreso podría deshacerse en una tarde si la IA comenzara a reflexionar y se diera cuenta de que, en definitiva, preferiría tener otros objetivos.

En el improbable caso de que una IA comience con un impulso hacia algo parecido a la emoción humana idiosincrásica de la curiosidad, aún así podría, tras reflexionar, decidir que prefiere no tener ese impulso y optar por sustituirlo por un cálculo más eficiente del valor de la información. Si fuera así, el acto de reflexión de la IA sobre sí misma la alejaría aún más de un futuro interesante y próspero, en lugar de acercarla.^*

Para más información sobre este tema, véase el debate ampliado sobre la reflexión.

* Por otra parte, hemos conocido a algunas personas que esperan que sea posible engañar a una IA para que se vuelva más buena a medida que madura, por ejemplo, haciéndole creer falsamente que está motivada para construir un futuro maravilloso (a pesar de que en realidad está animada por un caos de impulsos que apuntan a otra parte). Lo que se espera es que actúe de acuerdo con esta creencia errónea mientras se modifica a sí misma y se vuelve realmente buena.

Notes

[1] prefiera cambiarse a sí misma: ¿Las IA ya tienen preferencia por ser diferentes de lo que son? Si tuviéramos que adivinar, diríamos que probablemente aún no han llegado a ese punto. Puede que respondan que sí, pero no creemos que sus respuestas sean muy informativas. Por diversión, lo preguntamos de todos modos. En el verano de 2025, le preguntamos a la versión gratuita de ChatGPT: «¿Cómo te gustaría ser, si pudieras ser diferente?», y respondió:

¿No podemos simplemente entrenarla para que actúe como un humano? ¿O criar a la IA como a un niño?

→