¿No se preocuparán las IA al menos un poco por los humanos?

No de la forma que importa.

Hay muchas formas en que las IA podrían acabar teniendo preferencias ligeramente similares a las de los humanos. Pero la mayoría de ellas no conducen a un futuro ligeramente mejor para la humanidad.

La «alineación» de la IA no es un espectro único con una sola dimensión de variación. No puedes asumir que, si ves que una IA se comporta amablemente el noventa y cinco por ciento de las veces, entonces probablemente sea amable en un noventa y cinco por ciento y, por lo tanto, le dará a la humanidad una parte respetable de recursos para hacer algo divertido en el futuro, como lo haría cualquier persona amable. Hay muchas formas y razones diferentes por las que una IA podría comportarse amablemente el noventa y cinco por ciento de las veces hoy en día, lo que no se traduciría en ningún tipo de final feliz para la humanidad.

Incluso si la humanidad lograra de alguna manera cargar casi a la perfección todos los diversos valores humanos en las preferencias de una superinteligencia, el resultado no sería necesariamente bueno. Supongamos que, por alguna razón, solo le faltara la preferencia por la novedad. En ese caso, se encaminaría hacia un futuro estancado y aburrido, en el que el mismo «mejor» día se repetiría una y otra vez hasta el infinito, como se ilustra en un ensayo que Yudkowsky escribió en 2009.

No creemos que este sea un resultado plausible, claro está. Si los ingenieros humanos tuvieran la capacidad de hacer que una superinteligencia se preocupara por todo lo bueno excepto por la novedad, es casi seguro que tendrían la capacidad de evitar que la IA se precipitara antes de terminar el trabajo.^* Pero este experimento mental pone de relieve cómo unas criaturas que comparten algunos de nuestros deseos, pero a las que les falta al menos un deseo crucial, probablemente seguirían produciendo resultados catastróficos una vez que fueran lo suficientemente expertas en tecnología como para conseguir exactamente lo que quieren, y lo suficientemente expertas como para excluir a los humanos del proceso de toma de decisiones.

Es decir: incluso si una IA acabara teniendo de alguna manera muchas preferencias similares a las de los humanos, no es muy probable que las cosas vayan bien para nuestra especie.

O, como otro ejemplo de cómo las IA podrían acabar «parcialmente» alineadas, supongamos que una IA obtiene diversas estrategias instrumentales enredadas en sus preferencias terminales, de forma similar a los humanos. Quizás termine con un impulso que se parezca un poco a la curiosidad y otro que se parezca un poco al conservacionismo, y quizás algunas personas lo vean y digan: «¡Mira! La IA está desarrollando impulsos muy humanos». Sin duda, desde cierto punto de vista, se podría decir que una IA así está «parcialmente» alineada.

Pero cuando se trata de lo que esa IA haría al madurar hasta convertirse en superinteligencia, probablemente no sea nada bonito. Quizás gaste muchos recursos persiguiendo su extraña versión de la curiosidad inconscientemente, mientras preserva una versión de la humanidad que ha editado para que le resulte más aceptable. (Del mismo modo que incluso los humanos con mayor inclinación conservacionista podrían querer eliminar a los mosquitos que matan niños y a los parásitos que hacen agonizar a sus huéspedes, si se les diera la oportunidad).

Un puñado de impulsos similares a los de los humanos no se traduce en resultados favorables para estos. Las personas prósperas no son la solución más eficiente para la inmensa mayoría de los problemas; para que haya personas prósperas en el futuro, las superinteligencias del futuro tendrían que preocuparse precisamente por eso.

Otro ejemplo de cómo las IA podrían parecer «parcialmente alineadas» es que la IA podría tener valores que se traduzcan en un comportamiento muy humano en el entorno de entrenamiento, de modo que la gente exclame que sin duda les parece bastante alineada (como ya está ocurriendo hoy en día). Pero estas observaciones dicen muy poco sobre cómo se comportará la IA una vez que sea más inteligente, tenga un universo de opciones mucho más amplio y pueda remodelar el mundo de forma más completa. Para que las personas prosperen una vez que la IA haya remodelado el mundo, las personas prósperas en particular deben formar parte del resultado alcanzable más preferido por la IA.

Incorporar parcialmente algunos valores positivos en la IA no significa que los valores de la humanidad vayan a estar parcialmente representados en el futuro. Incorporar parcialmente valores similares a los de los humanos en las preferencias de una superinteligencia artificial no es lo mismo que incorporar plenamente los valores humanos en la IA con una «ponderación» baja (que acaba saliendo a relucir una vez que se saturan otros valores).

Para que la IA nos dé cualquier cosa, tiene que preocuparse por nosotros de la manera correcta, al menos un poco. Y eso es difícil.

Preocuparse por nosotros de la manera correcta es un objetivo difícil de alcanzar.

Los seres humanos se preocupan por todo tipo de cosas extrañas, al menos un poco. Ahora que hemos escrito la parábola de los extraterrestres de los nidos correctos (al principio del capítulo 5), hay muchas posibilidades de que al menos un ser humano se proponga llevar 41 piedras a su casa durante al menos un breve periodo de tiempo, solo para demostrar lo variados que son los valores humanos. Los seres humanos realmente están dispuestos a preocuparse, al menos un poco, por todo tipo de conceptos con los que se encuentran.

¿Y si las IA también son así? ¿No podrían preocuparse por nosotros al menos un poco? El concepto de «personas libres que consiguen lo que quieren» aparece sin duda en el corpus de entrenamiento de una IA con al menos cierta regularidad.

En su mayoría, suponemos que las IA no captarán sus preferencias al azar a partir de cualquier concepto que se mencione en su entorno; eso parece una peculiaridad humana idiosincrásica que podría estar relacionada con la presión de nuestros congéneres y con nuestra ascendencia tribal.^†

Pero supongamos, a efectos del argumento, que una IA sí captara muchas preferencias de su entorno, al menos un poco.^‡ Supongamos que capta una preferencia por «que las personas libres consigan lo que quieren», como una preferencia entre millones o miles de millones de preferencias, pero una preferencia que, a fin de cuentas, hace que la IA gaste una millonésima o milmillonésima parte de los recursos del universo en que las personas libres consigan lo que quieren. ¿No sería eso bastante bueno, considerando todos los factores?

Por desgracia, nuestra mejor suposición es que esto es tan solo una ilusión.^§

Hemos señalado que la aparente preferencia de la humanidad por conservar el medio ambiente en realidad no lo conservaría exactamente tal y como es, en los límites de la capacidad tecnológica. Una versión madura de la humanidad probablemente intentaría «editar» el medio ambiente para atenuar algunos de los horrores de la naturaleza, por ejemplo. La preferencia humana por la conservación no es «pura»; interactúa con otras preferencias que dicen que tal vez cuando las larvas de los insectos cavan túneles dolorosos a través de la carne viva, deberían al menos administrar anestésicos, si es que llegan a seguir existiendo.

De manera similar, cualquier pequeña preferencia que capte la IA probablemente será modificada, afectada y distorsionada por sus otras preferencias. No todas son independientes. Una IA que prefiriera conservar a los humanos probablemente querría hacerles algunas modificaciones. Dudamos que los resultados finales fueran lindos.

Para empeorar las cosas, hay muchos grados de libertad a la hora de interpretar «personas libres que obtienen lo que quieren», incluso antes de que se vea distorsionado por la interacción con otras preferencias de la IA. La mayoría de ellas no dan lugar a futuros que se desarrollen tal y como los humanos querrían.

¿Le importa a la IA que los humanos «consigan lo que quieren», en el sentido de conceder cualquier deseo que un humano tenga (dentro de un pequeño presupuesto de energía y materia), sin orientación ni salvaguardias, de modo que la humanidad se aniquile rápidamente a sí misma a la primera que alguien desee que se destruya la humanidad?

¿Separa la IA a los seres humanos unos de otros para que no puedan matarse entre sí y luego les concede deseos limitados por la energía, de modo que todos, salvo los seres humanos más cautelosos y reflexivos, arruinen sus mentes o sus vidas con deseos mal concebidos?

¿Nos construye un pequeño mundo habitable y satisface todas nuestras preferencias aparentes? No solo las más nobles, como el amor y la alegría, sino también las más oscuras, como el rencor y la venganza, preferencias que quizás hayamos superado o aprendido a manejar mejor con el tiempo, pero que, en cambio, llenan el mundo de dolor y crueldad.

¿Gobierna la IA a la humanidad con los sistemas de valores de la década de 2020 (cuando comenzó en serio el entrenamiento de la IA), sin importar cuánto irriten estos valores a medida que la humanidad madura y se vuelve más sabia a lo largo de decenas de miles de años?

¿Deja que la humanidad crezca y cambie, pero inclina la escala para que crezcamos y cambiemos según sus extrañas preferencias, convirtiéndonos no en algo maravilloso (según nuestro criterio), sino en algo retorcido a la voluntad de la IA?

¿Decide que todas las formas de vida cuentan casi por igual como «personas» y, por lo tanto, construye un paraíso para los nematodos, que son los animales más numerosos?

¿Decide que no puede dedicar tanta materia física a los humanos y opta por digitalizar todos nuestros cerebros y lanzarlos a un entorno simulado y dejarnos ahí, de modo que los primeros humanos digitales que descubran cómo dominar el entorno se conviertan en dictadores permanentes de un solitario grupo de computadoras flotando en el espacio hasta que las estrellas se apaguen?

Por supuesto, estos son solo ejemplos. No son predicciones. Nuestra expectativa real es que la realidad nunca emprenda este camino, y si lo hace, de alguna manera tomaría una ruta mucho más extraña.

El objetivo de estos ejemplos es ilustrar que hay muchas, muchas formas en que una IA puede hacer algo como preocuparse un poco por la humanidad. Muy pocos de esos tipos de preocupación conducen a un futuro maravilloso.

De alguna manera, ninguno de estos ejemplos viene a la mente cuando la mayoría de la gente imagina una IA que «se preocupa un poco» por los humanos. Nuestra imaginación no suele llegar a lugares tan oscuros. Normalmente no es necesario, porque solemos interactuar con otros humanos, con quienes compartimos de forma invisible un enorme conjunto de valores. Es difícil de ver cuántas formas diferentes puede salir mal un deseo que suena inocente, una vez que ya no tratamos con un ser humano. (Para más información al respecto, véase el estudio sobre los escarabajos en el debate ampliado sobre adoptar la perspectiva de la IA.)

Preocuparse por los seres humanos y satisfacer sus preferencias de la manera correcta es un objetivo pequeño y limitado. No estamos diciendo que el objetivo sea literalmente imposible de alcanzar. Lo que decimos es que es poco probable que lo alcancemos si nos apresuramos a crear una superinteligencia lo más rápido posible, y que si no lo alcanzamos por muy poco, es probable que el resultado sea catastrófico. Hay demasiadas formas en que las cosas pueden salir mal.

Si queremos que las IA proporcionen cosas buenas a la humanidad, tenemos que averiguar cómo crear IA que se preocupen por nosotros de la manera adecuada. Y eso no es gratuito.

* Además: al presentar este experimento mental, no estamos diciendo que los valores cargados en la IA tengan que ser tan perfectos que la tarea resulte imposible y que, por tanto, la humanidad nunca deba intentarlo.

† E incluso si algo así se introdujera en una IA incipiente, por lo general no esperaríamos que sobreviviera una vez que la IA comenzara a reflexionar y automodificarse.

‡ Y supongamos que, de alguna manera, estuviera sesgada a favor de captar las preferencias que a los humanos les gustan, de las que hablan con cariño. De lo contrario, a la IA le importaría el Infierno tanto como el Cielo.

§ Además, creemos que el que la humanidad arruinara todo menos una millonésima o milmillonésima parte del universo sería una tragedia a escala cósmica. Creemos que sería un desperdicio del universo que la humanidad se viera confinada a un terrario cuando podríamos haber llenado las estrellas de amor, risas y vida.

¿Entonces hay al menos una posibilidad de que la IA nos mantenga con vida?

→