¿Consideran que la alineación es todo o nada?

No. Pero es probable que la «alineación parcial» siga siendo catastrófica.

Uno de los argumentos para preocuparse menos por la superinteligencia se podría formular así: «Probablemente, la IA avanzará de forma gradual, lo que permitiría realizar mejoras mediante ensayo y error para mantener la IA bajo control en cada paso; la alineación no tiene por qué ser perfecta para que todo vaya bien». No creemos que esta perspectiva sea muy esperanzadora, por varias razones:

Nuestras preocupaciones no dependen de si el progreso es rápido o lento. No tenemos una opinión certera sobre si la IA se estancará en varios puntos del camino hacia la superinteligencia. Parece una predicción difícil, más que fácil. Nuestra mejor suposición es que la inteligencia artificial está sujeta a efectos umbral, pero en última instancia se trata solo de una suposición, y nuestros argumentos no dependen de ello. La historia de Sable en la parte II de Si alguien la crea, todos moriremos describe intencionadamente una catástrofe provocada por IA que no están muy por encima de las capacidades humanas, en parte para transmitir cómo un adversario de IA no necesitaría convertirse rápidamente en superinteligencia para ser extraordinariamente peligroso.
Nuestra respuesta básica a «¿Y si tuviéramos suerte y dispusiéramos de mucho tiempo para probar ideas de alineación en IA débiles antes de que se vuelvan muy capaces?» es el análisis del capítulo 10 y el debate ampliado asociado «Una mirada más detallada al antes y el después». Los investigadores pueden averiguar todo tipo de detalles sobre las IA débiles, pero es inevitable que haya un gran número de diferencias críticas entre las IA lo suficientemente débiles como para estudiarlas con seguridad y las primeras IA lo suficientemente potentes como para constituir un punto de no retorno. Incluso en un campo maduro, abordar todas estas diferencias de forma adecuada y con suficiente antelación sería un gran desafío. En un campo que aún está en su fase de alquimia, trabajando con IA inescrutables (que se cultivan en lugar de fabricarse), la esperanza es extremadamente poco realista.
La alineación de la IA no tiene por qué ser perfecta para arrojar excelentes resultados a largo plazo. En principio, es posible diseñar cuidadosamente una IA con cierta tolerancia al error, si sabes lo que estás haciendo.^* Pero eso no significa que las IA «parcialmente alineadas» o incluso «alineadas en su mayor parte» vayan a producir resultados parcial o mayormente aceptables. Hay muchas formas y razones diferentes por las que una IA podría comportarse amablemente el noventa y cinco por ciento del tiempo en el presente o en un futuro cercano, lo que no se traduciría en ningún tipo de final feliz para la humanidad, como se analiza desde muchos ángulos diferentes en los recursos en línea del capítulo 5.

Para desarrollar el último punto:

Como experimento mental, imagina que la humanidad consigue incorporar casi todos los valores humanos diversos en las preferencias de una superinteligencia —todos salvo la preferencia por la novedad, por alguna razón—. En ese caso, la superinteligencia nos conduciría a un futuro estancado y aburrido, en el que el mismo «mejor» día se repite ad infinitum.

No creemos que esto sea plausible, claro está. Ese nivel de alineación parece totalmente fuera del alcance de los enfoques estándar actuales en IA, y resulta un poco extraño imaginar que seríamos capaces de introducir casi todos nuestros valores en una IA sin ser capaces de introducirlos todos.^† Pero este experimento mental pone de relieve cómo las criaturas que comparten algunos de nuestros deseos, pero a las que les falta al menos un deseo crucial, probablemente seguirían produciendo resultados catastróficos una vez que fueran lo suficientemente expertas tecnológicamente como para excluir a los humanos del proceso de toma de decisiones y conseguir exactamente lo que quieren.

De manera más realista, una IA podría terminar «parcialmente» alineada en el sentido de que (al igual que nosotros) tiene varias estrategias instrumentales enredadas en sus preferencias terminales. Quizás termine con un impulso que se parezca un poco a la curiosidad y otro que se parezca un poco al conservacionismo, y quizás algunas personas vean eso y digan: «¡Miren! La IA está desarrollando impulsos muy humanos». Sin duda, desde cierto punto de vista, se podría decir que una IA así está «parcialmente» alineada.

Pero cuando se trata de lo que esa IA haría al madurar hasta convertirse en superinteligencia, el resultado probablemente no sería nada agradable. Quizá gaste muchos recursos persiguiendo su extraña versión de la curiosidad inconscientemente, mientras conserva una versión de la humanidad que ha editado para que le resulte más agradable. (Del mismo modo que incluso muchos humanos con mentalidad conservacionista podrían eliminar de la naturaleza a los mosquitos que matan niños y a los parásitos que provocan agonía, si tuvieran la oportunidad). Esto forma parte de nuestro argumento de que los seres humanos prósperos no son la solución más eficiente para la inmensa mayoría de los problemas.

Por otra parte, una IA puede tener valores que se traduzcan en un comportamiento muy humano en el entorno de entrenamiento, de tal manera que la gente exclame que definitivamente parece «parcialmente alineada». (Eso ya está sucediendo ahora, y hemos argumentado que es ilusorio.) Pero esto dice muy poco sobre cómo se comportará la IA una vez que tenga un espacio de opciones enormemente más amplio. Para que las personas prosperen en ese entorno, la prosperidad de la humanidad en particular tiene que formar parte del resultado alcanzable preferido por la IA.

Si incorporamos parcialmente algunos buenos valores en la IA, eso no significa que los valores de la humanidad vayan a estar parcialmente representados en el futuro. Incorporar parcialmente valores similares a los de los humanos en las preferencias de una IA más inteligente que los humanos no es lo mismo que incorporar plenamente los valores humanos en la IA con una «ponderación» baja (que acaba pasando a primer plano una vez que se saturan otros valores).

Para que la IA nos dé cualquier cosa, tiene que preocuparse por nosotros de la manera correcta, al menos un poco. Y hay muchísimos «episodios que casi fueron una catástrofe» que no están a la altura de esa vara. Véase también: «¿No se preocuparán las IA al menos un poco por los humanos?»

* Para un análisis sobre por qué es realmente necesario saber lo que se está haciendo, véase Inteligente (normalmente) implica incorregible, La maquinaria profunda de la dirección y Es difícil obtener una pereza robusta.

† Véase «¿No se preocuparán las IA al menos un poco por los humanos?».

¿No mejorará la situación una vez que los gobiernos se involucren más?

→