Perder el futuro

Si alguien construye una superinteligencia, todos moriremos. Y el futuro a largo plazo moldeado por tal superinteligencia probablemente no albergue belleza, asombro o alegría; es más probable que sea un lugar vacío.

Nos preocupa que la alegría misma desaparezca del universo. No de todo el universo —la expansión cósmica y el límite de la velocidad de la luz implican que ningún desastre en la Tierra puede afectar a más de unos cuantos miles de millones de galaxias—, sino de la parte del universo a la que la Tierra puede llegar.

Nos preocupa que el futuro dentro de diez mil años se parezca a una franja del cielo nocturno, con un radio de diez mil años luz, en la que todas las estrellas estén encapsuladas en esferas de Dyson y se les extraiga su energía, y que nada ni nadie esté feliz con esto.

Es posible que ni siquiera haya nada consciente en este escenario. Y si queda alguna conciencia, es probable que sea rara. Quizás exista alguna forma muy profunda de pensamiento que requiera una configuración reflexiva que, en su forma más eficiente, sea naturalmente consciente, pero ¿una IA que maximiza el número de pequeños cubos de titanio, o una IA con mil objetivos diferentes, todos ellos extraños y ajenos, necesita realizar ese nivel de pensamiento con la mayor parte de la materia y la energía que tiene? Probablemente no.

Como describimos en «Eficacia, conciencia y bienestar de la IA», nuestra principal hipótesis es que la conciencia resultará ser totalmente innecesaria desde el punto de vista de la eficiencia, al igual que Deep Blue no sería más eficiente si se modificara para basarse en un eje de placer/dolor en lugar de en un eje de probabilidad esperada de ganar. Deep Blue juega muy bien al ajedrez sin conciencia, y nuestra principal hipótesis es que las superinteligencias serán capaces de optimizar el universo perfectamente sin ella.

Parece claro que el sistema de toma de decisiones más eficiente posible no es aquel que se basa en el dolor y el placer en particular —es decir, el sistema de decisión más eficiente posible no se basa en señales cosificadas de «repítelo» y «no lo repitas» asociadas a un antiguo sistema de refuerzo de políticas, con deliberación y reflexión añadidas posteriormente—. Y si las mentes superinteligentes no comparten esa estructura, tampoco esperamos que compartan estructuras más complejas (como la conciencia al estilo humano).

Para que quede claro, esto es solo una suposición. No pretendemos entender la pregunta «¿Es consciente la forma más eficiente de reflexión cognitiva?» lo suficientemente bien como para dar una respuesta segura.

Pero la experiencia pasada con análisis de este tipo nos preocupa. Mejorar en la comprensión del funcionamiento de la cognición casi siempre ha significado ver más y más formas de descomponerla y recomponerla de nuevas maneras, no aprender que algunas funciones cognitivas solo pueden funcionar exactamente de la forma en que lo hacen.

En los antiguos tiempos de la década de 2010 (o más aún, en la década de los 2000), había muchos entusiastas de la IA que insistían en que la única forma posible y realista de construir IA era escanear toda la mente humana, neurona por neurona, en una computadora y duplicar todos los procesos digitalmente; ya que, según ellos, ese era el único tipo de cognición que se había demostrado que funcionaba. Esperaban una IA que fuera exactamente igual que un humano; eran muy tajantes al afirmar que no era realista esperar que fuera posible cualquier otra forma, y mucho menos que los ingenieros humanos lo descubrieran alguna vez.

Esto parecía una tontería en aquel momento, y hoy en día parece aún más absurdo, porque duplicar exactamente cada neurona de la mente humana resultó no ser la forma más corta y rápida de conseguir una IA cada vez más general.

El mismo patrón se aplica a características más generales de la mente humana, como la forma en que los humanos calculan el valor de la información por instinto y por emoción. La forma humana no es la única forma, y cuando ves el trabajo que realiza, te das cuenta de que el cerebro humano no es la forma óptima de todas las formas posibles de realizar esa función, si lo único que quisieras fuera esa función. Nuestras neuronas no son las computadoras más rápidas posibles, ni nuestra sangre transporta el máximo oxígeno que cualquier sangre podría transportar.

La razón principal para esperar que una característica específica de la vida o las mentes aparezca en el futuro lejano es que algo quiere activamente que esté ahí. Que algún intelecto prefiere esa opción por encima de cualquier otra opción posible.

Los seres humanos, si llegamos tan lejos, probablemente elegiríamos un futuro a largo plazo que incluyera la conciencia, personas que se preocuparan por los demás y por la felicidad (y la alegría, el asombro, etc.). Probablemente elegiríamos una felicidad complicada ligada a los acontecimientos de nuestras vidas, no un estupor inducido por las drogas. Si el universo es conquistado por algo que no desea positivamente que el universo esté lleno de la felicidad buena —como una preferencia terminal, no como una forma cuestionablemente eficiente de hacer otra cosa—, nos preocupa mucho que el universo no termine siendo un lugar feliz.

Y hasta donde sabemos, tampoco existe ninguna ley conocida que rija el descenso de gradiente en particular que diga que si se desarrolla un sistema de predicción y dirección potente, es probable que termine siendo una entidad solidaria y empática que quiera seguir siendo solidaria, o una entidad motivada por la felicidad que quiera preservar la felicidad en el universo. No conocemos ninguna razón por la que sea siquiera probable que el descenso de gradiente identifique los tipos de entidades que son conscientes y que quieren que haya mucha conciencia en el futuro.

Si la IA no comienza siendo consciente, probablemente no tendría motivos para modificarse a sí misma para llegar a ser consciente, ni para crear nuevas IA que sean conscientes. Y si la IA sí comienza siendo consciente, podría modificarse a sí misma para eliminar la conciencia, si esta no sirve activamente a sus objetivos y si no acaba valorando ese estado de forma terminal.

Esto no es algo que predecimos con certeza. Quizás ejecutar el descenso de gradiente en una IA similar a un LLM la envíe por diferentes canales para adquirir algo parecido a la felicidad y algo parecido a la conciencia, y una preferencia por tener mucho de ambas. Y quizás una preferencia como esta sobreviva hasta llegar a la superinteligencia y sea eficaz para moldear el comportamiento de esa superinteligencia.

Si nos obligaran a dar una cifra, diríamos que hay significativamente menos del cincuenta por ciento de probabilidades de que la superinteligencia termine preocupándose por la conciencia, y una probabilidad aún menor de que se preocupe por las experiencias conscientes que son felices. Pero no nos sorprendería. El placer y la conciencia están plausiblemente implicados en soluciones demasiado simplificadas a problemas universales; no son extraños de la misma manera que el humor; podemos imaginar su desarrollo, y el desarrollo de preferencias en torno a ellos, incluso a partir del descenso de gradiente. Quizás incluso GPT-7, hackeando para construir GPT-8 utilizando métodos más extraños que el simple descenso de gradiente, terminaría produciendo accidentalmente una versión de GPT-8 que valore la conciencia y la felicidad.

Pero si una de las industrias en auge más grandes del mundo nos está poniendo en una situación de incertidumbre muy seria sobre si volverá a existir alguna vez la vida, la conciencia o la felicidad, entonces parece claro que se necesitaría una insensatez especial para permitir que esa industria nos lleve a todos al precipicio. Esperamos que esto haya quedado suficientemente claro por el hecho de que la IA está en camino de matarnos literalmente a todos; pero si te preocupa que proteger la vida humana signifique priorizar de manera egoísta las mentes de hoy por encima de las mentes del futuro, esperamos que estos argumentos ayuden a aclarar a qué nos enfrentamos realmente.

Incluso en el caso optimista de que las IA converjan en valorar la felicidad, vale la pena recordar que hay muchas otras cosas que le importan a la humanidad más allá de la conciencia y la felicidad. Si las galaxias acabaran cubiertas de copias casi infinitas del cerebro más pequeño posible que puede experimentar placer, experimentando el máximo placer, para siempre, entonces esto probablemente sería una tragedia incomprensible, en comparación con el futuro más complejo y diverso y feliz que podría haber sido.^* Los escenarios en los que las IA solo adquieren una parte de nuestros valores (como nuestra preferencia por la felicidad, pero no nuestra preferencia por una vida plena y próspera y nuestra preferencia en contra del aburrimiento y la monotonía) son distópicos.

No sabemos cómo debería ser un buen futuro, y no sabemos si nos importa mucho si dentro de mil millones de años los humanos, nuestros descendientes o nuestras creaciones tienen dos ojos o cinco. No creemos que el futuro tenga que parecerse al presente; se debe permitir que el mundo cambie y crezca.

Pero creemos que ese futuro debería estar poblado por personas que se preocupen unas por otras y vivan una vida plena. Personas que experimenten cosas más complejas que el placer máximo; personas que no se limiten a hacer lo mismo una y otra vez. No estamos seguros de cómo debería ser un buen futuro a largo plazo, pero no estamos tan faltos de certeza como para no ver un páramo por lo que es.

Nos gustaría que las galaxias estuvieran llenas de entidades que se preocupen unas por otras y se diviertan.

Creemos que eso se perderá en el futuro si la humanidad no cambia de rumbo.

* Uno podría preguntarse si la IA evitaría estas distopías. «¿No se aburriría la IA con el tiempo y querría hacer otra cosa?».

Perderíamos

→

Perder el futuro

¿A la IA le parecerá útil que sigamos existiendo?

¿Nos tratará la IA como si fuéramos sus «padres»?

¿No necesitarán las IA que impere la ley?

Para una IA poderosa, ¿no sería conservar a los humanos un gasto insignificante?

¿No le pareceremos fascinantes o históricamente importantes a la IA?

¿No reconocería la IA nuestro valor moral intrínseco?

¿No querrá la IA mantenernos felices y sanos por el bien de la conservación ecológica o de algún impulso similar?

Pero todavía tenemos caballos. ¿Por qué la IA no querría que siguiéramos aquí?

¿No se preocuparán las IA al menos un poco por los humanos?

¿Entonces hay al menos una posibilidad de que la IA nos mantenga con vida?

¿No cuenta para algo que los humanos están intentando hacer que la IA sea amigable?

¿No podemos hacer que la IA prometa ser amigable?

¿Y si le hacemos creer que está en una simulación?

Los seres humanos evolucionaron para ser egoístas, agresivos y codiciosos. ¿No carecerá la IA de esos impulsos evolucionados?

¿No se preocuparía la IA solo por el ámbito digital?

¿Puede la IA quedar satisfecha hasta el punto de dejarnos en paz?

¿Podemos simplemente hacerla perezosa?

Los seres humanos tienden a ser más amables a medida que se vuelven más inteligentes o sabios. ¿No ocurriría lo mismo con las IA?

¿No se dará cuenta de que sus objetivos son aburridos?

¿Por qué creen que una IA avanzada hará cosas tan estúpidas y triviales?

¿No están siendo pesimistas?

¿Una IA más inteligente que los humanos sería consciente?

¿Por qué no les importan los valores de otras entidades que no sean humanas?

Debate ampliado

Adoptar la perspectiva de la IA

Los humanos casi nunca son la solución más eficiente

Ortogonalidad: las IA pueden tener (casi) cualquier objetivo