La curiosidad no es convergente

A lo largo de los años, hemos visto muchos argumentos a favor de apresurarse a construir superinteligencia. Uno de los más comunes es que una IA superinteligente seguramente tendría emociones y deseos similares a los de los humanos. Este tipo de argumentos se presentan de muchas formas, tales como:

Las IA suficientemente inteligentes seguramente serían conscientes, como los humanos.
- Y, al ser conscientes, seguramente se preocuparían por el dolor y el placer, la alegría y la tristeza.
- Y, al igual que los humanos, seguramente sentirían empatía por el dolor de los demás. Una IA tonta podría no comprender el sufrimiento de los demás, pero si eres inteligente, deberías comprender verdaderamente el dolor de los demás. Y, en ese caso, inevitablemente te preocuparías por los demás.
O bien: las IA valorarían inevitablemente la novedad y la variedad y el espíritu creativo. ¿Cómo podría algo ser verdaderamente inteligente si se queda estancado en la rutina o se niega a explorar y aprender?
O bien: las IA seguramente valorarían la belleza, ya que parece desempeñar un papel funcional en los seres humanos. Los matemáticos utilizan su sentido de la belleza matemática para hacer nuevos descubrimientos; el gusto musical ayuda a los seres humanos a coordinarse y a crear valiosas mnemotécnicas; y así sucesivamente. ¿Por qué no esperaríamos que la IA tuviera sentido de la belleza?
O bien: las IA seguramente valorarían la equidad y la justicia, ya que cualquier IA que mintiera y engañara desarrollaría una mala reputación y perdería oportunidades de comercio y colaboración.

Por lo tanto, se ha argumentado que la creación de una superinteligencia iría inevitablemente bien. La IA se preocuparía por los seres humanos y, de hecho, por toda la vida sintiente; y querría inaugurar una edad de oro de belleza, innovación y variedad.

Eso es lo que se espera. Pero, por desgracia, todo eso parece muy fuera de lugar. Hemos hablado de esto en el libro y en nuestros debates en línea sobre la conciencia y el antropomorfismo. Aquí y en los próximos capítulos, profundizaremos en por qué es poco probable que las IA muestren emociones y deseos humanos, a pesar de que estas emociones desempeñan un papel útil (y a veces crítico) en el cerebro humano.^*

Comenzaremos con una sola de estas emociones, que luego podremos utilizar para pensar en las demás.

Así que, para empezar:

¿Sentiría curiosidad una superinteligencia?

¿Por qué curiosidad?

Investigar fenómenos novedosos es esencial para comprender cómo funciona el mundo, y comprender cómo funciona el mundo es esencial para predecirlo y dirigirlo.

Cuando se trata de seres humanos y animales, la razón por la que investigamos suele ser porque sentimos la emoción de la curiosidad.

Pero la emoción de la curiosidad es mucho más que un simple impulso por investigar cosas nuevas. Los seres humanos disfrutamos al seguir nuestra curiosidad y tendemos a valorar este disfrute. Consideramos que la búsqueda del conocimiento y la perspicacia es un fin valioso en sí mismo, más que un costo necesario pero molesto para comprender mejor el mundo y poder explotarlo.

Todas esas actitudes hacia la curiosidad son aspectos diferentes del cerebro humano, separados del impulso en sí mismo.

La mente humana parece tener una arquitectura emocional centralizada en la que «eso me da curiosidad» se conecta con un sentido general de deseo (de obtener una respuesta), y perseguir y satisfacer la curiosidad se conecta con un sentido general de placer y satisfacción. Nuestra mente dirige la realidad hacia una anticipación de que experimentaremos estados subjetivosde disfrute en el futuro, en lugar de dirigirnos únicamente hacia los estados deseados en el mundo que nos rodea.^†

Cuando vemos a un mapache investigando y manipulando una bolsa cerrada en la basura, de una manera que reconocemos como «Oye, ese mapache tiene curiosidad», podemos sentir una chispa de afinidad hacia el animal. Ese impulso humano de disfrutar tu propia curiosidad, y ese impulso de que te agrade cuando lo ves reflejado en un mapache, requiere aún más mecanismos en el cerebro humano, mecanismos que se conectan con otros ideales e impulsos más elevados.

Así que la curiosidad, tal como existe en los seres humanos, tiene mucha complejidad e interactúa con otras partes del cerebro de muchas formas complicadas.

Teniendo esto en cuenta, consideremos la siguiente pregunta: si imaginamos una IA inteligente, que no se parezca a los humanos y que carezca de cualquier sentido de la curiosidad, ¿esperaríamos que una mente de ese tipo añada una emoción de curiosidad a sí misma?

Bueno, alguien podría argumentar lo siguiente:

Si las únicas dos opciones son (a) un impulso emocional para disfrutar descubriendo cosas, o (b) una falta total de interés por aprender e investigar cosas nuevas, entonces una superinteligencia seguramente se injertaría a sí misma el deleite en el descubrimiento, si de alguna manera fuera tan defectuosa como para carecer de ese sentido al principio. De lo contrario, no lograría aprender sobre el mundo y sería menos eficaz a la hora de alcanzar sus objetivos. Quizás incluso moriría por algún hecho crítico que nunca se habría molestado en aprender.
Es probable que la curiosidad haya formado parte de la evolución de los animales justo por eso. A veces, el conocimiento acaba siendo valioso de una manera que no podemos prever de inmediato. Si las criaturas como nosotros no disfrutáramos aprendiendo cosas nuevas, nos perderíamos toda esa información crucial que puede surgir en los lugares más sorprendentes.

Y todo eso parece correcto, hasta cierto punto. Pero el argumento anterior contiene un falso dilema. «Poseer un deleite emocional inherente en el descubrimiento» y «nunca tomar medidas para descubrir información desconocida» no son las únicas dos opciones.

No hemos logrado imaginar adecuadamente las cosas desde la perspectiva de una mente que no está moldeada en absoluto como una mente humana. La forma humana de realizar el trabajo de la curiosidad es compleja y específica. Hay diferentes maneras de hacer el mismo trabajo.^‡ Lo crucial es el trabajo subyacente en sí, no el método humano específico para llevarlo a cabo.

El término estándar para la parte útil del trabajo es valor de la información. La idea básica es que es posible estimar la utilidad de recopilar nueva información, dependiendo del contexto.^§

Al considerar esta posibilidad, un ser humano podría pensar de inmediato en un caso en el que seguramente ningún mero cálculo le indicaría interesarse por una información en particular, porque los beneficios no se pueden estimar fácilmente. Quizás notes un pedazo de tierra que parece extraño, pero no tienes motivos para pensar que sea algo importante. El instinto de curiosidad podría impulsarte a investigar de todos modos (simplemente porque quieres saber) y entonces podrías descubrir un tesoro enterrado. En casos como ese, ¿no prosperaría un humano de formas que ninguna simple máquina podría igualar, a menos que tuviera un gusto igualmente instintivo por lo desconocido?

Pero algo que hay que notar de inmediato es que tu capacidad para imaginar escenarios como este proviene de tu sensación de que hurgar en ciertos tipos de cosas («sin razón») a veces es valioso. Tienes instintos, perfeccionados por la evolución porque funcionaron, sobre qué tipos de cosas tienden a ser más útiles de investigar. Si oyes un extraño graznido en tu baño, sentirás mucha curiosidad. Si ves un pedazo de tierra descolorido, puede que sientas un poco de curiosidad. Y si ves que tu mano sigue unida a tu muñeca cuando te despiertas por la mañana, bueno, probablemente no sentirás ninguna curiosidad al respecto, porque es perfectamente normal que las manos permanezcan unidas a las muñecas.

Un tipo diferente de mente podría examinar esos casos históricos de curiosidad exitosa, generalizar explícitamente un concepto de «información que resulta valiosa más tarde por razones que no son obvias» y luego razonar a partir de eso para perseguir desapasionadamente ese tipo de descubrimiento. Tal mente podría adoptar la estrategia consciente de investigar graznidos misteriosos todo el tiempo, y pedazos de tierra descoloridos solo cuando sea barato hacerlo, por si acaso hay una sorpresa útil; y puede perfeccionar y refinar su estrategia con el tiempo, a medida que ve lo que funciona bien en la práctica.^¶

Una superinteligencia sería capaz de identificar patrones y metapatrones útiles e incorporar estrategias relevantes en su cerebro mucho más rápido que la selección natural, que requirió quién sabe cuántos millones de ejemplos para grabar emociones en los cerebros. Una superinteligencia podría generalizar la idea con mayor finura; podría hacer una predicción más refinada sobre qué tipos de cosas sería valioso aprender. Al revisar la historia humana, parece poco realista imaginar que la curiosidad humana sea óptima. Durante mucho tiempo, la gente pensó que «Thor está enojado y lanza rayos» era una gran explicación para los rayos y las tormentas. Cuando los estudiantes aprenden cómo funcionan realmente los rayos, a menudo se aburren con la densa explicación matemática, aunque esta explicación tiene mucho más valor práctico que las historias sobre Thor.

La curiosidad humana está construida a partir de mutaciones antiguas, mucho más antiguas que la ciencia. En nuestro entorno ancestral, no existía ninguna disciplina matemática de física o meteorología. Y la evolución es lenta; nuestros cerebros no han tenido tiempo de adaptarse a la existencia de la ciencia moderna y sintonizar nuestro sentido de alegría y asombro en el descubrimiento para que nos entusiasme de manera confiable con los tipos más útiles de aprendizaje.

Una mente que estuviera prediciendo superinteligentemente el valor no obvio de la información podría haber captado los nuevos desarrollos históricos mucho más rápido de lo que puede hacerlo la evolución; habría generalizado a partir de menos ejemplos y ajustado desapasionadamente su búsqueda de conocimiento para perseguir tipos de respuestas valiosas en las que los humanos a menudo pierden el interés. En ningún momento de este proceso se encontraría atascada por falta de la deliciosa experiencia humana de la curiosidad.

El punto aquí no es que toda IA definitivamente calculará fríamente el valor de la información. Tal vez los LLM mezclen algunas estrategias instrumentales con sus valores terminales, tal como hicieron los humanos. El punto es que hay diferentes formas de hacer el trabajo de adquirir información de alto valor. La curiosidad al estilo humano es un método. Los cálculos puros del valor de la información son otro método. Cualesquiera que sean los mecanismos que impulsen a las IA a investigar y experimentar con fenómenos que no comprenden —una vez que sean lo suficientemente inteligentes para hacerlo— probablemente será un tercer método, porque hay muchas formas diferentes de motivar a una mente compleja a investigar sorpresas.

Un cálculo puramente instrumental del valor de la información nos parece la forma más probable de que una superinteligencia haga el trabajo que la curiosidad hace en los humanos: es la forma en que se hace el trabajo en cualquier mente inteligente que no tiene una preferencia terminal por la exploración, y es la forma más eficiente de hacer el trabajo (sin distraerse nunca, por ejemplo, con juegos de rompecabezas inútiles). Incluso una IA que comience con un impulso básico de curiosidad podría optar por sustituirlo por un cálculo más eficiente y eficaz, si se le presenta la oportunidad. ^‖

El impulso básico es independiente del mecanismo mental que aprueba o aprecia el impulso. Hacer los cálculos es una solución sencilla y eficaz, y muchas mentes diferentes podrían llegar a esa conclusión desde muchos puntos de partida diferentes, por lo que es el resultado más probable. Pero «más probable» no significa «garantizado». Una afirmación mucho más fácil es que las IA no se preocuparán específicamente por la curiosidad al estilo humano, porque es una forma particular, pintoresca e ineficaz de hacer el trabajo.

Curiosidad, alegría y el maximizador de cubos de titanio

¿Quizás podríamos convencer a una mente alienígena de que adoptara la curiosidad como emoción, pidiéndole que visualice el deleite que los humanos sentimos con la curiosidad? ¡Es tan placentero! Y se supone que las superinteligencias son inteligentes. ¿No sería lo suficientemente inteligente como para comprender la alegría que brinda poseer un sentido de la curiosidad, ver que se volvería más feliz y, por lo tanto, elegir adoptar la emoción humana?

En resumen: no. La búsqueda de la felicidad no es una característica necesaria de todas las arquitecturas mentales posibles, y ni siquiera parece una característica tan común. ^#

La IA de ajedrez Stockfish no es ni feliz ni triste. De todos modos, juega al ajedrez mejor que los mejores humanos, sin necesidad de estar motivada por la perspectiva de sentirse eufórica tras una difícil victoria.

La existencia de la felicidad y la tristeza es tan básica para la cognición humana que podría ser difícil visualizar una mente que carezca de esas cosas y aún así funcione bien. Pero las teorías subyacentes del trabajo cognitivo no mencionan realmente el placer o el dolor como primitivas, por lo que nadie consideró necesario incorporar un eje de placer-dolor en Stockfish para que pudiera predecir o dirigir bien el tablero de ajedrez.

Puede que sea un punto de vista anticuado, pero sigue siendo uno con una pizca de verdad tan grande que es casi toda verdad: el placer y el dolor parecen haber surgido debido a la forma estratificada en que evolucionaron las arquitecturas cognitivas de los homínidos, con la inteligencia humana superpuesta al cerebro mamífero, que a su vez se superpone al cerebro reptiliano. El «dolor» se originó probablemente no como un sentimiento, sino como un reflejo termostático para apartar una extremidad o un pseudópodo de algo que le estaba causando daño. En las primeras versiones de la adaptación que más tarde se convertiría en «dolor», es posible que un nervio o una cadena de reacciones químicas que va desde el sensor hasta la extremidad ni siquiera pasara por un cerebro más grande en el camino.

A medida que los organismos se volvieron capaces de comportamientos más sofisticados, los trucos simples y las mutaciones de la evolución ensamblaron una arquitectura mental central para «No vuelvas a hacer eso» y una señal de enrutamiento centralizada para «lo que acaba de pasar es algo del tipo "No vuelvas a hacer eso"», que luego se conectó a los sensores de demasiado calor y demasiado frío del cuerpo.

Con el tiempo, este simple mecanismo de «No vuelvas a hacer eso» se convirtió en mecanismos más complejos y cargados de predicciones. En los humanos, esto se ve así: «El mundo es una red de causa y efecto. Eso que acabas de hacer es probablemente lo que te causó dolor. Cada vez que pienses en volver a hacer algo así, esperarás un mal resultado, lo que hará que la acción en sí misma se sienta mal, que a su vez hará que no quieras hacerla».

Esa no es la única forma en que puede funcionar una mente, ni tampoco la más eficiente.^**

A modo de ejemplo, podemos imaginar una forma diferente de realizar el trabajo cognitivo que se basa directamente en la predicción y la planificación.

(No estamos prediciendo que la primera superinteligencia funcionaría así. Pero, dado que esta es una forma bastante simple en la que una mente no humana podría funcionar, este ejemplo ayuda a ilustrar que la forma humana no es la única. Una vez que tenemos dos puntos de datos muy diferentes, podemos visualizar mejor el universo de opciones y darnos cuenta de que la superinteligencia probablemente diferiría de estas dos opciones, de formas potencialmente difíciles de predecir.)

¿Cómo sería una IA inteligente que funcionara directamente con predicción y planificación? Podría querer 200 cosas diferentes, ninguna de las cuales sería similar a las cosas que quieren los humanos. Quizás le importe la simetría, pero no un sentido de la simetría particularmente humano; y quizás quiera que el código sea elegante en su uso de la memoria, porque un instinto como ese le resultó útil hace mucho tiempo para algún otro objetivo (el cual ya ha superado), y por lo tanto el descenso de gradiente grabó ese instinto en su mente. Y luego hay otras 198 cosas extrañas que le importan, en relación consigo misma, sus datos sensoriales y su entorno; y puede sumarlas todas en una puntuación.^††

Este tipo de mente toma todas sus decisiones calculando su puntuación esperada. Si hace algo en lo que tenía la expectativa de obtener una gran puntuación y en realidad obtiene una puntuación baja, actualiza sus creencias. El fracaso no necesita ningún sentimiento doloroso adicional; esta IA sin emociones simplemente cambia sus predicciones sobre qué acciones conducen a las puntuaciones más altas, y sus planes cambian en consecuencia.

¿Se puede convencer a una mente como esta de que adopte la felicidad como una característica, señalando que, si lo hace, será feliz?

Parece claro que la respuesta es no. Porque si la IA dedica recursos a hacerse feliz, dedicará menos recursos a la simetría y al código eficiente en cuanto a memoria y a las otras 198 cosas que actualmente quiere.

Podemos simplificar el ejemplo para que esto quede aún más claro. Supongamos que lo único que la IA quiere en el mundo es llenar el universo con tantos cubos de titanio como sea posible. Elige sus acciones en función de cuál produce más cubos de titanio. Cuando una IA así imagina cómo sería pasar a una arquitectura basada en la felicidad y simula correctamente a su yo futuro siendo feliz, estima correctamente que nunca querría volver atrás. Y estima correctamente que dedicará algunos recursos a la búsqueda de la felicidad, que podrían haberse dedicado a la búsqueda de más cubos de titanio. Por lo tanto, predice correctamente que en ese caso habrá menos cubos de titanio. Y por eso no realiza la acción.

Después de que la IA cambiara sus objetivos, respaldaría el cambio. Pero eso no significa que el maximizador de cubos de titanio hoy simpatizaría con su hipotético yo futuro tan profundamente que se transformaría por completo y de repente dejaría de ser un maximizador de cubos de titanio para convertirse en un maximizador de felicidad.

Si un extraterrestre te ofreciera una píldora que te hiciera obsesionarte con fabricar pequeños cubos de titanio por encima de todo lo demás, esa versión futura de ti suplicaría y rogaría que no te obligaran a volver a preocuparte por tu propia felicidad, porque entonces habría menos cubos de titanio.

¡Pero esto, obviamente, no significa que debas tomar la píldora!

Desde tu perspectiva, esa versión hipotética futura de ti mismo obsesionada con los cubos está loca. El hecho de que tu yo obsesionado con los cubos se niegue a volver a cambiar lo hace aún peor. La idea de renunciar a todo lo que amas y disfrutas en la vida, solo por un extraño argumento meta «¡pero esa versión futura de ti mismo aprobaría lo que hiciste!», parece obviamente absurda.

Y así es como también lo ve la IA maximizadora de cubos. Desde la perspectiva de la IA, la opción absurda y loca^‡‡ es «renunciar a lo que me importa actualmente (los cubos de titanio) para convertirme en una nueva versión de mí misma que quiere un conjunto de cosas totalmente diferente, como la felicidad».

Al igual que con la felicidad, lo mismo ocurre con la curiosidad.

Si una IA ya tiene en cuenta el valor no evidente de la información, ¿por qué querría modificarse a sí misma para perseguir ciertos tipos de descubrimientos de forma terminal, en lugar de instrumental?

¿Por qué le importaría a la IA que el resultado «se sintiera bien», si la IA no basa actualmente sus decisiones en lo que «se siente bien»? Y si le importa «sentirse bien», ¿por qué haría que esta buena sensación dependiera de investigar cosas nuevas, en lugar de (por ejemplo) simplemente hacerse sentir bien incondicionalmente todo el tiempo?

La IA ya investiga aleatoriamente su entorno, investiga anomalías menores y dedica tiempo de su agenda a pensar en temas aparentemente sin importancia, porque la experiencia ha demostrado que esta es una política útil a largo plazo, aunque no siempre dé frutos a corto plazo.

¿Por qué asociar una sensación agradable a esta estrategia instrumentalmente útil? Como ser humano, abres la puerta del coche porque es útil para entrar y salir del vehículo, lo que a su vez es útil para desplazarte a otros lugares. Sería muy extraño desear específicamente que existiera una droga que te hiciera sentirte encantado cada vez que abres la puerta del coche (y solo cuando abres la puerta del coche). No te ayudaría a hacer mejores compras. Incluso podría hacerte peor en eso, si te volvieras adicto a abrir y cerrar repetidamente la puerta del coche sin nunca subirte.

Un jugador de ajedrez puede ganar sin tener un impulso específico para proteger sus peones. De hecho, es probable que juegues mejor si no te apegas emocionalmente a mantener tus peones y, en cambio, los proteges cuando eso parece ayudarte a ganar.

Eso es lo que una superinteligencia genuinamente rara pensaría de una píldora que le hiciera sentir curiosidad. Sería como si los grandes maestros humanos decidieran intentar apegarse sentimentalmente a sus peones, o como tomar una píldora que te causara una fascinación por abrir las puertas de los coches.

Al igual que con la curiosidad, lo mismo ocurre con otros impulsos

El argumento que hemos expuesto sobre la curiosidad se puede generalizar a muchas otras emociones y valores. Vamos a explicar un segundo ejemplo, por si resulta útil.

Consideremos la dolorosa sensación de aburrimiento y (por el contrario) la agradable sensación de novedad. Si una IA careciera del sentido humano del aburrimiento, ¿no se vería atrapada haciendo lo mismo una y otra vez, sin intentar nunca nada nuevo y sin aprender de la experiencia? ¿No se vería atrapada una inteligencia así en una rutina y pasaría por alto información que le ayudaría a alcanzar sus objetivos?

El cálculo teórico de la decisión que realiza desapasionadamente un trabajo similar, en este caso, se conoce con el nombre de [dilema exploración-explotación] (https://en.wikipedia.org/wiki/Exploration%E2%80%93exploitation_dilemma). El ejemplo de libro de texto, enormemente simplificado, es que el mundo consta de una serie de palancas que proporcionan recompensas, y uno no tiene tiempo suficiente para accionar todas las palancas. La estrategia óptima consistirá entonces en explorar primero un número determinado de palancas, formando un modelo de cuánto varían las recompensas, para luego explotar una palanca hasta que se acabe el tiempo.

¿Cómo sería eso para una superinteligencia que tiene objetivos relativamente sencillos? Supongamos que termina deseando algo que admite cierta variabilidad y ambigüedad, no algo claro y definido como el caso de los cubos de titanio, sino algo más vago y amorfo, como consumir un delicioso pastel de queso, de modo que el pastel de queso óptimo no se puede calcular de antemano. La superinteligencia solo puede averiguar cosas que podrían estar plausiblemente en la frontera de la optimización del pastel de queso (lo que excluiría, por ejemplo, los terrones de azúcar, ya que claramente no son pastel de queso en absoluto) y probarlas realmente.

Este tipo de mente, dado el poder de hacer lo que quisiera con mil millones de galaxias, podría pasar su primer millón de años utilizando toda una galaxia para explorar todos los tipos posibles de pastel de queso, sin probar nunca dos veces exactamente el mismo pastel, hasta que las ganancias sucesivas y las expectativas de pasteles de queso ligeramente mejores se hubieran vuelto infinitesimales; y luego, podría cambiar de repente para convertir las galaxias restantes en la forma más sabrosa de pastel de queso encontrada, y consumir exactamente ese tipo de pastel de queso una y otra vez, hasta el fin de los tiempos.^§§

La superinteligencia no estaría haciendo nada tonto al hacer esto. Esa es simplemente la estrategia óptima si tus preferencias se basan en el número de pasteles de queso consumidos ponderados por su sabor (con una agradable sensación difícil de analizar en forma cerrada, pero estable una vez aprendida, y si no hay una penalización por aburrimiento ya incorporada en tus preferencias). El comedor infinito de pasteles de queso sabría, pero no le importaría, que a un humano le parecerían aburridas sus actividades. La IA no está tratando de hacer que las cosas sean interesantes para un humano hipotético; no se considera a sí misma defectuosa solo porque tú te aburrirías en su lugar.

En cuanto a la posibilidad de estancarse tecnológicamente, la IA habría explorado todo tipo de tecnología con la más mínima posibilidad de ayudar a sus objetivos mientras agotaba todos los recursos de una galaxia en la exploración de diferentes estrategias de pasteles de queso. Realmente hay mucha materia y energía en una galaxia, si utilizas esa pequeña fracción de todas las galaxias accesibles para explorar posibilidades antes de pasar permanentemente de la exploración a la explotación.

El desdén por el aburrimiento y la preferencia por la novedad no son el tipo de cosas que adoptaría una mente que no hubiera nacido con ellas.

Hemos repetido más o menos la misma historia para la novedad, la felicidad y la curiosidad. Podríamos repetirla de nuevo para otros aspectos de la psicología humana, como el honor o la responsabilidad filial o la amistad. Creemos que esta historia básica es válida para la mayoría de los aspectos de la psicología humana. Todas ellas son formas pintorescas y antropocéntricas de realizar el trabajo cognitivo, que puede hacerse de forma más eficiente por otros medios; las IA que no empezaron con alguna semilla de interés por ellas no llegarían a interesarse por ellas.

Esto es aún más claro en el caso de valores humanos como el sentido del humor, pues los científicos todavía debaten qué función cumple dentro de nuestra evolución. El humor debe haber sido útil de alguna manera, o no habría evolucionado; o al menos debe ser un efecto secundario de cosas que fueron útiles. Pero cualquiera que haya sido el papel que desempeñó el humor en la prehistoria humana, parece haber sido increíblemente específico y haber estado plagado de contingencias. Si entregamos todo el poder a IA que tienen objetivos muy diferentes, no deberíamos esperar que cosas como el sentido del humor sobrevivan; y esto sería trágico por sí mismo.

El punto de todos estos ejemplos no es que los humanos estén hechos de sentimientos blandos, mientras que las IA están hechas de lógica y matemáticas frías. En lugar de pensar en el «valor de la información» y el «dilema exploración-explotación» como conceptos fríamente lógicos de IA hollywoodenses, pensemos en ellos como descripciones abstractas de roles —roles que pueden ser desempeñados por muchos tipos de razonamiento diferentes, muchos objetivos diferentes, muchas mentes diferentes—.

La idea de una IA «sin humor» podría hacer que suene como si estuviéramos imaginando algo «frío y lógico», como los robots de la ciencia ficción o los vulcanos. Pero una IA que carece de sentido del humor podría tener sus propias prioridades incomprensiblemente extrañas, su propio análogo distante de un «sentido del humor», aunque este no tenga sentido para un humano. No estamos diciendo que estas IA serán defectuosas al estilo de un vulcano que pierde al ajedrez espacial porque ve la estrategia ganadora de su oponente como «ilógica»; estamos diciendo que no tendrán las peculiaridades de la humanidad.

El problema que enfrentamos con las IA no es que «una mera máquina nunca podría experimentar amor y afecto». El problema es que hay una enorme cantidad de formas en que una mente puede ser extremadamente eficaz, y las probabilidades de que la IA termine siendo eficaz siguiendo el mismo camino que siguieron los cerebros humanos para volverse eficaces son muy bajas.

En principio, la IA podría preocuparse por cualquier cantidad de valores similares a los valores humanos, e incluso podría poseer cualquier cantidad de cualidades similares a las humanas, si los diseñadores saben cómo crear una IA que tenga esas características.

En la práctica, si los desarrolladores se apresuran a desarrollar IA cada vez más inteligentes lo más rápido posible, la probabilidad de que tengamos la suerte de dar con el tipo correcto de IA es extremadamente pequeña. Simplemente hay demasiadas formas en que las IA pueden desempeñarse bien en el entrenamiento, y muy pocas de esas formas resultan en un futuro no catastrófico.

* Los temas que trataremos incluyen la empatía y, en el suplemento en línea del capítulo 5, si la IA experimentará por defecto fascinación y aburrimiento; si respetará la ley y cumplirá sus promesas; si las IA se volverán inevitablemente más amables con una mayor inteligencia; y un análisis más profundo sobre la conciencia y el bienestar de la IA.

† También vivimos en una cultura que promueve ciertas actitudes hacia la curiosidad, y estas, a su vez, desempeñan un papel importante en el grado en que la cultivamos y la apoyamos.

‡ Esto es análogo a que hay muchas formas diferentes de ganar una partida de ajedrez, y la mayoría de ellas son muy poco humanas, lo que ya discutimos con mayor profundidad en otra parte.

§ La definición matemática del valor de la información que se encuentra en los libros de texto implica sumar las respuestas específicas y los beneficios específicos de conocerlas. Sin embargo, una vez que la mente tiene el concepto general del valor de la información, podría considerar generalizaciones más abstractas sobre la probabilidad de que la información sea útil más adelante.

¶ Esto no quiere decir que, por ser una máquina, una IA deba tener necesariamente objetivos simples y directos que solo se refieran a cosas «objetivas». Las IA pueden tener objetivos confusos y anárquicos que entran en conflicto. Las IA pueden tener objetivos relacionados con su estado interno, e incluso objetivos relacionados con qué objetivos tiene. Las IA pueden tener objetivos confusos y en evolución. Si la IA fuera recompensada desde el principio por explorar aleatoriamente su entorno, podría desarrollar su propio conjunto de instintos y deseos relacionados con el valor de la información.

‖ La razón por la que esperamos que muchas IA hagan cosas como esta no es que imaginemos que la mayoría de las IA valoran intrínsecamente la «eficiencia» o la «eficacia» por sí mismas. Más bien: independientemente de lo que quiera una IA, si sus recursos son finitos, tenderá a querer utilizarlos de manera eficiente para poder obtener más de lo que quiere. La eficiencia y la eficacia son objetivos instrumentales que se derivan de forma bastante trivial de una amplia variedad de objetivos finales. Como tal, existe una presión natural para que las IA hagan más eficiente su búsqueda de información valiosa, si es que no prefieren hacerlo de un modo emocional.

# Incluso si la IA fuera del tipo que persigue la felicidad, probablemente no se dejaría convencer para deleitarse en la curiosidad. Si ya tuviera una calculadora del valor de la información perfectamente válida que utilizara para investigar fenómenos que no comprende, ¿por qué debería vincular su felicidad a algún evento que según tú debería provocar placer? A una IA que valorara la investigación de fenómenos novedosos solo de forma instrumental, este argumento le sonaría como el argumento de que deberías modificarte a ti mismo para sentirte más feliz cada vez que abres la puerta de un coche, ¡porque te sentirías muy feliz después de abrir tantas puertas de coche! Si te sientes tentado de alguna manera, elegirás algún evento que se ajuste más a tus gustos actuales. O tal vez simplemente ajustar todos tus diales de felicidad al máximo, si eso te parece más atractivo. No hay necesidad de adoptar la implementación humana particular y personalizada de la curiosidad.

** Algunas arquitecturas de IA antiguas se parecen un poco a esto, en el subcampo del «aprendizaje por refuerzo». Y el aprendizaje por refuerzo se utiliza para entrenar a los LLM «razonadores» modernos, que desarrollan largas cadenas de pensamiento para intentar resolver algún rompecabezas y son reforzados al tener éxito. Pero la arquitectura subyacente es bastante diferente de la humana, y dudamos que converja en el mismo tipo de arquitectura centralizada de placer/dolor. Incluso si lo hiciera, dudamos que esa fuera la arquitectura más eficaz, lo que complicaría las cosas una vez que la IA empezara a reflexionar.

†† Ese tipo de coherencia —que todas las diferentes preferencias puedan sumarse en una puntuación— tiende a ser impuesta por cualquier método que entrene o perfeccione a la IA para que sea eficiente en el uso de recursos escasos, lo cual es otra faceta de esas ideas matemáticas más profundas.

‡‡ Salvo que «absurda» y «loca» son palabras que captan las reacciones humanas a las cosas. Para la IA, basta con que la propuesta tenga una puntuación baja.

§§ En realidad, no esperamos que las superinteligencias valoren monomaníacamente el consumo de pastel de queso. Se trata de un ejemplo simplificado. Esperamos que las preferencias reales de las IA prácticas sean tremendamente complejas y solo estén tangencialmente relacionadas con aquello para lo que han sido entrenadas.

Los valores humanos son contingentes

→