Más sobre la inteligencia como predicción y dirección

Si le preguntas a un físico docto qué es un motor, es posible que señale un motor de cohete, un motor de combustión y una rueda de hámster, y diga: «Todos ellos son motores», y luego señale una roca y diga: «Pero eso no lo es».

Esa sería una descripción en la que se señalan distintos tipos de motores, en lugar de intentar dar una definición verbal. Si le presionaras para que te diera una definición verbal, probablemente te diría que un motor es cualquier cosa que convierte la energía no mecánica en energía mecánica, en movimiento.

Esto no es tanto una afirmación sobre lo que es un motor, sino más bien una afirmación sobre lo que hace un motor. Todo tipo de cosas diferentes pueden ser motores; los componentes internos de un motor de cohete, un motor eléctrico y los músculos de un hámster tienen muy poco en común. No hay mucho que se pueda decir útilmente sobre todos esos componentes internos a la vez, excepto que todos convierten otros tipos de energía en energía mecánica.

Diríamos que la inteligencia es similar. Hay muchos componentes internos diferentes que pueden dar lugar a la inteligencia, incluidos los componentes internos biológicos y mecánicos. Una «inteligencia» es cualquier cosa que realice el trabajo de la inteligencia.

Descomponemos ese trabajo en «predicción» y «dirección» porque este punto de vista está respaldado por varios resultados formales.

Comenzaremos discutiendo el sentido en el que medir la predicción es bastante objetivo. Luego contrastaremos esto con la dirección, que tiene un grado de libertad que la predicción no tiene.

Las mismas predicciones

Es relativamente sencillo comprobar qué tan bueno es alguien haciendo predicciones, al menos en casos donde la predicción es de la forma «voy a ver X» y luego efectivamente ven X.

También podemos calificar el desempeño de las personas cuando hacen predicciones inciertas. Supongamos que piensas: «Estoy bastante seguro de que el cielo está azul en este momento, pero podría estar gris. Y definitivamente no está negro». Si miras por la ventana y el cielo está efectivamente azul, deberías recibir más crédito que si estuviera gris, y mucho más que si estuviera negro.

Si fueras un investigador de IA intentando representar esas anticipaciones como números en una computadora, podrías hacer que tu IA inicial elija números para representar qué tan fuerte o débilmente espera varias cosas, y luego reforzar la IA en proporción a qué tan alto fue el número que asignó a la respuesta correcta.

Eso, por supuesto, saldría mal rápidamente, una vez que la IA aprendiera a asignar un valor de tres octotrigintillones a cada posibilidad.

(Al menos, saldría mal de esa manera si estuvieras entrenando la IA usando métodos modernos de IA. Para una introducción a esos métodos, véase el capítulo 2.)

«Vaya», podrías decir. «Se supone que los números asignados a una colección mutuamente excluyente y exhaustiva de posibilidades deben sumar como máximo el 100 %».

Ahora, cuando lo intentes de nuevo, descubrirás que la IA siempre asigna el valor del 100 % a una sola posibilidad, concretamente la posibilidad que considera más probable.

¿Por qué? Bueno, supongamos que la IA piensa que la posibilidad más probable tiene aproximadamente un 80 % de probabilidades de ocurrir. Entonces, la estrategia de asignar el 100 % a la respuesta más probable obtiene un refuerzo del 100 % en 8 de cada 10 ocasiones, lo que resulta en una fuerza de refuerzo promedio de 0,8.

Por el contrario, la estrategia de asignar el 80 % a la respuesta más probable y el 20 % a su contraria obtiene un refuerzo del 80 % en 8 de cada 10 ocasiones y un refuerzo del 20 % en 2 de cada 10 ocasiones. Esto da como resultado una fuerza de refuerzo promedio de solo 0,64. Por lo tanto, la estrategia de «asignar el 100 % a una respuesta» obtiene más refuerzo y gana.

Si quieres una estrategia de refuerzo que haga que la IA asigne un número como el ochenta por ciento a las posibilidades que ocurren aproximadamente 8 de cada 10 veces, debes puntuarla según el logaritmo de la probabilidad que asigna a la verdad. Hay otras posibilidades, pero tomar logaritmos es la única con una propiedad adicional útil: cuando la IA predice múltiples posibilidades (como el color del cielo y la humedad del suelo), no importa si las consideras como una gran pregunta (sobre si el exterior es azul y seco, azul y húmedo, gris y seco o gris y húmedo) o como dos preguntas separadas (azul frente a gris y seco frente a húmedo).

De hecho, los investigadores de IA actuales entrenan a las IA para que hagan predicciones haciéndolas generar números que interpretamos como probabilidades y reforzándolas en proporción al logaritmo de la probabilidad que la IA asignó a la verdad. Pero esto no es solo un resultado empírico sobre el entrenamiento de máquinas, sino también un resultado teórico que se conocía mucho antes de que se entrenara a ChatGPT. Si conocías esa teoría, podrías haber adivinado correctamente de antemano que una buena forma de entrenar a las IA para realizar el trabajo de predicción sería puntuar las predicciones utilizando logaritmos.

No es necesario conocer estas matemáticas para evaluar los argumentos de Si alguien la crea, todos moriremos. Pero estos son el tipo de principios que están detrás cuando hablamos de «predicción» y «dirección».

Hay matemáticas sobre cómo medir el trabajo de predicción. Las matemáticas dicen que, en la medida en que tus anticipaciones sobre lo que va a suceder son útiles, pueden expresarse como probabilidades, independientemente de si has pensado conscientemente en probabilidades numéricas o no. Y esto da lugar a una única regla de puntuación que te incentiva a informar de tus probabilidades reales y que es invariante bajo la descomposición de las predicciones.

El resultado de todas estas matemáticas es que las predicciones pueden puntuarse de forma objetiva. Cuando una mente o una máquina anticipa el color que verá al mirar por la ventana, la siguiente palabra que verá al leer una página web o la señal de tráfico que verá al conducir hacia el aeropuerto, solo hay (en términos generales) una forma realmente buena de evaluar lo bien que lo están haciendo.

La cuestión no es que, si eres inteligente, tengas que ir por ahí murmurando números sobre el color del cielo antes de mirar por la ventana. Cuando anticipas que verás un cielo azul o gris en lugar de un cielo negro, algo en tu cerebro está actuando un poco como una calculadora de probabilidades en algún lugar ahí dentro, te des cuenta o no.

Más bien, el punto es que todo comportamiento similar a una predicción —ya sea una afirmación explícita, una anticipación sin palabras o cualquier otra cosa— está sujeto a una regla de puntuación objetiva.

Todo esto significa que cuando dos mentes trabajan con la misma información inicial, tienden a converger en las mismas predicciones a medida que mejoran en la capacidad de predecir cosas. Porque hay una sola forma de puntuar las predicciones (comparándolas con la realidad), y solo hay una realidad que predecir, y las mentes que son mejores prediciendo concentrarán cada vez más sus anticipaciones en la verdad, casi por definición.

Todo esto es muy diferente a la situación con la dirección, a la que pasaremos a continuación.

Diferentes destinos

Dos mentes que son extremadamente buenas para predecir el mundo probablemente hagan predicciones similares.

Por el contrario, dos mentes extremadamente hábiles para navegar por el mundo a menudo no navegarán hacia el mismo destino.

Esta distinción es útil para pensar de forma más concreta sobre la inteligencia, y también se corresponde con una división entre los problemas de ingeniería más sencillos y menos sencillos en la IA.

Cuando entrenas a una IA para predecir cosas, en cierto sentido todos los mejores métodos de predicción acaban produciendo resultados similares. (Suponiendo que el sistema llegue a ser competente; las formas de fallar son más variadas).

Supongamos que entrenas a una IA para que prediga la siguiente imagen que verá una cámara web que está apuntando al cielo desde una ventana. Casi cualquier modelo que empiece a ser lo suficientemente bueno en eso —en asignar de antemano una probabilidad mucho mayor a lo que realmente acaba viendo— predecirá que el cielo estará despejado y azul, nublado y gris o totalmente negro, pero no a cuadros.

La tecnología exacta que utilices no influirá mucho en el resultado final. Cualquier método que funcione, que obtenga buenas puntuaciones en general, acabará asignando una probabilidad similar al azul del cielo.

En cambio, la tarea de «dirigir» tiene un parámetro libre enorme y complicado: ¿hacia qué destino intenta dirigirse el sistema?

Los generales de bandos opuestos en una guerra pueden ser hábiles, pero eso no significa que quieran lograr lo mismo. Dos generales pueden tener habilidades similares, pero utilizarlas con fines muy diferentes.^*

En la parte predictiva de un sistema de IA, solo hay una cosa que parece predecir muy bien: asignar de antemano altas probabilidades a lo que finalmente se observa. Y cuando un sistema cognitivo parece estar mejorando en general en sus predicciones, probablemente esté mejorando en el tipo concreto de predicción que tú deseabas. Solo hay un «tipo» de predicción que hacer dentro de tu configuración, y un sistema que tiene éxito probablemente lo esté haciendo.

Si el sistema sigue cometiendo un error de predicción concreto, el simple hecho de dotarlo de más poder de cómputo y más datos puede corregir ese error de predicción automáticamente. Puedes conseguir que el sistema funcione mejor (en la predicción de las cosas que te interesan) simplemente dotándolo de más poder.

Con la dirección, este no es el caso.

Podemos reforzar aún más esta distinción revisando la literatura formal. La dirección —planificación, toma de decisiones, evasión de obstáculos, diseño, etc.— es un tema que se ha estudiado ampliamente en las ciencias. Un resultado matemático importante relacionado con la dirección es el teorema de utilidad de von Neumann-Morgenstern.

En términos generales, este teorema dice que cualquier entidad que persiga unos resultados por encima de otros debe o bien ser ineficiente^†o bien estar bien descrita por un conjunto de creencias probabilísticas y una «función de utilidad» , una función que describe cómo se compensan entre sí los diferentes resultados. Las creencias, entonces, pueden calificarse según su precisión (como se describe en la sección anterior), mientras que la función de utilidad es un parámetro completamente libre.

Por supuesto, ninguna mente finita puede ser perfectamente eficiente. La lección que extraemos de este teorema (y otros resultados de este tipo) es que, en la medida en que una mente realiza cualquier tarea no trivial de manera muy eficaz, en cierto sentido (aunque solo sea de forma implícita e inconsciente) está realizando dos tipos de trabajo distintos: un trabajo similar a la creencia (predicción) y un trabajo similar a la satisfacción de preferencias (dirección).

Por ejemplo, consideremos la fábula de Esopo sobre el zorro y las uvas. Un zorro ve unas uvas de aspecto delicioso colgando de una vid. El zorro salta para cogerlas, pero no puede saltar lo suficientemente alto, por lo que las abandona diciendo: «No importa, probablemente estaban agrias».

Si nos creemos lo que dice el zorro, su (in)capacidad para alcanzar las uvas está influyendo en su predicción sobre si las uvas están agrias. Si se mantiene firme en esa nueva predicción y se niega a comer las uvas «agrias» por orgullo, incluso si más tarde tiene la oportunidad de comerlas, entonces el comportamiento del zorro es ineficaz.^‡ Podría haberlo hecho mejor manteniendo una distinción más clara entre sus predicciones (sobre la dulzura de las uvas) y su dirección (su capacidad para conseguir las uvas).

A grandes rasgos, las mentes que funcionan bien pueden separarse en lo que predicen y hacia lo que se dirigen (además de algunas ineficiencias). Y, como hemos visto, lo primero puede puntuarse de forma relativamente objetiva, mientras que lo segundo puede variar enormemente entre mentes de competencias similares.

Predictores impuros

Desafortunadamente, el hecho de que la predicción esté más restringida que la dirección no significa que podamos construir una superinteligencia confiable que solo prediga y no dirija.

Aunque las matemáticas dicen que una mente que funciona bien puede modelarse más o menos como «predicciones probabilísticas más una dirección», esto no significa que las IA del mundo real tengan módulos de «predicción» y «dirección» claramente separados.

Una forma de ejemplificar esto es que una buena «predicción» superhumana no consiste solo en generar probabilidades y que esas probabilidades sean mágicamente buenas. Una buena predicción requiere trabajo. Requiere planificación y pensar en formas de alcanzar objetivos a largo plazo, es decir, requiere dirección.

Si estás tratando de predecir el mundo físico, a veces necesitas desarrollar teorías de física y descubrir las ecuaciones que rigen esa parte del mundo físico. Y para hacer eso, a menudo necesitarás diseñar experimentos, llevarlos a cabo y observar los resultados.

Y hacer eso requiere planificación; requiere dirección. Si a mitad de la construcción de tu aparato experimental te das cuenta de que vas a necesitar imanes más potentes, tendrás que tomar la iniciativa y cambiar de rumbo a mitad de camino. Las buenas predicciones cuestan trabajo.

Incluso elegir qué tipo de pensamientos pensary en qué orden es un ejemplo de dirección (aunque sea una dirección que los humanos a menudo hacemos de forma inconsciente), porque requiere cierto nivel de estrategia y elegir las herramientas adecuadas para la tarea en cuestión. Para pensar con claridad y, por lo tanto, predecir mejor las cosas, necesitas organizar tus pensamientos y acciones en torno a varios objetivos a largo plazo. (Volveremos al tema del papel central de la dirección en el capítulo 3, «Aprender a desear»).

La distinción matemática entre predicción y dirección es que hay aproximadamente un conjunto «correcto» de predicciones hacia el que se puede empujar a la mente utilizando una puntuación adecuada, pero no hay un destino de dirección «correcto» (objetivamente, desde la neutralidad del agente).^§ A medida que una IA se entrena para ser más capaz de forma genérica, sus predicciones se vuelven más precisas, pero su dirección no se orienta automáticamente hacia el destino que los humanos consideran bueno, porque la precisión es objetiva, mientras que lo «bueno» es un objetivo de dirección.

La precisión converge; la dirección, no.

En principio, debería haber formas de garantizar que una IA se oriente hacia los destinos que deseamos. En la práctica, esto es difícil, en gran parte porque es un desafío muy diferente al de «hacer que la IA sea más inteligente y capaz en general», y no existe una métrica (simple y no manipulable) o una regla de puntuación que podamos utilizar para evaluar «¿En qué medida esta IA está tratando de dirigirse hacia el destino que queremos?».

Hablaremos más sobre estos temas en los capítulos 4 y 5.

Las múltiples formas de la inteligencia

Algo puede ser bueno para predecir y dirigir sin tener mucho en común con el cerebro humano.

El mercado de valores realiza el trabajo de predicción en el ámbito limitado de los precios de las acciones corporativas a corto plazo. El precio de las acciones de Microsoft hoy es un indicador bastante bueno de cuál será el precio de las acciones mañana.^¶

Supongamos que mañana hay una conferencia sobre resultados, en la que los ejecutivos de la empresa informan sobre cómo han ido las cosas durante el último trimestre. ¿El precio de las acciones es alto hoy? Eso sugiere que los informes de mañana serán optimistas. ¿Es bajo hoy? Eso sugiere que los informes de mañana serán pesimistas.

Los mercados son bastante precisos en este sentido, porque la gente puede enriquecerse corrigiéndolos cuando se equivocan. Por lo tanto, los mercados hacen un buen trabajo a la hora de realizar predicciones en este ámbito tan específico. Predicen los movimientos de los precios de las acciones de las empresas a corto plazo (e, indirectamente, aspectos como el rendimiento de las cosechas y las ventas de vehículos) en una amplia gama de bienes y servicios, mucho mejor que cualquier persona.

Algunos humanos pueden predecir los movimientos de precios individuales mejor que el resto del mercado de valores, de una manera que los hace muy ricos. Por ejemplo, Warren Buffett ganó doce mil millones de dólares en seis años invirtiendo en Bank of America mientras el banco se tambaleaba debido a la crisis financiera de 2011. Pero incluso entonces, solo estaba prediciendo una de las muchas empresas que existen. Alguien que supiera sustancialmente más que el mercado de valores la mayor parte del tiempo sería capaz de ganar una cantidad ingente de dinero en muy poco tiempo. El hecho de que nadie lo haga nos permite deducir que prácticamente nadie sabe mucho más que el mercado sobre la mayoría de los precios de las acciones. ^‖

En cuanto a la dirección, la IA que juega al ajedrez llamada Stockfish realiza este tipo de trabajo en el ámbito limitado del ajedrez. Cuando juega una partida de ajedrez contra un humano, es muy hábil a la hora de producir movimientos de ajedrez que dirigen el mundo hacia estados en los que las piezas de Stockfish han hecho jaque mate al rey del oponente. No importa qué movimientos inteligentes se le ocurran al humano, o cómo luche (salvo que apague Stockfish), Stockfish canaliza la realidad hacia ese único fin. Dirige los tableros de ajedrez mejor que cualquier ser humano.

Espero que ahora puedas ver por qué no intentamos definir la inteligencia diciendo: «Bueno, debe haber algún módulo de aprendizaje, algún módulo de deliberación y algunos engranajes que implementen una chispa de deseo», o algo por el estilo. En realidad, no hay mucho en común entre el funcionamiento interno del mercado de valores, el de Stockfish y el del cerebro humano, al igual que no hay mucho en común entre el funcionamiento interno de un motor de cohete, un motor eléctrico y una rueda de hámster.

Un dispositivo inteligente es cualquier cosa que haga el trabajo de la inteligencia.

Al menos, eso es cierto según la manera en que definimos «inteligencia» en el libro (y según cómo suelen pensar los informáticos y los investigadores de IA sobre la «inteligencia»). Si quieres definir la inteligencia de otra manera en otros contextos, no tenemos ningún problema con ello. Las palabras son solo palabras.

Pero para entender las afirmaciones sustantivas que hacemos sobre el mundo en Si alguien la crea, todos moriremos, cuando nos oigas hablar de «inteligencia artificial», no pienses en «inteligencia académica artificial» o «conciencia artificial» o «humanidad artificial». Piensa en «predicción y dirección artificiales».

* O, dicho de otra manera: supongamos que a Alice le gusta la pizza de pepperoni y odia la piña, mientras que a Bob le gusta la piña y no le gusta el pepperoni. Para evaluar plenamente la competencia de Alice y Bob, habría que saber cuál era su objetivo. Para Alice, acabar con una pizza de piña es señal de que ha maniobrado mal; para Bob, acabar con piña es señal de que ha maniobrado bien.

† Para una definición técnica de «ineficiente». A grandes rasgos, la idea es que persigues tus objetivos de forma «ineficiente» si gastas dinero en vano o dejas pasar una oportunidad de obtener dinero gratis, donde «dinero» puede sustituir a cualquier recurso, o a cualquier diferencia cuantificable en la importancia que se le da a los distintos resultados. Hay un pequeño margen de maniobra en las definiciones formales, pero eso no socava el punto clave de que la dirección tiene un grado de libertad del que carece la predicción.

‡ Por ejemplo, tal vez el zorro tenga más tarde la oportunidad de comprar las uvas a bajo precio pagando a un conejo que pueda saltar lo suficientemente alto como para alcanzarlas. Si el zorro salta para coger las uvas (gastando energía), luego decide que están «agrias» y se niega a pagar una miseria por ellas, entonces el comportamiento del zorro a lo largo del tiempo no se representa mediante una función de utilidad (simple e independiente del tiempo). Si el zorro hubiera querido las uvas de forma consistente, entonces habría estado dispuesto a pagar (al menos si el trabajo del conejo es lo suficientemente barato). Si el zorro no hubiera querido las uvas de forma consistente, entonces no debería haber perdido tiempo y energía saltando para intentar cogerlas en primer lugar. Así que el zorro desperdició energía o se quedó sin las uvas y, en cualquier caso, no se estaba dirigiendo de manera eficiente hacia sus objetivos.

§ Quizás existan estrategias de dirección objetivamente buenas. El hecho de que la dirección tenga un parámetro libre crucial («¿A dónde intentas ir?») no significa que los demás aspectos de una dirección experta sean todos heterogéneos y específicos del agente. Es posible enseñar a alguien a conducir un coche sin importar adónde quiera ir. Pero ese único parámetro libre del destino es suficiente para convertir la superinteligencia en un objetivo de investigación letalmente peligroso, como veremos en los próximos capítulos.

¶ Esto no significa que debamos esperar que el precio de las acciones se mantenga sin cambios. Solo significa que deberíamos tener incertidumbre sobre la dirección del cambio: los precios actuales de las acciones son las conjeturas menos malas disponibles sobre cómo serán los precios de las acciones mañana, porque la posibilidad de que suban se ve compensada por la posibilidad de que bajen.

‖ Para más información sobre los mercados y la inteligencia, véase el debate ampliado «Apreciar el poder de la inteligencia».

La superficialidad de las IA actuales

→