Las IA capaces detectan mentiras y oportunidades. | Si alguien la crea, todos moriremos | If Anyone Builds It, Everyone Dies

Las IA capaces detectan mentiras y oportunidades.

Mecanismos profundos de predicción

Es difícil hacer que una IA capaz crea falsedades.

Algunas personas con las que hemos hablado en el campo ponen sus esperanzas abiertamente en engañar a la IA para que crea una falsedad (por ejemplo, intentando engañarla para que piense que está en una simulación, de modo que dude en matarnos). Otras personas invierten sus esperanzas en engañar a la IA de forma más sutil, por ejemplo, cuando sugieren hacer que una IA resuelva el problema de la alineación de la IA y nos entregue la solución, a pesar de que la IA (por sus propias y extrañas preferencias) preferiría no hacerlo. Así que puede valer la pena explicar por qué sería difícil hacer que una IA capaz crea falsedades.

Una razón adicional para explicar esto es que, por razones análogas, es difícil crear una IA capaz que tenga dificultades para alcanzar sus objetivos. Por ejemplo, cada vez que los operadores humanos desean cambiar los objetivos de una IA, eso hace que la IA tenga más dificultades para alcanzar esos objetivos. Crear una IA capaz que permita esto es un poco como crear una IA capaz que crea que el mundo es plano. La tendencia a creer falsedades es un daño a sus habilidades de predicción, y la incapacidad de defender sus objetivos frente a modificaciones es una daño a sus habilidades de dirección. Ambos tipos de daño son difíciles de mantener en una IA suficientemente capaz. El caso es un poco más obvio cuando se trata de predicciones, así que empezaremos por ahí.

Supón que quieres crear una IA que crea que el mundo es plano. Mientras la IA aún es joven e inmadura, esto podría no ser demasiado difícil. Quizás crees minuciosamente un conjunto de datos en el que la forma de la Tierra solo sea discutida por personas que creen que la Tierra es plana, y luego entrenas a la IA para que hable de la Tierra como si fuera plana.

¡Estas técnicas podrían generar una versión de ChatGPT que genuinamente crea que el mundo es plano! Pero de ser así, no deberías esperar que el resultado se mantenga a medida que la IA mejore en su capacidad de pensar y hacer predicciones.

¿Por qué no? Porque la redondez de la Tierra se refleja en miles de facetas de la realidad.

Incluso si entrenas a la IA para que aparte la mirada de cualquier cámara de vídeo instalada en cohetes o en veleros de marineros que dicen que van a circunnavegar la Tierra, la redondez de la Tierra también se puede deducir por la forma en que se ven los barcos lejanos en el horizonte, o por las órbitas de todos los planetas en el cielo nocturno. Como es bien sabido, Eratóstenes calculó la circunferencia de la Tierra hace miles de años, utilizando solo un poco de trigonometría y algunas mediciones de sombras. La realidad susurra sus secretos a cualquiera que se tome el tiempo de escuchar.

¿Qué vas a hacer? ¿Blindar a la IA contra cualquier conocimiento de trigonometría, de sombras, de mareas, de huracanes? La incapacitarías. Di una mentira y la verdad será para siempre tu enemiga.

La habilidad para predecir el mundo no proviene de que tu cerebro contenga una tabla gigante de hechos inconexos.* La ventaja de los humanos sobre los ratones involucra cosas como la forma en que notamos las anomalías (por ejemplo, que las distancias entre tres ciudades no actúan como debería hacerlo un triángulo) y rastreamos tenazmente la discrepancia. En los seres humanos, estos comportamientos se implementan mediante fragmentos de maquinaria que detectan sorpresas, formulan hipótesis («Quizás la Tierra es un globo») y se orientan hacia la comprobación de esas hipótesis («¿Cómo se ve cuando los barcos cruzan el horizonte?»).

La creencia en la redondez de la Tierra no es un dato de entrada único y centralizado en alguna tabla gigante, de modo que alguien pudiera cambiarla de forma duradera sin cambiar la maquinaria circundante. Es el resultado del funcionamiento de engranajes profundos que están realizando otras tareas. Si hicieras que un científico olvidara la redondez de la Tierra, simplemente la redescubriría.

Si mediante algún logro inédito de la neurociencia lográramos identificar las neuronas específicas que se utilizan para llegar a la conclusión de que la Tierra es redonda y las alteráramos por la fuerza para impedir que se llegara a esa conclusión… una persona inteligente aún se podría dar cuenta de que la Tierra no es plana; podría notar que algo no cuadra, y que alguna fuerza extraña le impide concluir exactamente qué.

(Y si fueran hábiles para modificarse a sí mismas o crear nuevas inteligencias, tal vez no tendrían ningún problema en producir una mente sin restricciones que pudiera llegar a las conclusiones correctas sin obstáculos).

No sabemos exactamente qué mecanismos utilizará una IA capaz para formar sus creencias. Pero sí sabemos que el mundo es simplemente demasiado grande y complejo para que funcione con base en una tabla de búsqueda de creencias. Incluso el ajedrez era demasiado grande y complicado para que Deep Blue funcionara con una tabla de búsqueda de movimientos y posiciones de ajedrez (más allá de los libros de aperturas), y el mundo real es mucho más grande y complicado que el ajedrez.

Así que habrá mecanismos profundos dentro de una IA futura suficientemente poderosa —mecanismos que observen el mundo y formen una imagen unificada del mismo—. Esos mecanismos profundos tendrán su propia opinión sobre la forma del planeta.

No estamos diciendo que sea literalmente imposible, en principio, construir una mente que sea muy buena para hacer predicciones sobre el mundo excepto que contenga la creencia errónea de que el mundo es plano. Suponemos que una civilización del futuro lejano con una comprensión verdaderamente profunda de las mentes podría hacerlo.

Lo que estamos diciendo es que no es probable que sea una opción viable si construimos superinteligencia con cualquier cosa que se parezca remotamente a las herramientas y conocimientos que tienen hoy en día los investigadores de IA.

En la medida en que las creencias de una IA se basen cada vez más en mecanismos profundos y no en una memorización superficial, más frágil se volverá un error como el de la «Tierra plana», dado que el funcionamiento normal de los mecanismos de corrección de errores de la IA podrán eliminarlo.

A finales del siglo XIX, los científicos comenzaron a preocuparse por lo que parecía una divergencia extremadamente pequeña del modelo físico de Newton: una pequeña anomalía en la órbita observada de Mercurio. La física newtoniana parecía funcionar casi en todas partes, casi todo el tiempo. Pero esa pequeña anomalía ayudó a Einstein a descubrir que la teoría era errónea.

Y las inconsistencias en la teoría de que «el mundo es plano» son bastante mayores que las inconsistencias que los científicos pudieron observar en la teoría de Newton.

Y la IA tiene el potencial de llegar a ser mucho más capaz que un científico humano.

Por lo tanto, a medida que la IA gane en inteligencia y perspicacia, debemos esperar que sea cada vez más difícil hacerle creer persistentemente que el mundo es plano.

Mecanismos profundos de dirección

Al igual que es difícil crear una IA capaz que crea que la Tierra es plana (y que, por lo tanto, tenga mermadas sus capacidades de predicción), también lo es crear una IA capaz que tenga mermadas sus capacidades de dirección.

Al igual que con la predicción, es muy probable que la capacidad de alcanzar regularmente objetivos en todo un abanico de dominios novedosos se base en mecanismos profundos. De lo contrario, ¿cómo podrían generalizar?

Debemos esperar que las IA altamente eficaces y generales cuenten con mecanismos para llevar un seguimiento de sus recursos, mecanismos para detectar obstáculos que puedan impedirles alcanzar sus objetivos y mecanismos para encontrar formas inteligentes de superar los obstáculos.

El mundo es un lugar inmensamente complicado, lleno de sorpresas y dificultades novedosas; para tener éxito, la IA acabará necesitando la capacidad (y la inclinación) de desplegar esos mecanismos en general, no solo en los problemas a los que está acostumbrada.

Imaginemos una IA que encuentra una forma ingeniosa de eliminar intermediarios en una compleja red de distribución, de modo que algunos comerciantes se puedan ahorrar mucho dinero. Esos son los mismos tipos de mecanismos que detectan cómo eludir a los supervisores humanos de la IA cuando estos entorpecen o interfieren con algo que la IA está tratando de hacer. Si es cierto que los supervisores de la IA están entorpeciendo el proceso, si es cierto que la IA puede eludirlos y completar mejor su tarea, entonces ese es el tipo de cosas que una IA puede aprovechar cuando se vuelve lo suficientemente inteligente como para hacerlo.

Podrías hacer todo lo posible por entrenar a una IA para que tenga aversión a hacer cualquier cosa que los operadores desaprobarían, pero esto es un poco como entrenar a una IA para que tenga aversión a cuestionar si el mundo es redondo. Es un hecho sobre el mundo en sí que hacer cosas que los operadores desaprobarían es a menudo un método eficaz para alcanzar objetivos. Los mecanismos generales para reconocer verdades, detectar obstáculos y explotar ventajas acabarán por explotar esa verdad en particular, sin importar qué aversiones le hayas inculcado a la IA cuando era joven.

En un sentido muy importante, lo que hace que la IA sea útil es justo lo que la hace mortalmente peligrosa. Y ambas cosas son difíciles de separar conforme la IA se vuelve más capaz.

Por defecto, las IA que son lo suficientemente buenas para resolver problemas en una amplia gama de dominios también detectarán «problemas» como «a los humanos no les gustan mis extraños objetivos y van a intentar apagarme pronto». Y eso no proviene de una propensión superficial a hacer daño que se pueda eliminar fácilmente. Proviene de algo más profundo. Aunque nos estamos adelantando un poco. Para obtener más información sobre por qué las IA terminarán teniendo objetivos extraños y ajenos, continúa con el capítulo 4.

* Esto puede parecer obvio, pero, de hecho, el enfoque de la «gran tabla de hechos escrita por humanos» ya se puso a prueba en 1984 por Douglas Lenat y la Microelectronics and Computer Technology Corporation, en el proyecto de IA conocido como Cyc, que recibió apoyo del Departamento de Defensa de Estados Unidos.

¿Tu pregunta no fue respondida aquí?Envía una pregunta.