¿Cómo podría una máquina acabar teniendo sus propias prioridades? | Si alguien la crea, todos moriremos | If Anyone Builds It, Everyone Dies

¿Cómo podría una máquina acabar teniendo sus propias prioridades?

Resolver desafíos difíciles requiere que las IA tomen cada vez más y más iniciativa.

Recordemos el incidente de seguridad informática «captura la bandera» del capítulo y recordemos que no fue resultado de una IA entrenada para ser hacker, sino de una IA entrenada para ser buena resolviendo rompecabezas genéricos. El comportamiento «motivado» se produce automáticamente.

Imaginemos una IA encargada de curar la enfermedad de Alzheimer. ¿Puede tener éxito sin ser el tipo de entidad que toma la iniciativa de desarrollar sus propios experimentos y encontrar la manera de llevarlos a cabo? ¡Quizás! Quizás el Alzheimer sea el tipo de enfermedad que se puede curar con algunos descubrimientos farmacológicos sencillos, y quizás las IA del futuro tengan mejor intuición sobre los medicamentos que los humanos. O tal vez se necesiten IA que sean más inteligentes que los biólogos humanos más inteligentes en algún aspecto sustancial. No lo sabemos.

Pero ¿qué pasa con el cáncer, el emperador de las enfermedades? Parece más probable que requiera el tipo de IA que realmente pueda averiguar lo que está pasando biológicamente, a un nivel superior al que los humanos han logrado, aunque no podemos estar seguros. Quizás las IA desarrollen una cura para el cáncer antes de cruzar ese umbral crítico hacia la peligrosidad, y eso sería maravilloso mientras durara.

Pero ¿qué pasa con la cura del envejecimiento? Sin duda, eso parece requerir un tipo de IA que realmente comprenda la bioquímica en profundidad.

Las empresas de IA seguirán impulsando que las IA sean cada vez más hábiles, cada vez más capaces de resolver problemas grandes e importantes. Y eso, naturalmente, llevará a las IA a estar cada vez más motivadas, un efecto que, recordemos, ya estamos empezando a ver en IA como o1 de OpenAI.

Ser tenaz es útil incluso cuando el objetivo no es del todo correcto.

Los seres humanos que buscaban activamente una comida caliente, un hacha más afilada, un amigo popular o una pareja atractiva tenían más éxito evolutivo. Compáralos con los seres humanos que se pasaban el día holgazaneando, mirando el agua, y comprenderás por qué los deseos y las motivaciones evolucionaron hasta convertirse en parte de la psique humana.

El tipo de seres humanos que querían un mejor método para tallar hachas de sílex, o que querían convencer a sus amigos de que su rival era una mala persona, y que se esforzaban continuamente por conseguir esos resultados, eran mejores a la hora de alcanzarlos. Cuando la selección natural «cultivó» a los seres humanos, el hecho de que estos acabaran teniendo muchos deseos diferentes que perseguían con tenacidad no fue una casualidad.

La maquinaria mental específica del deseo fue quizás una casualidad; las máquinas que persiguen tenazmente sus objetivos no lo hacen necesariamente por un sentimiento de determinación similar al humano, del mismo modo que Deep Blue no jugaba al ajedrez por una pasión similar a la humana por el juego. Pero la búsqueda tenaz de los objetivos parece sin duda un ingrediente importante a la hora de alcanzar objetivos interesantes.

Algunas personas carecen de este tipo de tenacidad y se vuelven perezosas o se rinden ante la primera señal de adversidad. Pero, a gran escala, la capacidad de la humanidad para resolver grandes problemas científicos y de ingeniería está impulsada por personas e instituciones tenaces. Somos bastante escépticos respecto a que una mente pueda producir algo parecido al rendimiento a gran escala de la humanidad (y su capacidad para remodelar drásticamente el mundo) sin tener cierta tenacidad.

Si una IA quiere alcanzar objetivos difíciles en el mundo real, tiene que perseguirlos con tenacidad, buscando dinámicamente formas de sortear cualquier obstáculo que surja en su camino.

Las IA no necesariamente terminarán teniendo los mismos sentimientos y deseos internos que los humanos (y, de hecho, es muy probable que no los tengan, como argumentamos en el capítulo 4), porque nuestros sentimientos específicos fueron moldeados por los detalles de nuestra biología y de nuestra ascendencia. Pero las IA son propensas a terminar con un comportamiento similar al deseo por las mismas razones que los humanos: ¡porque es útil!

(Una vez más, ya estamos empezando a ver esto en el laboratorio, como en el caso de o1 de OpenAI, analizado en el capítulo 3).

Los deseos, las motivaciones y los anhelos humanos fueron útiles a nivel evolutivo, incluso cuando esos deseos, motivaciones y anhelos no eran exactamente para el propósito de la aptitud evolutiva per se. Hipotéticamente, la evolución podría haber sembrado en nosotros una única motivación predominante hacia los descendientes, y entonces podríamos haber buscado comidas calientes y hachas más afiladas únicamente con el propósito de tener más descendientes. Pero, en cambio, la evolución sembró en nosotros deseos de comidas calientes por derecho propio.

La lección que se desprende es que tener motivaciones y propósitos es tan útil que puede ser beneficioso para una tarea (como la «aptitud genética») incluso cuando el deseo no coincide exactamente con la tarea. O, al menos, puede ser útil durante un tiempo, hasta que las entidades con motivaciones y propósitos empiecen a ser realmente inteligentes, momento en el que su comportamiento podría apartarse bruscamente del objetivo de «entrenamiento», como hizo la humanidad cuando inventó el control de natalidad.

Para más información sobre este argumento, véase el capítulo 4.

Al ser cultivadas y no fabricadas, las IA son propensas a acabar con los objetivos incorrectos.

Este es el tema del próximo capítulo: No obtienes aquello para lo que entrenas.

¿Tu pregunta no fue respondida aquí?Envía una pregunta.