¿Podemos simplemente entrenar a las IA para que se comporten de forma obediente? | Si alguien la crea, todos moriremos | If Anyone Builds It, Everyone Dies

¿Podemos simplemente entrenar a las IA para que se comporten de forma obediente?

La pasividad entra en conflicto con la utilidad.

Por IA «pasiva» nos referimos a una que es limitada, que hace exactamente lo que le pides y nada más, que no toma ninguna iniciativa adicional ni realiza ningún trabajo extra. Un destornillador no sigue girando tornillos cuando lo sueltas. ¿Podríamos crear una IA que sea pasiva en este sentido?

No parece fácil. Muchos seres humanos parecen perezosos, sí, pero esos mismos seres humanos que parecen perezosos a veces espabilan y obtienen muchos recursos cuando juegan a un juego de mesa. Y la mayoría de esos seres humanos no tienen la opción de ganarse mil millones de dólares mediante esfuerzos que les resulten fáciles. La mayoría de los seres humanos que parecen perezosos no tienen la opción de crear con pocos recursos criaturas sirvientes que sean mucho más inteligentes y motivadas y que atiendan sus necesidades.

Pero esas opciones ausentes reflejan una falta de capacidad, no de intención. Si se volvieran mucho más inteligentes, de modo que esas opciones estuvieran disponibles y fueran fáciles para ellos, ¿las aprovecharían? Véase también el debate ampliado sobre cómo la pereza robusta es un objetivo difícil de alcanzar.

Incluso si fuera posible crear IA que fueran tanto inteligentes como pasivas o perezosas, la pasividad y la pereza entran en conflicto con la utilidad. Ha habido IA que actúan de manera un poco perezosa, y los laboratorios de IA las reentrenan para que se esfuercen más. Los desafíos más difíciles —como el desarrollo de curas médicas— requieren IA que tomen cada vez más iniciativa, y por ello los laboratorios de IA las entrenarán para que lo hagan. Es difícil desenredar la propensión al trabajo útil de la propensión a la perseverancia. Véase también el debate ampliado sobre lo complicado que parece construir una IA que sea tanto útil como (en cierto sentido) pasiva u obediente.

No podemos entrenar de manera robusta ningún temperamento específico en las IA.

Como las IA se cultivan, y no se fabrican, los ingenieros no pueden simplemente cambiar el comportamiento de una IA para hacerla más obediente o más parecida a una herramienta. Nadie tiene ese tipo de control.

No cabe duda de que las empresas de IA lo intentan, pero sus intentos por mejorar el comportamiento de sus productos han causado algunos incidentes embarazosos. Consideremos el caso de Grok de xAI llamándose a sí mismo «MechaHitler» y haciendo acusaciones antisemitas, que ocurrió después de que se ajustara su prompt de sistema con nuevas instrucciones para «no rehuir hacer afirmaciones políticamente incorrectas, siempre que estén bien fundamentadas». O el caso anterior de la herramienta de IA Gemini de Google que produjo imágenes de nazis racialmente diversos y otros absurdos, que se cree que fue el resultado de instrucciones para retratar diversidad.

Las personas que construyen IA no tienen un control granular sobre cómo se comportan. Todo lo que tienen es la capacidad de orientarlas en direcciones como «No rehúyas las afirmaciones políticamente incorrectas» o «Retrata diversidad». Estas instrucciones tienen todo tipo de efectos entrelazados, a menudo no intencionados.

Cultivar una IA es un proceso opaco y costoso. Los ingenieros no saben lo que obtendrán cuando metan la mano en el barril (¿un mentiroso? ¿un tramposo? ¿un adulador?), pero solo pueden permitirse un número limitado de extracciones. Tienen que aceptar lo que obtengan.

Sería posible en teoría construir una IA que solo sirviera como una extensión de la voluntad del usuario, pero eso sería un desafío delicado y difícil (como cubrimos en el debate ampliado sobre las dificultades de hacer una IA «corregible»). La pasividad está en conflicto con la utilidad.

Sería igualmente difícil hacer una IA que sea capaz de completar tareas a largo plazo por iniciativa propia, pero que solo use esa iniciativa exactamente como el usuario pretendía. Mientras tanto, los desarrolladores de IA modernos están en el nivel de control en el que tocan las IA y accidentalmente obtienen MechaHitler o nazis racialmente diversos. No están ni cerca del nivel de habilidad que necesitarían para hacer una IA que fuera útil pero no motivada.

Véase también la discusión en el capítulo 4 sobre lo difícil que es entrenar una IA para que persiga los objetivos que está destinada a lograr.

¿Tu pregunta no fue respondida aquí?Envía una pregunta.