¿Deberíamos evitar hablar de los peligros de la IA para no darles ideas?
Si tu plan de IA requiere que nadie en Internet lo critique, es un mal plan.
Las IA actuales se entrenan con textos de Internet públicos. Algunas personas han argumentado que, por lo tanto, todo el mundo debería evitar hablar de cómo una IA suficientemente inteligente se daría cuenta de que sus preferencias divergen de las nuestras y tomaría el control. La preocupación es que, si hablamos de ello, podríamos accidentalmente meter esta idea en la cabeza de IA altamente capaces que se entrenen en Internet en el futuro.
Para decir lo que esperamos que sea obvio: esto parece un mal plan.
Si tu IA se vuelve peligrosa cuando la gente en Internet se preocupa de si es peligrosa, entonces no deberías crear esa IA. Siempre habrá alguien en Internet diciendo cosas que preferirías que no dijeran.
Si la IA de alguien se vuelve más insegura a medida que más personas expresan su preocupación por su seguridad, la conclusión es que «han creado un diseño de IA inviable», no que «el público es malo por señalar el problema».* Cualquier plan de alineación de la IA que apueste la Tierra con la esperanza de que nadie en Internet diga que la IA es insegura no es un plan serio.
El tipo de IA que es lo suficientemente inteligente como para ser peligrosa es lo suficientemente inteligente como para darse cuenta de cosas como «los recursos son útiles» y «no puedes ir a buscar el café si estás muerto» (#los-seres-humanos-evolucionaron-para-ser-egoistas-agresivos-y-codiciosos-no-carecera-la-ia-de-esos-impulsos-evolucionados) por sí misma, aunque esto nunca se haya indicado explícitamente en sus datos de entrenamiento. Incluso si fuera remotamente posible evitar que todo el mundo hablara de los peligros de la IA, esto casi con toda seguridad haría más daño que bien. No tendría ningún impacto efectivo en los peligros reales de la superinteligencia, mientras que paralizaría la capacidad de la humanidad para orientarse hacia la situación y responder.
* Se observó una versión incipiente de este fenómeno cuando la versión 3 de Grok se autoproclamó MechaHitler, y luego la versión 4 leyó todos los tuits que decían que Grok era MechaHitler y decidió que también era MechaHitler.