¿No cuenta para algo que los humanos están intentando hacer que la IA sea amigable?

Sí, pero intentar solo sirve hasta cierto punto.

Si pones a un millón de monos frente a máquinas de escribir, no van a producir las obras completas de Shakespeare.

Si bajas drásticamente tus expectativas diciendo que te conformarás con el primer acto de Hamlet y que corregirás los errores tipográficos tomando la palabra real más cercana, entonces tendrás muchas más posibilidades de alcanzar tu objetivo. Y, por desgracia, seguirás teniendo muy poca suerte.

Es cierto que las IA actuales se entrenan con gran cantidad de datos humanos, que interactúan con los seres humanos y que estos hechos hacen que los conceptos similares a los humanos sean más destacados para el pensamiento de la IA. Las IA de este tipo han aprendido datos sobre las palabras «amor», «amistad» y «bondad» que son relevantes para predecir el siguiente token.

Pero las IA no son el tipo de entidades que aprenden un gran número de palabras humanas y luego se orientan hacia nuestras palabras favoritas tal y como las entendemos realmente. Parecen estar animadas por una compleja maraña de maquinaria que parece esforzarse por mantener a las personas psicóticas en su estado psicótico, entre muchos otros comportamientos extraños e indeseados.

En el capítulo 4 argumentamos que una IA más avanzada se orientará hacia algo complicado, algo que depende de dónde encuentren su equilibrio muchas fuerzas internas, incluso después de que la IA se vuelva mucho más inteligente, incluso después de que se encuentre en un contexto muy diferente al de su entorno de entrenamiento.

En la medida en que los conceptos humanos tienen palabras cortas en el diccionario mental de una IA, esos conceptos podrían estar de alguna manera entrelazados con las fuerzas que animan a la IA. Pero no puedes simplemente mezclar un montón de palabras en inglés y obtener un buen conjunto de impulsos para una superinteligencia.

Además, la mayoría de las formas de introducir algo que nos importa en las preferencias de la IA siguen sin acabar bien para nosotros, como discutimos en el caso del amor filial. [Preocuparse de la manera correcta es un objetivo difícil de alcanzar.](#no-se-preocuparan-las-ia-al-menos-un-poco-por-los-humanos

¿No podemos hacer que la IA prometa ser amigable?

→