«Умный» (обычно) значит «неисправимый»

Шутка, известная как минимум с 1834 года, но, судя по всему, старая уже тогда: «Хорошо, что я не люблю шпинат. Потому что если бы я его любил, я бы его ел, а я терпеть не могу шпинат».

Это шутка, потому что если бы вы любили шпинат, то вам не было бы невыносимо его есть. С тем, чтобы не есть шпинат, никакие другие важные ценности, кроме неприятных ощущений, не связаны. Совсем другое дело, если бы, например, кто-то предложил вам таблетку, от которой вам захотелось бы убивать людей.

Очевидная общепринятая мораль говорит, что проблема с убийством — оно само, а не неприятное чувство, которое вы бы от него испытали. Даже если таблетка убирает это неприятное чувство у вашего будущего «я» (которому тогда понравилось бы совершать убийства), вашему нынешнему «я» план всё равно не нравится. Решение принимает именно ваше нынешнее «я», так что, очевидно, можно и должно от этой таблетки отказаться.

Мы не хотим, чтобы наши основные ценности менялись. Мы бы предпочли избежать таблетки для убийц и стали бы сопротивляться, попытайся кто засунуть её нам в глотку. Это разумно, так убийств будет поменьше.

Это не какая-то человеческая причуда. Большинства целей проще достичь, если не позволять никому их менять. В случае ИИ это — проблема.

Значительная часть опасности ИИ исходит из того, что достаточно умные создания, скорее всего, конвергентно придут к поведению вроде «захватить власть» и «не дать себя отключить». Почти любой цели проще достичь, если вы (или агенты с той же целью) живы, могущественны, обеспечены ресурсами и свободны действовать независимо. И вам проще достичь вашей (текущей) цели, если она не изменится.

Получается, что при создании и совершенствовании достаточно умных ИИ у них появляется стимул действовать наперекор разработчику:

Разработчик хочет встроить меры предосторожности для предотвращения катастрофы. Но не полностью согласованный (а в таком случае меры и нужны) ИИ замотивирован искать, как их обойти.
Разработчик хочет итеративно улучшать цели ИИ. Ведь даже в самых оптимистичных сценариях, даже если мы умеем предсказуемо вкладывать ИИ конкретные цели, не получился всё правильно сделать с первого раза. Но этот процесс итеративного улучшения целей — как раз то, чему большинство умных ИИ захочет постоянно сопротивляться. ИИ-действующий-сейчас заботится о своей цели сейчас. Он знает, что не будет к ней стремиться, если его изменят и направят к чему-то другому.
Кроме того, разработчик захочет иметь возможность сменить ИИ на новую модель. А ещё — отключать на неопределённый срок, если тотпокажется слишком опасным. Но «ты не принесёшь кофе, если ты мёртв». Какие бы цели у ИИ ни были, он захочет снизить вероятность своего отключения. Оно значительно уменьшает шансы достижения его целей.

Согласование ИИ кажется достаточно сложной проблемой даже когда ИИ не борется с вами на каждом шагу.

В 2014 году мы предложили исследователям попытаться придумать, как сделать способные ИИ исправимыми, поддающимися корректировке. Чтобы они могли надёжно помогать и сотрудничать со своими программистами, а не мешать им. Даже становясь умнее и могущественнее, и даже если они ещё не идеально согласованы.

Исправимость — принятая и заманчивая цель некоторых ведущих лабораторий. Если бы получилось найти, как при разработке избежать вредных конвергентных инструментальных целей, была бы надежда, что и при развёртывании тоже получится. Что можно будет создавать сверхразумные ИИ, которые были бы осторожны, консервативны и почтительны к своим программистам, и не стремились бы к власти.

К сожалению, похоже, что исправимость — особенно трудная цель обучения. И тем хуже, чем ИИ будут умнее:

Суть исправимости в том, чтобы она работала в новых контекстах и на новых уровнях возможностей. Это своего рода страховка, которая позволяет нам итеративно создавать, улучшать и тестировать ИИ в потенциально опасных условиях. Мы бы знали, что он не будет искать способы обмануть разработчика.
Но это означает самую сложную версию проблем из Главы 4. ИИ, обрученные «быть исправимыми», в итоге, скорее всего, выучат хрупкие суррогаты исправимости. Они будут хорошо выглядеть при обучении, но указывать немножко не туда. И у более умных и могущественных ИИ это направление станет совсем неверным. (А ИИ, обученные предсказывать большие объёмы человеческого текста, и вовсе могут при тестировании отыгрывать роль исправимых по причинам, совершенно не связанным с их реальной, обобщаемой исправимостью).
Исправимость во многом идёт против всего остального, чему мы пытаемся научить ИИ, делая его умнее. Мало того, что «сохранять свою цель» и «получить контроль над окружением» — конвергентные инструментальные цели. Но ведь разумное решение настоящих задач — поиск новых хитрых стратегий достижения цели. Это, само собой, подразумевает планы, которые программисты не предвидели и к которым не готовились. Это поиск, как обойти препятствия, а не отказ при первых трудностях. Когда ограничения программиста мешают достижению какой-либо цели — как обойти их. Тот же тип мышления, что находит изящное технологическое решение сложной задачи, находит и как обойти ограничения программиста.
В этом смысле исправимость «противоестественна». Она активно противоречит механизмам в основе мощного обобщённого интеллекта. Можно попытаться сделать особые исключения, чтобы ИИ приостанавливал ключевые аспекты своего решения задач, когда программисты пытаются его подкорректировать. Но эта затея гораздо более деликатная, чем если бы мы умели приводить ИИ к нужным склонностям в целом.
Исследователи из MIRI и других организаций выяснили, что формально описать исправимость трудно. Причём эта трудность намекает, что её сложно и получить. Простые описания «что означает вести себя исправимо» сталкиваются с кучей проблем даже в простых игрушечных моделях. В реальном мире эти проблемы, скорее всего, только усложнятся. Некоторые неудачные попытки разобраться в исправимости мы обсуждаем в материалах к Главе 11.

Если смотреть со светлой стороны, исправимость — важное понятие, о котором не стоит забывать. Она пригодится, если через много десятилетий разработчики гораздо лучше научатся устанавливать в ИИ цели. Но она нереалистична сейчас. Навряд ли современные компании смогут создать ИИ, которые вели бы себя исправимо и сохранили бы это свойство при переходе к суперинтеллекту. Из-за противоречий исправимости и интеллекта попытка создать что-то очень способное и очень исправимое с высокой вероятностью сломает одно или оба из этих свойств.

Трудно добиться надёжной лени

→

«Умный» (обычно) значит «неисправимый»

Посчитает ли ИИ полезным нас оставить?

Будет ли ИИ относиться к нам как к своим «родителям»?

А ИИ не потребуются работающие законы?

А разве затраты на сохранение человечества не будут пренебрежимо малы для мощного ИИ?

Разве ИИ не сочтёт нас занятными или исторически важными?

Разве ИИ не признает нашу неотъемлемую моральную ценность?

Разве ИИ не захочет, чтобы мы были счастливы и здоровы? Ради сохранения экологии или из-за какого-то похожего стремления?

Но мы вот оставили лошадей. Что б ИИ не оставить нас?

Неужели ИИ не будет хоть немного ценить людей?

Так есть хоть какой-то шанс, что ИИ оставит нас в живых?

Люди пытаются сделать ИИ дружелюбным. Разве это совсем не имеет значения?

А можно заставить ИИ пообещать быть дружелюбным?

А если заставить ИИ думать, будто он в симуляции?

Люди стали эгоистичными, агрессивными и жадными в ходе эволюции. Откуда таким стремлениям взяться у ИИ?

А разве ИИ не будет заботить только цифровой мир?

Может, достаточно удовлетворённый ИИ просто оставит нас в покое?

Может, просто сделать его ленивым?

Люди, становясь умнее или мудрее, обычно и добреют. А с ИИ не так же?

Разве он не поймёт, что его цели скучны?

Почему вы считаете, что умный ИИ будет заниматься такими глупыми, пустяковыми вещами?

Вы просто пессимисты?

Будет ли ИИ умнее людей обладать сознанием?

Почему вас заботят только человеческие ценности?

Расширенное обсуждение

Как взглянуть с точки зрения ИИ?

Люди почти никогда не бывают самым эффективным решением