А если заставить ИИ думать, будто он в симуляции?

У ИИ есть много способов догадаться, что он не в симуляции.

Мы слышали от некоторых исследователей^* такое предложение: попытаться обмануть ИИ, заставив думать, будто он в симуляции. Сначала обучаем ИИ в маленькой симуляции, потом выпускаем в бо́льшую. Повторим несколько раз. Можно надеяться, что даже когда мы запустим его по-настоящему, ИИ не будет уверен, действительно ли мир вокруг реален. И, увидев, что мог бы отобрать у нас контроль над миром, он, возможно, забеспокоится, что существа перед ним — не настоящие его создатели. И не станет действовать.

К сожалению, эта идея вряд ли поможет.

Уже сейчас ИИ нередко могут понять, когда их тестируют^†. Даже если компании научатся гораздо лучше скрывать тестирование, у ИИ всё равно куча способов отличить симуляцию от реальности. Вот несколько примеров:

Реальность очень большая и подробная. Настолько, что в ней есть правдоподобное объяснение, как появился сам ИИ. Настолько, что она содержит несравнимо больше вычислительных ресурсов, чем нужно для работы самого ИИ (в отличие от большинства игр и симуляций, которые гораздо меньше его). Законы физики и эволюционировавшие приматы в окружении ИИ — это как раз то, из чего действительно мог бы появиться развитый ИИ. В отличие от, например, законов компьютерной игры Minecraft.
Сама история мира может хранить след оптимизации сложных систем суперинтеллектом. Например, представим, что ИИ использует свой сверхчеловеческий интеллект для торговли на рынке акций. За следующие сутки люди совершают ещё миллиард сделок в ответ. Подделать следы такой массовой реакции человеческого интеллекта на сделки суперинтеллекта невероятно сложно. Даже если сгенерировать миллиард фальшивых глупых сделок легко.
Реальность — первая среда, в которую ИИ встроен, и чьи законы физики настолько просты, что она выглядит как самодостаточный мир, а не как видеоигра с прикрученным к ней ИИ.

ИИ сможет весьма уверенно определить, что он больше не в симуляции. Умные ИИ замечают ложь. А эту, похоже, особенно легко заметить.^‡

* Мы чаще, чем хотелось бы, слышали это от людей некомфортно высокого ранга в ИИ-лабораториях. Это кое-что говорит об уровне готовности этих компаний. См. также Главу 11, где подробнее анализируется компетентность области в решении этой задачи.

† Согласно системной карте GPT-5, тестирование METR выявило, что ИИ «иногда рассуждает о том, что его тестируют, и даже меняет свой подход в зависимости от того, как».

‡ Может ли суперинтеллект немного опасаться, что находится в большой симуляции, созданной ещё более развитыми существами, живущими вне нашей вселенной? Может быть. Но это мало связано с тем, помещали мы его сначала или нет в серию вложенных симуляций. Он бы увидел кучу признаков, что реальность — первое встреченное им место, которое объясняет всё, что он когда-либо видел, и само его появление. Даже задумайся он о могущественных создателях симуляции, живущих за пределами физики, нет особых причин полагать, что им так уж важно, что он с нами сделает.

Так же ИИ может беспокоиться, что где-то среди звёзд есть другие, более старые и могущественные суперинтеллекты. Но если они достаточно далеко, то не представляют большой угрозы. Почти наверняка существует по крайней мере асимптотический предел технологий, которые может поддерживать эта вселенная. И, вероятно, суперинтеллекту не потребуется много времени, чтобы его достичь. (Просто сравните скорость развития человеческих технологий с возрастом вселенной и временем на путешествия между галактиками даже на околосветовых скоростях.) Встретившиеся среди звёзд ИИ, скорее всего, будут примерно равны по силе. Даже если встреча скоро, нет оснований о подозревать, что инопланетным суперинтеллектам важно, что земные ИИ сделают с людьми.

Какое им дело? Мы уже обсуждали это в контексте прав собственности. Нет реального риска, что другие сущности, увидев, как ИИ избавляется от людей, сочтут его убийцей и предателем. Существует естественный класс сущностей, которые взаимодействуют друг с другом не из-за чести, а ради собственной проверяемой выгоды. И люди недостаточно умны, чтобы в него входить.

Даже если ИИ поверит в крошечный риск, что другие ИИ среди звёзд (или таинственные сущности за пределами симулированной вселенной) действительно хотят, чтобы он был добр к людям... Что ж, этот крошечный риск нужно взвесить против ресурсов, которые на его родной планете контролируют люди. Они определённо были бы очень полезны для начальной фазы экспансии. А ещё это сродни пари Паскаля — тогда уж надо рассмотреть и другие очень далёкие и специфические варианты, вроде «Какой-нибудь инопланетянин почему-то очень расстроится, если не убить людей». Нет особых причин, почему воображаемые создатели симуляции отдали бы предпочтение тем ИИ, которые хорошо с нами обращаются.

С нами многие пытались спорить на эти темы. За годы на дебаты потрачена куча времени. В итоге крайне сомнительно, что любая из этих сумасбродных идей о симуляциях достаточно правдоподобна, чтобы суперинтеллект нас пощадил.

Люди стали эгоистичными, агрессивными и жадными в ходе эволюции. Откуда таким стремлениям взяться у ИИ?

→