«До» и «После»

Повторим сказанное в главе. Главная сложность с ИИ:

Нужно согласовать ИИ — До того, как он наберет силу, чтобы вас убить (или помешать согласованию). И это согласование должно перенестись на совсем другие условия — После. Когда суперинтеллект^* (или их группа) уже сможет вас уничтожить, если захочет.

Иначе говоря: создавая суперинтеллект, вы должны согласовать его без единой возможности проверить свои методы в тех условиях, где это действительно имеет значение. И неважно, насколько «эмпирической» кажется работа с системами, которые пока не могут вас убить.

Ни исследователи ИИ, ни инженеры из (почти всех) других областей не привыкли к таким требованиям.

Нам часто жалуются: мол, мы требуем чего-то ненаучного, оторванного от опыта. В ответ советуем поговорить с создателями космических зондов.

Природа несправедлива. Иногда критически важная среда — не та, где можно провести тесты. И всё же, бывает, что инженеры хорошо подготавливаются и справляются с первого раза. В таких случаях у них есть глубокое понимание, что они делают — надежные инструменты и мощные предсказательные теории. То, чего в области ИИ явно не хватает.

Суть проблемы: ИИ, который безопасно тестировать, неудача с которым вас не убьёт, работает не в том режиме, что ИИ (или экосистема из ИИ), которую надо протестировать, потому что если он несогласованный, все умрут. Первый ИИ не наблюдает реальную возможность всех убить, даже если хочет. А вот второй эту возможность видит.^†

Представьте, что вы хотите назначить своего коллегу Боба диктатором страны. Сначала вы назначаете его «потешным» диктатором города, чтобы проверить, не будет ли он злоупотреблять властью. Увы, проверка так себе. Опция «приказать армии запугать парламент и „присмотреть“ за выборами» — принципиально отличается от «поиграться с понарошковой властью на глазах у горожан (которые могут навалять и уволить)».

При наличии хорошей теории мышления можно пытаться «прочитать мысли» ИИ. Предсказать, что он будет думать, когда решит, что возможность захватить власть действительно есть.

Можно использовать симуляции (и подделывать «ощущения» ИИ и всякое такое). Ваша теория подскажет, как сделать их похожими на реальную ситуацию с опцией предательства.

Но связь между лабораторными тестами и реальной ситуацией принципиально полагается на вашу непроверенную теорию мышления. А разум ИИ может сильно измениться, когда он станет суперинтеллектом!

Если ИИ создаст более умных преемников, их «начинка», вероятно, будет устроена по-другому. Изучив разум До, вы применяете знания к разуму После. Вы зависите от гипотезы о том, как мышление меняется от До к После. Непроверенной.

Позволить ИИ работать, пока он действительно не получит возможность вас предать (которую сложно подделать), — это эмпирический тест. Он принципиально отличается от всего, что вы можете сделать в лабораторной среде.

Многие учёные (и программисты) знают: теории о работе сложных систем в принципиально новой среде редко срабатывают с первого раза.^‡ У такой задачи «несправедливые» требования к предсказуемости, контролю и пониманию слабо исследованной территории. А если надежды инженеров не оправдаются — мы все погибнем.

Так что мы считаем: причин, почему исследователям не стоит сломя голову гнаться за прогрессом ИИ, не просто достаточно, а с огромным запасом. Это чистое безумие. И дозволять это — такое же безумие для любого правительства.

* Иногда нам говорят, что всё хорошо, ведь можно создать несколько суперинтеллектов, чтобы они следили друг за другом. Есть много причин, почему эти предложения кажутся нам совершенно нереалистичными. Но подчеркнём всё ту же главную проблему: у нас лишь одна попытка, чтобы эта хитрая схема сработала.

Можно тестировать и наблюдать До. Не ставя на кон жизнь всех людей. Но решающий случай будет другим. (И схема должна быть очень умной. Мы ведь понятия не имеем, как заставить хоть один ИИ из этой группы заботиться о нас — см. раздел «А если ИИ будет много и все разные?» выше).

† Можно попытаться обмануть слабый ИИ. Заставить его ошибочно считать, что он может получить решающее преимущество. И обучать этим не пользоваться. Но вы будете обучать систему достаточно глупую, чтобы дать себя провести (см. раздел «Умные ИИ замечают ложь и возможности» в материалах к Главе 3). Она будет видеть фальшивое оружие вместо настоящего. Так что потенциально смертельная ситуация будет заметно отличаться от учебной. Есть большая разница: вам сказали, что у вас есть оружие против операторов, или вы сами создали его (или путь к побегу), и детально понимаете, как оно работает. ИИ, который ведется на обман, — не тот же ИИ, который видит реальные возможности.

Механизм согласования, работающий на ИИ, которых можно обдурить, проверен только До. Но работать он должен После.

‡ Например: механика Ньютона давала потрясающе точные прогнозы. Это простая, сжатая математическая теория с огромной объяснительной силой. Она разбила все прошлые идеи в пух и прах. Но попробуйте с ней отправить груз к далеким планетам на релятивистских скоростях. Вам крышка! Ньютоновская механика не учитывает релятивистские эффекты.

Предупреждали бы лишь мелкие намеки. Свет движется с одинаковой скоростью во всех направлениях круглый год. Свет огибает Солнце во время затмений. Перигелий Меркурия чуть смещается относительно расчетов Ньютона. Мелкие аномалии против огромной кучи успешных предсказаний из самых разных областей.

Представьте: до открытия механики Ньютона странные пришельцы предложили Земле сделку. Мы получим огромные богатства за межзвездную доставку, но если провалим — нас уничтожат. И вот ученые открывают механику Ньютона. И уговаривают, что ну теперь-то можно согласиться. На их стороне — горы эмпирических свидетельств. Их новые знания позволяют изобретать мощные технологии.

Представьте, какая твердость духа нужна тем, кто принимает это решение, чтобы сказать: «И все же вы не можете объяснить смещение перигелия Меркурия. Так что ответ — „нет“».

Ученым это показалось бы жуткой несправедливостью! У них ведь столько доказательств!

(Вообще, скорее всего человечество не поняло бы, что надо отказать. Поэтому мы не надеемся на международную коалицию и считаем, что Земле нужно полностью отступить от этой задачи. См. раздел «Почему бы международной коалиции не разработать безопасный ИИ совместно, а не запрещать?» в материалах к Главе 12.)

Природе плевать на горы свидетельств и предсказаний физики Ньютона. Когда мы переходим к энергиям и масштабам, далеким от наших наблюдений, теория все равно рушится. Она просто не работает на высоких энергиях и больших расстояниях.

Заставить научную теорию сработать с первой же критически важной попытки — трудно.

История «Чикагской поленницы-1»

→