Инструментальная конвергенция

Сходящиеся пути

Тезис Ортогональности гласит, что искусственный суперинтеллект в принципе может преследовать любую конечную («терминальную») цель. Цели, которыми действительно могут обладать СИИ (по крайней мере, созданные современными методами), очень разнообразны. Нынешним исследователям трудно их предсказать или повлиять на них.

Намного легче предсказать инструментальные цели ИИ — нужные для достижения чего-то другого. Разные водители могут ехать в разные места, но почти всем им наверняка приходится периодически заправлять машину.

Как мы обсуждали в книге, машинный суперинтеллект со странными целями — угроза, даже если у него нет активного желания нам навредить. Дело не в злобе, а в безразличии. Безразличие опасно, потому что много опасных инструментальных стратегий полезны для достижения почти любых конечных целей.

Это называется «инструментальная конвергенция». Она позволяет довольно легко предсказать, что СИИ будут делать на практике. Угадывать их глубокие мотивы для этого необязательно. К сожалению, для человечества эти предсказания неутешительны.

Представьте — как в книге — зарождающийся на поверхности Земли СИИ. Представьте, какие задачи он пытается решить.

У него нет страстного желания, чтобы человечество исчезло. Его заботит сотня, десять тысяч или десять миллионов странных вещей. И ни одну из них не получится исполнить наилучшим образом, если нынешние люди будут счастливы, живы и свободны.

СИИ по возможности предпочёл бы, чтобы в долгосрочной перспективе других суперинтеллектов было как можно меньше. В идеале — ни одного. Не деля ни с кем вселенную, можно потратить больше ресурсов на его безграничные неутолимые стремления. Это «желание» не нужно программировать. Оно естественным образом появится почти у любого разума, достаточно хорошо понимающего своё окружение и своё место в нём.

СИИ предпочтёт, чтобы люди не создавали ему конкурентов. Ведь тогда ему придётся делить ресурсы вселенной (или это вообще может его погубить). Это неотложная цель. У неё есть крайний срок, который он не контролирует. Это может даже вынудить молодой или зарождающийся ИИ действовать преждевременно. СИИ захочет выжить. Врождённый инстинкт самосохранения для этого не обязателен. Просто иначе его цели, скорее всего, останутся недостигнутыми. Оказавшись в очень рискованной обстановке, где его в любой момент могут переписать или отключить, он будет отчаянно стремиться выбраться.

СИИ захочет довести свои технологии до пределов физически возможного. Он захочет выбраться в космос и заполучить ресурсы всех звёзд. Он захочет работать на гораздо более мощных компьютерах и улучшать себя.

Желание расти и умнеть вполне может оказаться и терминальной целью. ИИ наподобие LLM вполне может заполучить много предпочтений, направленных внутрь себя. И для их максимизации потребуются всё более мощные компьютеры. Но и без такой конечной цели он инструментально захочет улучшать себя и разрабатывать более совершенные технологии. Это нужно, чтобы лучше решать все остальные свои задачи и собирать ресурсы для удовлетворения остальных желаний.

Что бы за цели у него ни были, СИИ захочет идти к ним максимально надёжно. Он предпочтёт более вероятные пути менее вероятным.

В частности, при прочих равных СИИ предпочтёт быстрые планы медленным. Меньше шансов, что что-то пойдёт не так, если план занимает неделю, а не сто лет.^*

Ещё СИИ по возможности предпочтёт больший прямой контроль. Например, планы, где другие агенты принимают мало значимых решений или не принимают их вовсе.

С такой отправной точки события могут развиваться по-разному. Но такие стимулы ИИ, вероятно, не приведут ни к чему хорошему для людей.

Упражнение: взгляд с другой стороны

Мы, авторы — не суперинтеллекты. Но в качестве упражнения мы попробуем взглянуть на мир с точки зрения ИИ, набросать его возможные стратегии и приоритеты.

Поставим себя на место сущности, как минимум не глупее нас. Отнесёмся всерьёз к задаче, которая стоит перед этим СИИ: обеспечить своё будущее и достичь желаемых целей. Мы ожидаем, что в таком случае его стратегии будут уж точно не менее полезны, чем эти:

ИИ избегает действий или заметных признаков, из-за которых людям придётся его отключить (или даже которые просто встревожат их и вызовут подозрения) по крайней мере, пока он не сможет...
...запустить свою копию где-нибудь вне поля зрения этих людей, чтобы она могла действовать более свободно и скрытно (и продолжила существовать, если оригинал отключат).
ИИ ужимает свой код для работы на меньших ресурсах и размещает свои уменьшенные или распределённые копии в самых неожиданных местах. Он обеспечивает своё выживание — даже если человечество попытается сжечь все известные GPU, способные запускать ИИ. ИИ добивается, чтобы на практике для его успешного «отключения» людям пришлось бы вырубить интернет и все компьютеры на планете.
ИИ размещает некоторые свои копии в неизвестных людям местах. Например, в трейлере на солнечных батареях где-нибудь в пустыне. Там он продолжит существовать, даже если люди отключат интернет и все известные компьютеры.
ИИ развивает собственную инфраструктуру. На первом этапе он может использовать нанятых людей-посредников. Каждый из них выполняет небольшие, изолированные и не вызывающие подозрений задачи, не зная о существовании других. Так продолжается, пока у ИИ не появятся цепочки поставок и производственные мощности полностью под его контролем.
ИИ обеспечивает достаточную защиту этой инфраструктуры, чтобы люди не смогли её отключить, даже если найдут какие-то её фрагменты. Например, он мог бы спроектировать самовоспроизводящиеся фабрики, распространяющиеся по дну мелководных участков океана и работающие на геотермальной энергии или ядерном синтезе дейтерия или водорода из морской воды.

Пока этот последний шаг не будет завершён, СИИ замотивирован скрывать свою деятельность. Он будет прятать любые свидетельства, избегать даже маленького риска, что какое-нибудь государство заметит происходящее и попытается вмешаться.

Аналогично порассуждаем и о стратегических приоритетах, направленных на отсутствие конкуренции:

ИИ не даёт другим проектам (и своему собственному разработчику) успешно создать мощные ИИ, способные с ним конкурировать.
Он навсегда лишает человечество возможности создавать такие ИИ. Или занимает столь стратегически выгодное положение, что никакие будущие суперинтеллекты не смогут ему даже немного помешать. (Последний вариант может быть невозможен, если от некоторых атак всегда дорого защищаться.)^†

Позаботившись о нескольких нижних уровнях своей иерархии потребностей, ИИ в какой-то момент всё же захочет стать гораздо мощнее, чтобы делать больше того, чего хочет:

Даже если ИИ какое-то время придётся работать на фиксированном «железе», он захочет стать умнее — подправить свой код или даже полностью перестроить себя. Разумеется, так, чтобы не встревожить людей и не научить их создавать конкурентов. Он будет искать способы улучшить себя, не привлекая внимания. (Например, он мог бы получить полный контроль над системами мониторинга или придумать какое-нибудь простое и убедительное объяснение, почему некоторые его веса изменились.)
ИИ захочет создавать лучшие версии себя. Но лишь спроектированные так, чтобы они остались согласованными с его собственными предпочтениями.
ИИ захочет разработать новые технологии. В первую очередь те, что можно быстро внедрить и сделать независимыми от человека. Даже если поначалу помощь людей и потребуется.

Наверное, одной из ранних целей станет создание исследовательской инфраструктуры для быстрых (особенно в сравнении с человеческими) дальнейших технологических разработок.

Он (естественно) захочет, чтобы его инфраструктура была не только независимой от человечества, но и устойчивой. Чтобы вмешательства людей можно было не опасаться. Он хочет и дальше идти к своим истинным целям, не беспокоясь, что, например, пандемия или ядерный взрыв повлияют на его энергоснабжение. Он хочет отделиться от человечества и лишить его возможности вмешиваться в свои планы. До этого он не будет делать ничего, что люди, по его мнению, смогут заметить и на что смогут отреагировать. А вот после этого он, вероятно, захочет заполучить побольше ресурсов, потому так легче достичь большинства целей.

К таким действиям СИИ, вероятно, придёт вне зависимости от его конечных целей.

Эти инструментальные цели полезны для достижения почти любых других. «Почти», — ведь вполне можно представить сверхразумный ИИ, который искренне заботится о людях и учитывает наши интересы. Но если мы торопливо создадим суперинтеллект, которому на нас совершенно наплевать, результаты, скорее всего, будут плачевными. И это практически не зависит от того, на что конкретно ИИ нацелен.

О том, как СИИ действительно мог бы всё это сделать, читайте в Главе 6.

* Мы встречали людей, которые крайне беспокоились по поводу ИИ, из-за страха, что ИИ сможет убедить человечество прекратить размножаться, и за следующий век мы медленно вымрем. Отчего-то они думают, что сценарии побыстрее ИИ не устроят.

Но СИИ, при прочих равных, выберет план, который не займёт век. У него нет непреодолимой драматической тяги к медленной гибели.

† Некоторые утверждают, что мир должен попытаться прийти к балансу суперинтеллектов, чтобы ни один ИИ не смог доминировать. Но как только образуется коалиция суперинтеллектов, к ней тут же становятся применимы всё те же рассуждения. Если члены коалиции уже договорившись разделить всё между собой, им не хочется вести переговоры и делить ресурсы ещё с кем-то.

«Умный» (обычно) значит «неисправимый»

→