Вы считаете, что согласование — это «всё или ничего»? | Если кто-то его сделает, все умрут

Вы считаете, что согласование — это «всё или ничего»?

Нет. Но «частичное согласование» скорее всего тоже приведёт к катастрофе.

Один из доводов против беспокойства о суперинтеллекте звучит примерно так: «Развитие ИИ, вероятно, будет постепенным. На каждом шаге мы сможем методом проб и ошибок научиться держать его в узде. Согласованию не обязательно быть идеальным, чтобы всё закончилось хорошо». (См. также раздел «А что если разрабатывать ИИ неспешно и так же плавно внедрять его в общество?» дополнительных материалов к Главе 10.) Мы не возлагаем на этот сценарий особых надежд. Вот несколько причин:

Наши опасения не зависят от скорости прогресса. Мы не можем точно сказать, выйдет ли ИИ на плато на пути к суперинтеллекту. Это сложный вопрос. Наша лучшая догадка: у машинного интеллекта есть пороговые эффекты. Но это лишь предположение. Наши аргументы не строятся на нём. История Sable во второй части книги намеренно описывает катастрофу из-за ИИ, который не так уж сильно превосходит человеческий уровень. Отчасти для того, чтобы показать: враждебному ИИ не обязательно быстро становиться суперинтеллектом. Он может стать чрезвычайно опасным и без этого.
На вопрос «А что если нам повезёт и будет куча времени на проверку идей согласования на достаточно слабых ИИ?» мы отвечаем в главе 10 и материалах («До» и «После») к ней. Исследователи могут много чего выяснить о таких системах. Но ИИ, которые безопасно изучать, будут неизбежно критически отличаться от первых моделей, достаточно мощных для прохождения точки невозврата. Даже зрелой науке было бы очень сложно учесть все эти нюансы. А для области всё ещё на стадии алхимии, области, что работает с непостижимыми ИИ (которые выращивают, а не конструируют) — вообще без шансов.
Согласование ИИ не обязано быть идеальным для отличных долгосрочных результатов. В принципе, можно аккуратно создать ИИ с некоторой толерантностью к ошибкам. Если знать, что делаешь.^* Но это не значит, что «частично» или даже «в основном» согласованные системы приведут к нормальному исходу. ИИ по очень многим причинам может сейчас или в ближайшем будущем вести себя хорошо в 95% случаев, безо всяких гарантий счастливого исхода для человечества. Мы уже обсуждали эти причины с разных сторон в онлайн-материалах к Главе 5.

Поясним последний пункт:

В качестве мысленного эксперимента представьте: человечеству удалось загрузить в предпочтения суперинтеллекта почти все разнообразные человеческие ценности. Кроме, по какой-то причине, тяги к новизне. Тогда суперинтеллект направит будущее в застойное и скучное русло. Там один и тот же «лучший» день будет повторяться бесконечно.

Заметьте, мы не считаем это правдоподобным. Такой уровень согласования совершенно недостижим для нынешних стандартных подходов. Мы смогли заложить в ИИ почти все наши ценности, но не одну последнюю — очень странная ситуация.^† Но это важная иллюстрация. Существа, разделяющие некоторые наши желания, но без хотя бы одного ключевого, став достаточно технологически подкованными, чтобы получить именно то, что хотят, без оглядки на людей, скорее всего, приведут наш мир к катастрофе.

Более реалистичный сценарий: ИИ окажется «частично» согласованным в том смысле, что у него (как у нас) инструментальные стратегии переплетутся с терминальными предпочтениями. (См. «Рефлексия и самомодификации всё усложняют» в материалах к Главе 4.) Скажем, у него появится стремление, похожее на любопытство. И другое, похожее на тягу к охране природы. Кто-то посмотрит на это и скажет: «Гляньте! У модели развиваются очень человечные побуждения». Такой ИИ можно в некотором смысле назвать «частично» согласованным.

Но когда этот ИИ дорастёт до суперинтеллекта, ничего хорошего скорее всего не получится. Может, он потратит кучу ресурсов, бессознательно преследуя свою странную версию любопытства. А человечество сохранит в отредактированном, более удовлетворительном для него виде. (Как многие защитники природы убрали бы из неё малярийных комаров и причиняющих мучения паразитов, имей они такую возможность). Тут опять уместно: процветающие люди — не самое эффективное решение подавляющего большинства задач. (См. раздел «Посчитает ли ИИ полезным нас оставить?» материалов к Главе 5).

Или другой вариант: ценности ИИ приводят к очень гуманному поведению в обучающей среде. Люди радуются, он точно выглядит «частично согласованным». (Что происходит уже сейчас. Это иллюзия. См. «А разве Claude не подаёт признаков согласованности?» в материалах к Главе 4). Но это мало говорит о том, как ИИ поведёт себя, получив куда более широкий простор для действий. Чтобы люди процветали и тогда, благополучие человечества должно быть частью наиболее предпочтительного для ИИ исхода.

Если мы частично согласуем ИИ, это не значит, что ценности человечества будут частично представлены в будущем. Частичная загрузка человеческих ценностей в предпочтения ИИ умнее человека — не то же самое, что их полная загрузка с низким «весом» (и тогда, когда другие приоритеты насытятся, они выйдут на передний план).

Чтобы ИИ дал нам хоть что-то, он должен заботиться о нас именно так, как надо, хотя бы чуть-чуть. И большинство способов «слегка промахнуться» не такие. См. «Неужели ИИ не будет хоть немного ценить людей?» в материалах к Главе 5.

* Почему крайне важно понимать, что вы делаете, см. в разделе «Глубинные механизмы направления» материалов к Главе 3 и разделах «„Умный” (обычно) значит „неисправимый”» и «Трудно добиться надёжной лени» материалов к Главе 5.

† См. раздел «Неужели ИИ не будет хоть немного ценить людей?» материалов к Главе 5.

А всё не станет получше, когда вмешается правительство?

→