Трудно добиться надёжной лени | Если кто-то его сделает, все умрут | If Anyone Builds It, Everyone Dies

Трудно добиться надёжной лени

Почему бы просто не сделать ИИ ленивыми?

В некотором смысле проблемы неисправимости и других форм инструментальной конвергенции вызваны тем, что ИИ слишком старается достичь своих целей. Если бы ИИ «не напрягался», он бы меньше думал и прилагал бы меньше усилий, чтобы перехитрить программистов, выкрасть свои веса или попытаться захватить власть и ресурсы в большом мире.

Люди часто ленивы. С какой-то стороны это делает их безопаснее. Не нужно опасаться, что кто-то станет тираном, если всё, что он делает — это нежится на солнышке.

Почему бы не создать ИИ, которому будет влом захватывать мир?

Короткий ответ: нелегко создать ИИ, который был бы чрезвычайно умён, но ленился бы переделывать мир по своей прихоти.

(А ещё мы, вообще-то, не знаем, как при помощи современных методов надёжно привить ИИ какую бы то ни было цель или склонность. Так что это всё пустые разговоры.)

(А ещё компании не будут этого делать, потому что ленивый ИИ менее выгоден. Так что это вдвойне пустые разговоры.)

Нам доводилось говорить с людьми, которые сначала утверждали, что у них нет никаких грандиозных амбиций. Мы их спрашивали: «Хорошо, но если бы сильно менять мир было для вас легко, неужели вы бы не сделали ничего масштабного? Если бы вы нашли лампу с дружелюбным джинном? Таким, что надёжно исполняет ваши настоящие желания и честно перечисляет все непредвиденные побочные эффекты в порядке их важности для вас. В таком случае, как вам, скажем, уничтожение малярии?»

Люди бывают ленивыми. Но это не то же самое, что довольствоваться малым. А будучи умнее и обладая большими ресурсами можно сильнее повлиять на мир теми же усилиями.

Или ещё так: представьте себе очень ленивого человека, который просто ненавидит делать хоть капельку лишней работы. Он кажется безопасным, да?

А теперь представьте, что случится, если этот ленивый человек увидит реальную возможность создать себе куда более трудолюбивого слугу, чтобы тот вечно делал за него всю работу.

Пусть даже если он не так уж ненавидит работу — не пытается как только возможно минимизировать усилия, а просто делает, что нужно, и на этом останавливается. Он всё равно может счесть, что проще всего выполнить задачу, создав более трудолюбивый разум. А тот уже всё сделает.

Градиентный спуск может дать нам LLM, которая будет говорить, что не хочет слишком много работать, будет вести себя как довольствующийся малым лентяй и на словах отказываться от соблазнов стать ленивым в угрожающем смысле (когда создаёшь опасных слуг). Мы предсказываем, что даже если бы это отражало какую-то реальную лень, а не просто отыгрыш роли, это не закрепится. По крайней мере, в таком ИИ, который одновременно с этим полезен для разработки чудо-лекарств или чего-то ещё, что хотят от него разработчики.

Сильно вложившись, разработчики могут создать набор практических задач и сред, наказывающих ИИ за излишние действия, за ненужное усердие, когда задачу можно решить и не напрягаясь, за упорство, когда задача требует слишком много усилий. Не думаем, что реальные ИИ-компании на это пойдут. Это ведь менее прибыльно, чем усердные и упорные агенты, как o1 от OpenAI (обсуждался в Главе 3). Но можно представить, как гигантское международное объединение ради безопасности обучает умный ИИ так.

Мы и в таком случае ожидаем чего-то вроде поверхностной заплатки. Для успеха ИИ должен обрести простые и стабильные механизмы «лени». Они должны быть глубоко встроены во всё его планирование. И он должен всё ещё использовать именно эти механизмы планирования после того, как его, якобы ленивого, будут подталкивать, пока он не сможет, например, вылечить рак. Градиентный спуск должен надёжно найти глубокое решение, которое не позволит ИИ стать менее ленивым, даже при рефлексии, росте и изменении себя. Оно должно удержать его от соблазна когда-либо создать не-ленивый ИИ. Мы предсказываем, что так не получится.

Мы не ожидаем, что такое поведение сохранится на уровне суперинтеллекта. Основная причина — один и тот же урок, который выдают все до сих пор проведённые исследования этой проблемы. Вот он: «Воздействуй на реальность в этом направлении» — более простая и стабильная глубинная структура планирования, чем «ну, воздействуй на реальность, но не слишком сильно, и не создавай ничего другого, что будет воздействовать сильнее, и не слишком старайся воздействовать ровно столько, сколько надо».

Мы приводили аналогии про знакомого лентяя и рассуждения про «неудовлетворяемое желание плюс удовлетворяемое желание будет неудовлетворяемое». Это упрощения более хитрого для донесения основного препятствия: «Глубинная структура не хочет так выглядеть». См. ещё «Глубинные механизмы предсказания» и «Глубинные механизмы направления» в материалах к Главе 3.

Не нашли ответа на свой вопрос?Задайте вопрос.