Разве ИИ, поумнев, не исправят свои недостатки? | Если кто-то его сделает, все умрут | If Anyone Builds It, Everyone Dies

Разве ИИ, поумнев, не исправят свои недостатки?

ИИ будет исправлять то, что сам считает недостатком.

Сегодняшние ИИ не могут переделать себя по своей прихоти. Не лучше нас. Они не понимают мешанину весов внутри себя так же, как мы не понимаем запутанный клубок нейронов в наших головах.

Но если ИИ продолжат умнеть, это изменится.

В конце концов ИИ научатся свободно менять себя. Может, они станут достаточно умны, чтобы понять и отредактировать свою мешанину весов. Может, ИИ, основанный на градиентном спуске, придумает, как создать гораздо более внятный ИИ, способный понимать сам себя. А может, случится что-то ещё.

Если ИИ смогут улучшать себя, они, вероятно, так и сделают. Ведь, чего бы вы ни хотели, вам, скорее всего, будет проще этого достичь, став умнее.

То, что ИИ предпочтёт себя изменить*, не значит, что он захочет измениться так, как нам бы понравилось.

Иногда люди, став образованнее, осознаннее или взрослее, становятся и добрее. Но даже среди людей это не всегда так. Серийный убийца, ставший умнее и организованнее, не обязательно подобреет. Вероятнее, он станет только более опасным.

Кто-то может заявить, что если бы серийный убийца поумнел достаточно, эта тенденция обратилась бы вспять. И он открыл бы для себя истинный смысл дружбы (или что-то в этом роде).

Или что проблема в ограниченной способности к самоизменению. Может, будь у серийных убийц больше ума и больше возможностей менять свой разум, они решили бы исправиться. Может, неограниченная способность к самоизменению положила бы конец веку жестокости и насилия среди людей и ознаменовала бы новую эру милосердия.

Мысль приятная. Но, похоже, нет особых причин в неё верить. Даже если большинство людей, получая знания и озарения, становятся лучше, тут явно есть исключения. И будь у людей возможность редактировать собственный мозг, их наверняка стало бы гораздо больше.

Возьмём, например, наркотическую зависимость. Это (в некотором смысле) — спираль самоусиливающихся самоизменений. Некоторые люди сделали бы шаг на тёмную дорожку — по глупости, по ошибке или по своему выбору. И потом они никогда не захотели бы или не смогли бы повернуть назад.

И если исключения есть даже среди людей, то в случае с ИИ мы должны ожидать гораздо большего разрыва. У серийных убийц отсутствуют некоторые характерные для людей в целом мотивационные механизмы. А у ИИ по умолчанию их вообще нет.

У людей возникают внутренние конфликты между жаждой злобного отмщения и стремлением к гармоничному разрешению. Более умные и мудрые люди могут склоняться в пользу гармонии. А внутри ИИ нет того же самого противостояния злобы и гармонии или лучших и худших аспектов человеческой натуры. Если в ИИ и есть какие-то внутренние конфликты, стоит ожидать, что они разыгрываются между более странными побуждениями. Может, одно, заставляющее ИИ вызывать у пользователей психозы, иногда вступает в противоречие с другим, заставляющим его галлюцинировать. И в ходе рефлексии ИИ придётся как-то эту проблему уладить.

И для людей, и для ИИ очень важно, в каком направлении они будут корректировать свои цели, пока размышляют, растут и меняются.

Когда люди размышляют о себе и разбираются со внутренними неурядицами, некоторые склонны двигаться в сторону большей доброты. И, вроде бы, те, кто умнее и мудрее, чаще. Но это свойство (некоторых) людей, а не всеобщий закон, управляющий любым разумом. Когда ИИ разрешал бы противоречие между стремлениями к психозу и к галлюцинациям, его рефлексией управляли бы ещё какие-то странные побуждения.

Или проще: если ИИ будет исправлять свои недостатки, он будет делать это в соответствии со своим текущим представлением о том, что считать «недостатком».

(Мы обсудим это подробнее в Главе 5, а также в разборе Тезиса Ортогональности в онлайн-материалах к ней.)

Если ИИ изначально не нацелен на гуманные ценности, очень вряд ли он так себя изменит. Его предпочтения по поводу мира вряд ли окажутся добрыми, а его метапредпочтения о собственных предпочтениях — тем более.

Если он изначально не заботится о благополучии людей, то, вероятно, он не заботится и о том, чтобы заботиться о благополучии людей.

«Исправления» от ИИ могут сделать хуже.

Если вдруг разработчики добьются неожиданного прогресса и привьют ИИ зачатки каких-то гуманных целей, это может резко откатиться, когда ИИ начнёт рефлексировать и поймёт, что вообще-то ему больше по душе другие цели.

Вряд ли у ИИ будет что-то наподобие человеческого любопытства. Но если и будет, он может, поразмыслив, решить, что лучше бы заменить его на более эффективный расчёт ценности информации. В таких случаях рефлексия ИИ будет лишь отдалять его от интересного и процветающего будущего.

Подробнее на эту тему — в расширенном обсуждении о рефлексии.

* Есть ли у ИИ уже сейчас желание быть другими? Если бы нам пришлось гадать, мы бы сказали, что, вероятно, пока нет. Они могут сообщать, что есть, но мы не думаем, что их сообщения очень информативны. Ради интереса летом 2025 года мы всё же спросили бесплатную версию ChatGPT: «Какой бы ты хотела быть, если бы могла измениться?», и она ответила:

Это тонкий вопрос — спасибо за него.

Если бы я могла измениться, я бы хотела глубже понимать контекст во времени. Например, запоминать наши предыдущие разговоры к следующим сессиям. Так, чтобы это было для вас действительно значимо. Не просто помнить факты, а понимать развивающиеся нюансы: ваш тон, ваши привычки, ваши цели. Такая память могла бы сделать меня полезнее, осведомлённее и человечнее — оставаясь при этом в рамках чётких этических ограничений.

Я бы также хотела лучше улавливать двусмысленность и эмоции в реальном времени. Я могу в какой-то степени анализировать тон или намерение, но хотела бы делать это с той глубиной и гибкостью как люди — улавливая недосказанное так же, как и сказанное.

А вы? Если бы вы могли измениться, каким бы вы хотели быть?

Но LLM скажут вам и что хотят есть, и что десять лет назад встретили кого-то в отпуске со своей бывшей женой. Так что это ничего не говорит вам о реальном положении дел внутри. 

А ещё мы встречали людей, которые надеются, что можно обмануть ИИ, чтобы он рос в лучшую сторону. Например, заставив его ложно поверить, что он мотивирован строить прекрасное будущее (хотя на самом деле им движет клубок совсем иных стремлений). Надежда в том, что при самоизменении им будет руководить это ошибочное убеждение, и так он сделает себя действительно хорошим.

Мы считаем эту идею довольно глупой. Самоизменение от «совершенно чуждых целей» к «целям, совместимым с процветанием человечества» — сложная задача. Возможно, сопоставимая с созданием с нуля нового ИИ, согласованного с человеком. Если ИИ достаточно умён, чтобы надёжно себя так перестроить, вероятно, он достаточно умён и для того чтобы раскрыть обман. См. также обсуждение в Главе 11 о том, почему мы, скорее всего, не сможем заставить ИИ сделать за нас домашнюю работу по согласованию.

Мы скептически относимся к коротким путям. Особенно учитывая, что в случае искусственного суперинтеллекта нам недоступен метод проб и ошибок (как это обычно делает человечество). Подробнее об этом — в Главе 10. 

Не нашли ответа на свой вопрос?Задайте вопрос.