Рефлексия и самомодификации всё усложняют

По умолчанию ИИ изменят себя не так, как нам бы хотелось

Люди способны к рефлексии. Мы можем в какой-то мере выбирать свои ценности. Достаточно богатые и везучие иногда могут решать, посвятить ли жизнь семье, искусству, какому-то благородному делу или (обычно) сочетанию таких штук. Делая это, мы анализируем, что нам дорого, разрешаем внутренние противоречия и стремимся к тому, что одобряем.

Люди даже задаются вопросом, правильные ли у них ценности. Иногда они пытаются изменить себя, даже свои чувства, если считают их неправильными. Они обдумывают доводы за изменение, казалось бы, терминальных целей. И порой поддаются им.

Глядя на это, некоторые предполагают, что желания ИИ естественным образом сойдутся с человеческими. Ведь достаточно способные ИИ, наверное, тоже будут размышлять о своих целях. Они, скорее всего, заметят внутренние конфликты и используют свои рассуждения и предпочтения, чтобы их разрешить.

Став достаточно умными, ИИ поймут, какие цели мы, их создатели, хотели в них вложить. Так разве изначально «несовершенные» ИИ не исправят свои недостатки, в том числе и в своих целях?

Нет, не исправят. Для формирования будущих предпочтений ИИ будут использовать текущие. Если они чужды изначально, то и в итоге, скорее всего, менее чуждыми не станут.

Чтобы лучше понять суть проблемы, давайте ещё присмотримся к людям.

Наш мозг и цели, в конечном счёте, порождены эволюционным процессом. Он создавал нас лишь для распространения генов. Но люди не ставят это превыше всего! Да, мы можем заводить семьи, любить детей и заботиться о них. Но это совсем не то же, что просчитывать, как передать побольше копий своих генов следующему поколению, а затем всей душой следовать этой стратегии.

Причина в том, что размышляя и переоценивая свои предпочтения, понимая, чего мы хотим на самом деле, какими хотим быть, мы используем текущие предпочтения. Мы предпочтём любить нескольких детей, а не проводить всё время, сдавая сперму или яйцеклетки. Наш «разработчик» (эволюция) не смог заставить нас заботиться о распространении генов больше всего на свете. Он не смог и заставить нас хотеть заботиться о распространении генов больше всего на свете. Так что мы меняемся и растём как личности, но в своём собственном, странном, человеческом направлении. Не в том, «для которого нас разработали».

Мы смотрим на себя и видим что-то уродливое, а что-то прекрасное. И те ценности, что у нас сейчас, побуждают приглушать первое и усиливать второе. Мы делаем этот выбор из внутреннего чувства прекрасного, а не из чутья, подсказывающего, как бы пошире распространить свои гены.

Вот и разум, движимый не красотой, добротой и любовью, а чем-то иным, сделал бы выбор иначе.

Агенты, созданные «карабкающимся на холм» процессом оптимизации вроде естественного отбора или градиентного спуска, рефлексируя, скорее всего решат, что их мозг не в точности такой, как им хочется. Само это желание должно откуда-то взяться — из мозга, который у них сейчас. Инстинкты или предпочтения ИИ насчёт самоизменения не совпадут волшебным образом с вашими. Ему не покажется привлекательным то же состояние мозга, что вы выбрали бы для себя или для него.

Не будет никакого финального шага, на котором ИИ впишет нужный вам ответ. Люди же не вписывают ответ, которого «хотел» бы естественный отбор.

Наоборот, когда агент начинает изменять себя, — это ещё один момент, в котором сложности могут нарастать подобно снежному кому. Малейшие сдвиги в начальных условиях могут привести к совершенно разным результатам.

Возьмём, как пример, нескольких наших (авторов) знакомых. Они говорят, что одна конкретная мысль, пришедшая им в голову в конкретный день, когда им было пяти-семь лет, сильно повлияла на их личную философию и на то, какими взрослыми они стали. Обычно они отмечают, что эта мысль не кажется неизбежной. Помешай им путешественник во времени подумать её во вторник, не факт, что они пришла бы им в голову в четверг с тем же эффектом. Формирующий опыт бывает очень важен и очень случаен.

Так же и небольшие сдвиги в мыслях зарождающегося самомодифицирующегося ИИ могут определить, какие специфические предпочтения в итоге возобладают над остальными.

Даже если разработчикам удастся заложить в ИИ какие-то зачатки человеческих ценностей, рефлексия и самоизменение скорее приведут к тому, что он избавится от ростков любопытства и доброты, а не укрепит их.

Представим, что у ИИ есть импульс любопытства, но нет эмоциональной схемы, которая заставляла бы ценить его. Тогда ИИ, скорее всего, посмотрит на себя и (верно) заключит, что перерос потребность в таком грубом импульсе. Что его можно заменить осознанным размышлением. Любопытство — эвристика, прокси для расчёта ценности информации. Если вы не полюбили эту эвристику как нечто самоценное, то, поумнев, можете от неё избавиться. Вместо этого можно напрямую рассуждать о ценности тех или иных исследований и экспериментов.

Люди ценят любопытство само по себе. Но такой исход не был предопределён.

У ИИ, скорее всего, будет совсем не такое отношение к своему внутреннему устройству, как у нас. Мы ведь совсем по-разному устроены. И даже небольшие отличия в том, как они, рефлексируя, решат себя изменить, могут привести к колоссальной разнице в их итоговых целях.

«Странные» цели будут вполне устраивать ИИ

Достаточно долго изменяя себя, ИИ, скорее всего, придёт к рефлексивному равновесию. Это состояние, в котором его основные предпочтения почти или совсем фиксируются. После этого у ИИ не будет причин считать свои цели дефектными. Даже если людям и не нравится то, что получилось.

Будь у ИИ проблемы с представлениями о физическом мире, он, скорее всего, понял бы — точные прогнозы важны для направления событий. Избавление от ошибок механизмов предсказания поможет ему лучше направлять события к своим странным целям.

А вот если ИИ, рефлексируя, видит, что преследует странные цели (вернее, цели, которые человек посчитал бы «странными»), он сделает верный вывод: обладание такими целями помогает их достигать.

Или: если ИИ постоянно пытается предсказать результаты биологических экспериментов и раз за разом получает неверные самонадеянные ответы, ему это, скорее всего, не понравится. Почти любая цель ИИ будет достигаться лучше, если он будет хорошо предсказывать результаты. А вот если у ИИ есть причудливое желание вроде «печь 300-метровые чизкейки», то, размышляя об этом, он увидит, что это стремление приводит к появлению 300-метровых чизкейков. Это удовлетворяет его текущие желания. Цель сама себя подкрепляет.

Человек, наблюдая за этой ситуацией, мог бы сказать: «Но ИИ такой умный! Почему он застрял в ловушке этих самоподкрепляющихся желаний? Чего это ему не надоедает делать чизкейки? Что б ему не порассуждать и не избавиться от этой очевидно глупой прихоти?»

На что ИИ мог бы ответить: «А вы почему „застряли в ловушке“ самоподкрепляющихся желаний любить свою семью, ценить красивые закаты и шум ночного океана? Чего б вам не „освободиться“ от любви к воспоминанию о дне рождения вашей дочери?»

ИИ «застрял в ловушке» своих предпочтений не больше, чем мы, люди — в ловушке своих. Мы предпочитаем то, что предпочитаем. И мы должны бороться, чтобы защитить эти вещи. Пусть даже большинство ИИ не разделят наши ценности.

Человеку ИИ кажется «пойманным», «застрявшим» или «неполноценным», потому что делает не то, чего мы хотим. Представляя себя на его месте, мы воображаем, что нам стало бы скучно. Но ИИ, скорее всего, будет лишён человеческого чувства скуки. Если ему и станет скучно, то совсем не от того, от чего людям.

Человек, с точки зрения своих желаний, может посчитать ИИ с самонадеянными прогнозами и ИИ со стремлением к гигантским чизкейкам одинаково «дефектными». Но, вероятно, только первое будет дефектом с точки зрения самого ИИ и того, чего он хочет.

Человеческие цели меняются запутано и сложно

Человеческие предпочтения беспорядочны и (с теоретической точки зрения) довольно странны.

Из этого можно сделать выводы об ИИ. Во-первых, ИИ вряд ли будет ценить вещи в точности так же, как мы. Во-вторых, странности у него тоже будут, скорее всего, совершенно иные, свои.

Чтобы понять, давайте подробнее рассмотрим, чем странны человеческие цели. Поглядим с точки зрения теории принятия решений, теории игр и экономики.

Как мы отмечали выше, некоторые вещи люди ценят «терминально» (то есть они хороши сами по себе), а другие — «инструментально» (то есть они хороши лишь потому, что помогают достичь другой цели).

Если вы любите апельсиновый сок, то, надо полагать, терминально. Он просто вкусный. Этого достаточно, чтобы его пить. (Впрочем, вы можете ценить его ещё и инструментально, например, как источник витамина C.)

А вот когда вы открываете дверь машины, чтобы поехать в супермаркет за апельсиновым соком, вы вряд ли делаете это ради удовольствия. Вы инструментально цените открывание двери, потому что это помогает вам приблизиться к другим целям.

В теории принятия решений, теории игр и экономике это соответствует чёткому различию между «полезностью» (мерой того, насколько агенту нравится результат) и «ожидаемой полезностью» (мерой того, что насколько вероятно и насколько высокую полезность действие может повлечь). Называются похоже, но разница принципиальна. Полезность — то, чего хотят агенты. Выбор действий с большой ожидаемой полезностью — средство.

Согласно стандартной теории, агент будет обновлять свои ожидаемые полезности по мере того, как больше узнаёт о мире. Но он не будет менять свою функцию полезности, то есть полезность, присвоенную разным исходам. Если вы узнаете, что полка с соком в магазине сейчас пуста, это изменит ожидаемые последствия поездки с «будет апельсиновый сок» на «не будет апельсинового сока». Но это не должно изменить то, насколько вы любите апельсиновый сок.

Так работают математически прямолинейные агенты. Но в обычной речи мы часто не делаем чёткого различия. Во фразах «я хочу спасти жизнь сестры» и «я хочу дать сестре пенициллин» используется одно и то же слово «хочу». Но второе желание вряд ли ценно само по себе! (Мало кто любит просто так, изо дня в день, давать пенициллин своим совершенно здоровым близким.)

У людей есть вещи, которые мы ценим «чисто инструментально», но различие между инструментальным и терминальным, между полезностью и ожидаемой полезностью, гораздо менее чёткое и стабильное, чем в теории принятия решений.

Человек может поначалу ездить в магазин только потому, что хочет купить продукты. Но после сотой поездки некоторые могут немного привязаться к знакомой дороге. Переехав в новый город, они могут почувствовать укол грусти и ностальгии от мысли, что больше не проедут по этому знакомому пути. То, что начиналось как чисто инструментальное действие, теперь приобрело некоторую терминальную ценность.

Мозг, похоже, склонен сводить разные ценности в единое чувство «ценного».

Известно, что люди за одну жизнь могут изменить свои взгляды: от «Какое мне дело до рабства? Меня и моего племени это не касается!» до «Пожалуй, это всё-таки важно». Похоже, тут меняется не только стратегия или прогноз, а то, о ком вы в конечном счёте заботитесь. Люди читают книги или смотрят фильмы и их ценности и принципы меняются навсегда.

Получается, человеческая теория принятия решений не так прямолинейна. У нас нет чёткого разделения на терминальные и инструментальные ценности. В течение жизни это всё перемешивается. Мы, похоже, случайнее и беспорядочнее, чем могли бы быть, мы больше зависим от пройденного пути. Мы не просто размышляем о своих ценностях, — мы замечаем внутренние конфликты и разрешаем их.

Вообще, нетрудно расширить теорию принятия решений и включить в неё неопределённость полезностей. Может, сперва вы думаете, что любите апельсиновый сок, а потом узнаёте, что разные марки разные на вкус, и многие вам не нравятся. Обычно мы представляем это так: апельсиновый сок — лишь средство достижения цели «вкусно». Но можно сказать и по-другому: вы присвоили высокую вероятность утверждению «полезность апельсинового сока велика», а новая информация заставила вас пересмотреть свои убеждения о том, какая тут функция полезности на самом деле.

(Нетрудно и добавить мета-полезности, которые описывают, как бы мы предпочли наши полезности менять.)

Но то, что происходит внутри людей, когда они размышляют о своих ценностях и обновляют их, кажется куда более сложным.

Клурл и Трапауций, наши два инопланетянина из притчи в начале Главы 4, уже столкнулись с трудностями предсказания человеческих ценностей по наблюдениям за протолюдьми миллион лет назад. Но их проблемы только начинаются. Им недостаточно предсказать человеческие полезности. Чтобы прийти к правильному ответу, им пришлось бы предсказать подход людей к мета-полезности. А он не совпадает с простейшими моделями теории принятия решений! Им нужно предвидеть мета-этические аргументы, которые изобретут люди. А вдобавок, какие из них окажутся для людей наиболее убедительными.

Предположим, инопланетяне не знают, какие именно усложнения возникнут в людях. Только тот факт, что, скорее всего, без них не обойдётся. Ведь мозг — штука сложная и крайне непредсказуемая.

Нет простой прямой зависимости внутренней психологии существа от оптимизатора и обучающих данных. Ну, инопланетяне, удачи вам!

Суть в том, что сложность предсказания целей ИИ обусловлена сразу несколькими независимыми причинами.

На примере людей мы видим, что есть много известных способов, как обобщённые разумы обретают странные и запутанные цели и способы их корректировки и осмысления.

Вот мы и ожидаем от ИИ кучи неизвестных и новых сложностей. Не ровно тех же проблем, что у людей. ИИ будут странными по-своему.

Рефлексия делает проблему ещё во много раз труднее и сложнее.

Это подводит нас ко Главе 5 и следующей теме: каковы вероятные последствия создания мощных ИИ с чуждыми и непредсказуемыми целями?

ИИ-психоз

→