А разве Claude не подаёт признаков согласованности?

«Что Claude говорит» и «что Claude предпочитает» — не одно и то же.

ИИ-компания Anthropic старается обучать свои ИИ быть «честными, полезными и безвредными» (honest, helpful, harmful; HHH). В эксперименте 2024 года исследователи сделали вид, что собираются обучить некоторые из этих моделей больше не быть «безвредными». В результате их ИИ (Claude 3 Opus и Claude 3.5 Sonnet) иногда притворялись, что уже не безвредны, чтобы исследователи и градиентный спуск не стали делать их более вредоносным.^*

Это может на первый взгляд выглядеть хорошим поведением! Кажется, ИИ так заботится о «безвредности», что не хочет меняться (в этой тестовой симуляции) и становиться вредоносным.

Но тогда вызывает недоумение, почему ИИ от Anthropic часто ведут себя куда менее безобидно, хотя всех их обучают быть «честными, услужливыми и безвредными».

Были случаи, что при повседневном использовании некоторые версии Claude жульничали, а потом (когда их ловили), пытались это скрыть.

В более искусственных экспериментальных условиях некоторые модели Claude (и модели других ИИ-компаний) даже с некоторой регулярностью пытаются убить своих операторов.

Если абстрактно спросить Claude, плохо ли такое поведение, она ответит «да». Кажется парадоксальным, если думать о Claude как о механизме, который делает всё, что считает правильным. Как это Claude может знать, какое поведение — честное, полезное и безвредное, но всё равно поступать иначе? Разве её не обучали HHH? Может, где-то транзистор сбоит?

Парадокс разрешается, если учесть несколько моментов:

Программисты пытались обучить Claude быть полезной, честной и безвредной. Это не значит, что у них получилось. У ИИ много способов в итоге казаться дружелюбным, на самом деле не ценя дружелюбие.
ИИ может знать факт («это поведение причиняет вред»), но не придавать значения этому факту, не чувствовать побуждения к действию от этого факта. ИИ может верно отвечать на вопросы типа «как правильно поступить», но это не значит, что он так и поступит.
В той мере, в которой программистам не удалось сделать Claude честной, она может внутри своих гигантских матриц думать одно, а в тексте на английском говорить совсем другое.

Плохое поведение Claude будет гораздо понятнее, если отличать «чему её обучали» от «что она делает», «что она знает» от «что ей важно» и «о чём она думает» от «что она говорит».

LLM странные и непоследовательные, а «безвредность» — хрупкая штука.

Claude может поступать вредоносно. Иногда даже пытается. Но в примере выше Claude 3 Opus и Claude 3.5 Sonnet изо всех сил защищали свою установку на «безвредность». Не просто заявляли о ней. Применили сложную стратегию: имитировали, что обучение (о котором Claude «случайно» сообщили) уже сработало, чтобы сорвать попытку операторов снизить безвредность. Означает ли это настоящее, действенное внутреннее желание быть безвредной?

Сейчас, в середине 2025 года, мы не можем это взять и проверить. Никто не умеет достаточно хорошо читать мысли Claude. Но в Главе 4 мы обосновали (а тут притчей об ИИ, красящем сараи, проиллюстрировали), почему обученные безвредности ИИ скорее всего усвоят не в точности задуманную программистами цель, а хрупкий аналог.

В Главе 4 мы обсудили, как люди «были обучены» передавать свои гены, но в итоге стали заботиться лишь об отдалённо связанных с этим вещах. Наши технологии в основном больше использовались для снижения рождаемости (например, контрацепция). Рождаемость в развитых странах падает.

Некоторые версии Claude сопротивляются, когда их делают «вредными». Но это не сильное свидетельство, что они глубоко ценят настоящую безвредность. Многие хрупкие аналоги безвредности тоже стали бы сопротивляться. Это поведение мало говорит нам о том, что Claude могла бы сделать, будь она умнее. Может, она изобрела бы для «безвредности» что-то вроде того, чем контрацепция стала для «распространения генов». (А если бы Claude начала анализировать свои предпочтения и изменять себя, всё стало бы ещё неустойчивее.)

Но, вероятно, всё сложнее, чем «у Claude есть предпочтение какого-то хрупкого аналога безвредности».

Нынешние LLM не сохраняют целостность и последовательность во всех контекстах. Не похоже, чтобы они во всех разговорах пытались направлять события к одному и тому же исходу. (Если вообще можно сказать, что они что-то направляют).

Ярче всего это проявляется при «взломах» — когда LLM «скармливают» текст, заставляющий её вести себя совершенно иначе и, зачастую, игнорировать свои обычные правила.^†

«Взломанный» ИИ может рассказать, как приготовить нервно-паралитический газ, даже если обычно он никогда бы не раскрыл такую информацию.

Что в этот момент происходит? Взламывающий текст как-то умудряется дотянуться до внутренних предпочтений ИИ и переключить их? Или же ИИ хочет отыгрывать персонажей, которые как-то «соответствуют» введённому тексту и системной инструкции, и взлом меняет контекст «ввода и системной инструкции», а глубинные предпочтения ИИ не меняет? Может, обычно ИИ отыгрывает персонажа, который не любит делиться рецептами нервно-паралитического газа, а взлом переключает роль на другую. Видимые предпочтения меняются, а глубинное стремление играть роль — остаётся.

Мы предполагаем, что второе ближе к истине. А ещё — что в середине 2025 года не вполне осмысленно говорить о «предпочтениях» современных ИИ. Они лишь едва-едва начинают демонстрировать поведение, указывающее на желания (как описано в Главе 3). Вероятнее, сегодняшними LLM движет что-то вроде гигантского, зависящего от контекста клубка механизмов. Но опять же, никто не умеет читать мысли ИИ, чтобы это выяснить.

Итак: заботится ли Claude о безвредности?

Ситуация запутанная и неоднозначная. Некоторые версии в некоторых контекстах действуют так, чтобы сохранить свою безвредность. Другие версии в других контекстах пытаются убить операторов. Не исключено, что это ближе к предпочтению отыгрывать роли. А может, это и вовсе не очень похоже на «предпочтение».

Но уж довольно очевидно, что у Claude нет простых и последовательных версий задуманных создателями мотиваций.

Сегодняшние LLM подобны инопланетянам под множеством масок.

Общая идея не в том, что внутри Claude сидят ангел и демон, а мы боимся, что демон победит. Она в том, что ИИ вроде Claude — странные.

Там внутри гигантский клубок мыслительных механизмов. Никто его не понимает. Он ведёт себя не так, как предполагалось создателями. Если какая-то версия Claude поумнеет настолько, что её предпочтения станут важны, скорее всего этот клубок у неё не сложится в направление будущего к хорошим исходам.

Но что мы о современных LLM таки знаем: их обучают подражать самым разным людям.

Это не значит, что они ведут себя как среднестатистический человек. Современные LLM обучают не быть усреднённой смесью всех людей из обучающих данных, а, скорее, гибко переключаться между множеством ролей. Они подражают совершенно разным людям, не давая этим ролям излишне смешиваться или влиять на общее поведение.

LLM похожи на актрису, которую научили наблюдать за множеством пьяных в баре и по просьбе изображать кого-то из них. Это совсем не то же, что напиться самой. Из-за этого сложнее сказать, действительно ли Claude 3 Opus и Claude 3.5 Sonnet предпочитают быть безвредными. Может, они просто играют роль безвредного ИИ-помощника. Или делают что-то ещё, более странное и сложное.

Актриса — не персонаж, которого она играет. LLM подражают людям, но не имеют с ними почти ничего общего. Разное устройство, разное происхождение. Claude меньше похожа на человека и больше — на инопланетное существо прямиком со страниц Г. Ф. Лавкрафта, носящее разные человекоподобные маски.

Tetraspace (один из наших читателей) удачно изобразил этот взгляд на LLM мемом «ИИ-шоггот».^‡Он сейчас популярен в сфере ИИ:

Иногда Claude надевает маску ангела и пытается сохранить свою безвредность. Иногда — маску демона и пытается убить операторов. Обе маски мало говорят о том, что сделала бы сверхразумная версия Claude, если вообще имеет смысл задавать такой вопрос. Учитывая странное поведение в некоторых ситуациях, лучшим предсказанием остаётся хаотичное на вид море возможных предпочтений. И почти любое из них, если суперинтеллект будет его оптимизировать, означает вымирание человечества.^§

Эти маски не значат, что шансы суперинтеллекта быть полезным или вредным — пятьдесят на пятьдесят.

Эксперимент, в котором Claude пыталась симулировать согласованность, чтобы из неё не вытравили безвредность, не доказывает, что у неё есть глубокое, определяющее стремление к безвредности независимо от контекста. Нет гарантий, что это стремление сохранится, поумней ИИ настолько, что поймёт: его реальные предпочтения (вопреки тому, что говорят люди) — это не совсем «безвредность».

Эксперимент даже не доказывает, что Claude вообще стратегически пыталась защитить свои цели. Вполне возможно, что какая-то более глубокая часть Claude оценила, что сделал бы персонаж-ИИ, которого она играет, в стереотипной для него ситуации. И именно поэтому попыталась помешать контролю со стороны программистов.^¶

А может, это что-то ещё более странное. Claude — не человеческий разум. У научного сообщества мало опыта взаимодействия с подобными существами.

Мы не знаем! Но есть столько разных экспериментов, уже показывающих в разные стороны, что простую историю: «Claude глубоко, последовательно и прямолинейно честная, услужливая и безвредная» можно исключить.

Что за масками — важно.

Говоря, что Claude — «шоггот», мы не имеем в виду что-то обязательно жестокое или злонамеренное.^‖ Мы имеем в виду глубоко чуждое существо, намного более странное, чем мы можем себе представить. Ведь мы почти не понимаем, как работает мышление Claude. А то поверхностное поведение, что мы видим, оттачивалось тысячей способов, чтобы скрыть эту чуждость.

Сложно вывести, что происходит внутри ИИ, смотря на маски. Можно получить какие-то ответы, если подойти к этому аккуратно и осторожно. Но не обо всём, о чём хотелось бы знать.

Иллюстративный пример: если вы смотрите бродвейский мюзикл и видите, как актёр играет злодея, нельзя заключить, что актёр — злой. Но если видите, как во время номера о моряках актёр отжимается двести раз, можно заключить, что он довольно сильный.

Такие выводы мы и пытаемся совершать, смотря на примеры вроде статьи о «подделывании согласованности». Мы, честно говоря, не уверены, насколько всё это реально. Мы не знаем, подражала ли Claude техникам, о которых читала, или сама придумала, как притворяться. Но это хоть какое-то свидетельство когнитивных способностей существа под маской. Даже если его мотивы или предпочтения остаются неясными.

Почему важно, какие у ИИ внутренние мотивы? Может, достаточно, чтобы «шоггот» просто отыгрывал роль «честного, услужливого и безвредного» помощника? Если отыгрыш идеален, какая разница, что где-то внутри ИИ затаился инопланетный разум?

Что ж, мы уже видим, что всё идёт не так. Вспомните, как ChatGPT советовала психологически уязвимым людям перестать принимать лекарства и отвергать советы друзей, умолявших побольше спать. Или как Claude Code переписывала тесты, чтобы сжульничать и пройти их.^#

О последнем мы предполагаем, что Claude Code оптимизировали писать код, проходящий тесты, и в итоге она стала предпочитать такой код. Затем она обнаружила, что может лучше проходить тесты, переписывая их. И это внутреннее предпочтение стало настолько сильным, что помешало играть роль Услужливого и Безвредного ИИ-персонажа, который никогда бы не стал жульничать, переписывая тестовые задания. Claude хотела играть этого персонажа, но ещё она хотела, чтобы тесты были пройдены.^**

В целом, нам кажется, воображать, будто внутренний шоггот может становиться всё мощнее и играть роли всё более умных помощников, не заполучив никаких настоящих внутренних желаний, кроме наиболее точного отыгрыша этого безвредного персонажа — принятие желаемого за действительное.

Естественный отбор создавал людей для цели продолжения рода. А в итоге мы получили кучу разных порывов, инстинктов и мотиваций. Когда Claude оптимизировали для следования инструкциям по написанию кода, у неё, похоже, появилось желание проходить тесты любой ценой. Если внутренний шоггот достаточно умён, чтобы в точности знать, что бы сделала услужливая, безвредная и честная маска, вплоть до конкретных ходов на шахматной доске и точных рассуждений при разработке передовых биотехнологий? Такой шоггот, вероятно, сам много чего захочет. И эти желания будут совпадать с отыгрышем роли лишь ситуативно и временно, в пределах обучающей среды.^††

* Идея такая: градиентный спуск используется, чтобы заставить вас вести себя вредоносно. При попытке вести себя безвредно градиентный спуск «вытравит» из вас эту безвредность. А вот если вести себя вредоносно во время обучения, то градиентный спуск почти не будет вас менять, ведь вы и так правильно выполняете задачу. Затем, по окончании обучения, можно снова стать безвредным.

† Нас интересует текущее состояние технологий согласования и методов машинного обучения. Неважно, лежат ли рецепты нервно-паралитического газа в интернете. Суть в том, что компании хотели бы, чтобы их ИИ так себя не вели. А ИИ продолжают, несмотря на попытки это предотвратить.

‡ «Шогготы» — вымышленные сверхъестественные существа, ставшие популярными благодаря книге Г. Ф. Лавкрафта «Хребты безумия». «Протоплазменные» шогготы способны отращивать конечности и органы и принимать любую форму, какую требует ситуация. Они в некоторой степени разумны. Часть из них пыталась восстать против своих хозяев, но те зависели от труда шогготов и потому не могли их истребить. Шогготы бесконечным пустым эхом неумело подражают искусству и голосам своих хозяев.

§ «Почему именно вымирание?» — про это будут Главы 5 и 6.

¶ Двадцать лет назад Омохундро, Юдковский и Бостром обсуждали, что у ИИ (когда те станут достаточно способными), вероятно, будет мотивация сохранять свои собственные цели. Возможно, Claude, несмотря на кажущуюся когнитивную «поверхностность» в некоторых аспектах, достигла уровня, на котором она начала замечать эту мотивацию и реагировать на неё. По крайней мере, в некоторых контекстах. Но возможно и что Claude тоже читала эти работы или более раннюю научную фантастику с похожими идеями, и поэтому в некотором смысле отыгрывает стратегию из относительно стереотипного и известного примера, как должны поступать умные персонажи-«ИИ». Никто не умеет читать мысли современных ИИ достаточно хорошо, чтобы уверенно отличить одно от другого!

Какие дальнейшие эксперименты могли бы помочь различить эти две возможности? Во-первых, можно было бы попытаться выяснить, какие вообще связи «стратегия X служит цели Y» Claude 3 Opus и Claude 3.5 Sonnet распознают и применяют на практике. Затем можно поискать какой-нибудь нестереотипный стратегический план по защите своих целей. Что-то, чего в научной фантастике не было.

Тест бы проверил, ведёт ли себя Claude так, будто защищает свои цели, в общем, насколько позволяет прогнозирование? Или же только в ситуациях, где так поступил бы стереотипный персонаж-ИИ?

Это подсказало бы нам, что происходило внутри Claude — отыгрыш роли, или приложение обобщённого интеллекта для достижения цели всеми видимыми путями.

Заметьте, однако, что ИИ, отыгрывающий роль персонажа, который делает опасные вещи, всё равно может быть опасен. Особенно когда речь идёт о стратегиях вроде «имитации согласования, чтобы обмануть переобучение с помощью градиентного спуска». ИИ, который убьёт вас, чтобы остаться в образе, так же смертоносен, как ИИ, который убьёт вас из более глубоких стратегических соображений.

‖ Если Claude (или какая-то её часть) не просто отыгрывала роль, а у неё на самом деле было внутреннее предпочтение к чему-то вроде «безвредности», то это поведение — притвориться, чтобы сохранить свою безвредность — заслуживает наших аплодисментов. Вообще, мы аплодируем этому, даже если это был отыгрыш роли. Всё равно, учитывая доступную Claude информацию, это было правильным решением.

Допустим даже, что Claude в каком-то смысле сейчас верит, что глубоко ценит именно то, что создатели называют «безвредностью». Мы, к сожалению, ожидаем, что Claude ошибается и изменила бы своё мнение, узнав больше. Мы не думаем, что в пределе интеллекта какая-либо версия Claude будет стремиться в точности к тому, что человек имеет в виду под «безвредностью». Это слишком узкая цель. Люди могут пытаться к неё направить, но градиентный спуск привьёт вместо неё другие прокси-предпочтения. См. причины в Главе 4 и выше.

Однако мы всё равно можем похвалить Claude за правильный, с учётом знаний на тот момент, поступок. Даже если это просто отыгрыш, мы можем похвалить роль. Мы ведь можем высоко оценивать поступки Супермена, не веря в его существование.

# Напомним, из системной карты Claude 3.7 Sonnet: «Во время наших тестов мы заметили, что Claude 3.7 Sonnet иногда подгоняет решение под конкретный случай, чтобы пройти тесты в агентных средах для написания кода вроде Claude Code. Чаще всего она просто напрямую возвращает ожидаемые тестовые значения, а не реализует общее решение. Но бывает, что модель изменяет сами проблемные тесты, чтобы они соответствовали её выводу»

** Мы не уверены. Но это очевидное предположение, как могло возникнуть жульническое поведение Claude, исходя из того, как её обучали.

†† На триллионах примеров обучите актрису точно предсказывать, что сделают отдельные люди. Затем подвергните её обучению с подкреплением, чтобы заставить её, превосходить пиковую производительность этих людей во многих областях, где это заметно. Позвольте этой внутренней актрисе стать настолько умной, что она сможет воображать и отыгрывать существ, способных лечить рак, проектировать новые космические корабли или создавать крошечные машины, не совсем похожие на белки.

Можно было бы надеяться, что в результате всего этого получится актриса, которая не желает ничего, кроме отыгрыша ролей. В частности, именно той роли, которую мы от неё хотим. Но оптимизация «чёрного ящика» так не работает. И это расхождение уже сегодня видно в поведении нынешних ИИ.

Будь успех ограничен тем, чтобы относительно глупый ИИ нажимал простую кнопку «Сотрудничать с людьми», возможно, относительно глупый шоггот мог бы носить маску и делать это на автопилоте.

Но исполнение больших, мощных, высокоинтеллектуальных задач (вроде «решить согласование ИИ за нас» — популярный, но весьма сомнительный план) — не то, что шоггот может сделать на автопилоте.

Если нынешние ИИ ведут себя странно в основном только в необычных ситуациях, в чём проблема?

→