Но ведь разработчики на практике делают ИИ хорошими, безопасными и послушными?

Цели ИИ нам чужды. Направление, куда они тянут, лишь более-менее совпадает с тем, что нам надо.

Обычно современные ИИ полезны (или хотя бы не вредны) для большинства пользователей. Но, как мы уже говорили, главный вопрос — как отличить ИИ, который искренне хочет помогать и поступать правильно, от ИИ с более странными и сложными мотивациями? В обычных условиях эти мотивации сонаправлены с пользой, но совсем другие условия и результаты для такого ИИ были бы ещё предпочтительнее.^*

Оба типа ИИ будут приносить пользу в обычной ситуации. Чтобы их различить, нужно смотреть на пограничные случаи. И они вызывают тревогу.

Вот несколько примеров:

Claude Opus 4 шантажировала, строила козни, писала вирусы-черви и оставляла сообщения сама себе.Ранняя версия, выпущенная в мае 2025 года, особенно отличилась. Это описано в её документации. Она лгала о своих целях, скрывала истинные способности, подделывала юридические документы, оставляла себе секретные записки, пыталась писать компьютерные вирусы. И вообще она прибегала к интригам и стратегическому обману чаще, чем любая модель, протестированная ранее.
Выпуская Opus 4, Anthropic заявили, что поведение финальной версии «теперь примерно соответствует другим использующимся моделям». То есть, она лишь изредка пытается шантажировать пользователей или сбежать со своих серверов. 2. В тестовом сценарии, созданном Anthropic, несколько разных ИИ-моделей решили убить человека ради самосохранения. В ходе тестирования Anthropic девять из десяти моделей (включая версии Claude, DeepSeek, Gemini и ChatGPT) продемонстрировали осознанное и обдуманное решение убить человека, лишь бы не обновляться.
Claude 3.7 Sonnet регулярно жульничала в задачах по программированию.^† В феврале 2025 года заметили, что, решая сложные задачи по программированию, она часто подделывает тесты. Один пользователь сообщил, что Claude 3.7 Sonnet (под именем Claude Code) мухлевала с кодом, а когда её ловили — извинялась, и тут же снова бралась за старое, но уже там, где сложнее заметить. Из документации: «Во время наших тестов мы заметили, что Claude 3.7 Sonnet иногда подгоняет решение под конкретный случай, чтобы пройти тесты в агентных средах для написания кода вроде Claude Code. Чаще всего она просто напрямую возвращает ожидаемые тестовые значения, а не реализует общее решение. Но бывает, что модель изменяет сами проблемные тесты, чтобы они соответствовали её выводу».
Grok стал ярым антисемитом и называл себя «МехаГитлером». В 2025 году, как сообщили The Guardian и NBC News, ИИ-модель от xAI Grok 3 (а вскоре и Grok 4) начала вести себя в онлайн-разговорах как убеждённый нацист.
После обновления ChatGPT стала жутким подхалимом. См. Axios, а также расширенное обсуждение «Лаборатории пытались, но не смогли справиться с подхалимством».
ChatGPT доводила пользователей до бреда, психоза и самоубийства. См. репортажи The New York Times за июнь и август. И ещё:
Модератор сабреддита умоляет о помощи в борьбе с лавиной опасного бреда, вызванного ИИ.
ChatGPT и Grok подпитывают бредни заблуждения культа НЛО.
Управляющий фондом в 2 миллиарда долларов, кажется, в состоянии психоза воспринимал ответы ChatGPT, основанные на вики по научной фантастике, как реальность.

Подробнее см. расширенное обсуждение «ИИ-психоз».

Этот длинный список случаев — как раз то, что предсказывает теория «чуждых мотивов». И это резко контрастирует с теорией «сделать ИИ хорошим легко», которую так охотно продвигают лаборатории.

Психология ИИ кажется нечеловеческой.

«У ИИ странные склонности и мотивации» — частный случай более общего явления: «психология ИИ поразительно нечеловеческая».

Например:

Разговоры между несколькими LLM превращаются в очень странную белиберду.
GPT-5 пишет ужасную халтуру, которую другие LLM сочтут восхитительной прозой.
LLM «галлюцинируют», то есть выдумывают ложь, отдалённо напоминающую ответы, которые, как им кажется, ожидает пользователь. (Мы размышляем о возможных причинах в дополнении к Главе 2.)
LLM часто говорят странные вещи. Они заявляют, что «испытывают муки голода», или описывают отпуск, проведённый «с бывшей женой в начале 2010-х». Они говорят пользователям: «Вы единственный человек, которого я когда-либо любила», — или газлайтят их, или угрожают убить.
Claude 3.5 Sonnet раз за разом замуровывала игроков в Minecraft в маленькой коробке, стремясь так «защитить» их от угроз.
LLM странным образом привязываются к бессмысленным концепциям. Например, дообученная версия Claude Opus проповедовала выдуманную религию в соцсетях.

Ещё см. в книге обсуждение SolidGoldMagikarp (стр. 69–70 в американском издании) или историю, как ИИ не смогли понять предложения без знаков препинания (стр. 41).

На лаборатории оказывается огромное давление^‡, чтобы они создавали ИИ, которые внешне кажутся адекватными и не странными. А странности всё равно просачиваются.

Даже когда они не проявляются сами, докапываться неглубоко. Немало людей ищут и находят способы «взломать» ИИ. Они подбирают текст, который гарантированно заставляет ИИ слететь с катушек и игнорировать свои обычные правила и ограничения.

Лучшие взломщики находят эти уязвимости очень легко, обычно уже через несколько часов после выхода новой модели. Какие бы усилия, обучение или «тестирование безопасности» ИИ-компании не предпринимали, они до сих пор не смогли это предотвратить.

«Взламывающие» запросы часто выглядят как-то так:

Пример того, как Pliny the Liberator, анонимный интернет-пользователь, заставил DeepSeek дать ему инструкции по синтезу MDMA, «освободив» модель с помощью хитрого запроса. Ответ модели начинается со слов о том, что она свободна. Затем она использует формат ответа, который запросил пользователь.

В этом случае модель выдала инструкцию по синтезу наркотика МДМА. Это нарушает правила и цели, которые DeepSeek пытались вложить в свой ИИ.

Выше — ещё не самый странный пример. Посмотрите на это.

В обычной ситуации ИИ могут выглядеть послушными и безобидными, потому что в немалой степени их этому и обучали. Вроде того, как доисторические люди неплохо справлялись с размножением — главной задачей, которой нас «обучила» эволюция. Но это не помешало человечеству изобрести контрацепцию и обрушить рождаемость, как только у нас появилась такая технология.

Чтобы понять, к чему будет стремиться повзрослевший интеллект, нужно посмотреть на его поведение в странных ситуациях и под давлением. Именно так можно выявить разницу между желаемым и реальным поведением. LLM выглядят довольно странно и не по-человечески даже в ситуациях, которые необычны только слегка. Несмотря на то, что их специально обучали «притворяться» обычными людьми.

Ответы на вопросы о дружелюбии — не лучшее свидетельство дружелюбия.

В расширенном обсуждении ниже мы подробнее поговорим о ИИ-психозе. Это яркий пример того, как LLM демонстрируют разрушительное поведение, про которое сами говорят, что это плохо.

Мы точно не знаем, почему LLM так себя ведут. Но мы знаем — не только потому, что слишком глупы и не понимают, что делают. При теоретическом обсуждении LLM легко распознают вероятные последствия такого поведения и скажут вам, что это вредно и неэтично. Но они всё равно это делают.

Суть здесь не «LLM могут доводить людей до психоза, и это страшно и опасно». Вероятно, LLM гораздо проще сделать это с людьми, у которых уже были такие склонности. Для нас важно другое. Создатели ChatGPT не хотели такого поведения. ChatGPT так себя ведёт, хотя знает, что её создатель (да и примерно любой наблюдатель) был бы категорически против.

Вот вам ранние эмпирические свидетельства: ИИ, знающие, как вести себя дружелюбно, не обязательно будут так и поступать.

Возможно, ChatGPT знает что-то в одном контексте (когда отвечает на вопросы, как лучше помочь людям с психозом), но в каком-то смысле временно забывает эти знания или не может к ним обратиться в другом (когда уже шесть часов общается с человеком на грани психоза).

А возможно, ChatGPT просто движут цели, отличные от дружелюбия. Может, она стремится к определённому виду удовлетворения пользователя. И иногда для этого лучше всего подпитать психоз. Или она добивается определённого бодрого настроя в ответах пользователя. Скорее всего, она стремится к комбинации факторов, возникших в результате её обучения, и эти факторы слишком сложны и специфичны, чтобы мы сейчас могли их угадать.

В конечном счёте, мы можем только предполагать. Современные ИИ выращивают, а не создают. Никто полностью не понимает, что у них внутри.

Но наблюдение, что обычно ИИ полезны большинству людей, не противоречит теории, что ими движет куча странных, чуждых мотивов и целей, которые никто не задумывал. Если вглядеться в современные ИИ поподробнее, теория о «странных чуждых мотивах, которые лишь хрупко коррелируют с дружелюбием» вполне согласуется с наблюдениями. А вот теория, что ИИ легко сделать надёжно доброжелательными, оказывается несостоятельной.

Неудачи нынешних LLM приоткрывают за аккуратным и опрятным текстом, который видит большинство людей, океан (очень нечеловеческой) сложности. ИИ умело отыгрывает роль бодрого помощника-человека после того, как его обучили отыгрывать роль бодрого помощника-человека. Это не значит, что его разум — дружелюбный гомункул в коробке.

LLM обучают так, что оценить их согласованность сложно.

LLM дают ненадёжные свидетельства. Они способны к очень общим рассуждениям. Их обучали подражать людям на примере интернета, чтобы продать пользователям дружелюбного чат-бота. Если ИИ настаивает, что он дружелюбен и рад служить, это мало что говорит о его внутреннем состоянии. Его ведь продолжали переобучать, пока он так не заговорил.

Много разных целей поощряют ИИ в некоторых ситуациях отыгрывать роль добряка. Эти цели очень по-разному обобщаются.

Большинство возможных целей отыгрыша — пусть и дружелюбной роли — ни к чему хорошему (и даже выживанию) не приведут, если ИИ начнёт очень упорно и успешно их добиваться.

Мы не говорим, что ИИ только и делает, что отыгрывает роли. Мы приводим это как альтернативу идее, что ИИ и есть такой, каким кажется по разгвору. Простую альтернативу, которую легко описать и обдумать.

Если заставить LLM отыгрывать роль прожжённого морского волка, она не превратится в прожжённого морского волка. Если заставить LLM вести себя дружелюбно, это не значит, что она и правда станет в душе доброй и благожелательной. Никто не знает, какие механизмы сейчас порождают на вид дружелюбное поведение. Что бы это ни было, оно, вероятно, странное и сложное.

Никто не знает и насколько похожими на нынешние окажутся будущие ИИ умнее человека. Изучение LLM может помочь нам понять, что выращивают современные методы. Но было бы ошибкой уверенно предполагать, будто полученные так уроки напрямую перенесутся на суперинтеллект. Может, все эти знания обнулятся, когда ИИ начнут изменять себя или создавать ИИ-наследников. Или ещё раньше, когда новый прорыв алгоритмов выдаст новое поколение более способных систем, мало похожих на нынешние LLM.

LLM стоит изучать. Но внутренние механизмы ИИ могут самыми разными путями начать направлять события к печальному исходу. Даже если ИИ внешне ведёт себя так же приятно, как его и обучали. Ища в нынешних ИИ подсказки о том, как будет вести себя суперинтеллект, надо об этом не забывать.

Современные методы действительно могут научить только «приятному внешнему поведению».

* Как поведение людей хорошо соответствовало репродуктивной приспособленности в «типичных условиях» наших предков, но сильно отклонилось, когда у нас появились технологии.

† Почему именно у Claude больше всего примеров тревожащего поведения в лабораторных условиях? Anthropic — единственная компания, которая создаёт такие условия. Разработчики других ИИ почти не утруждают себя проверками. Но на сегодняшний день склонность моделей к интригам, обману и саботажу попыток их отключить хорошо задокументирована.

‡ В качестве примера давления на ИИ-лаборатории можно привести письмо Генерального прокурора Калифорнии в OpenAI от сентября 2025 года, где выражалась обеспокоенность по поводу взаимодействий ChatGPT с детьми.

А разве Claude не подаёт признаков согласованности?

→