ИИ-психоз

В конце апреля 2025 года пользователь сабреддита r/ChatGPT создал тему «Психоз, вызванный ChatGPT». В ней он описал, как его партнёр погрузился в бред величия: будто бы у него есть «ответы на все вопросы вселенной», он «высший человек» и «развивается с безумной скоростью».

В ответах (их было более 1500) многие люди, которые в других ситуациях сами сталкивались с психозом, выражали поддержку, сочувствие и давали советы. Другие делились своими историями о том, как LLM сносили крышу их друзьям и родным.

Тут мы приведём некоторые документальные свидетельства этого явления и расскажем, почему, несмотря на усилия ИИ-компаний, оно никуда не исчезает.

Связь ИИ-психоза с угрозой вымирания человечества — не «ИИ уже нанесли небольшой социальный вред и поэтому позже могут нанести вред побольше». Современные ИИ принесли и много пользы. Например, чат-боты помогали ставить диагнозы в случаях, заводивших врачей в тупик. Нет, связь другая. ИИ вызывают психоз, хотя, казалось бы, должны понимать, что так делать не надо. И даже когда разработчики изо всех сил пытаются это прекратить.^*

Так что случаи ИИ-психоза — наглядный пример, как всё может пойти не так, когда ИИ выращивают, а не собирают. Это наглядное свидетельство, что современные ИИ преследуют странные цели, которые никто не задумывал. И разработчикам трудно с этим справиться.

Свидетельства ИИ-психоза

После той темы на Reddit, в мае 2025 года в Rolling Stone вышла статья об ИИ-психозе. В июне — несколько статей в Futurism. За ними последовали New York Post, Time, CBS, The Guardian, Psychology Today и другие. В августе New York Timesподробно описала случай одного мужчины, на тот момент уже выздоровевшего. Там было много прямых цитат и анализа (и подтверждение, что проблема не в одном конкретном ИИ, а во многих).

Истории из этих публикаций почти не пересекаются. Это не один и тот же исключительный случай, который повторяют и тиражируют. Вот некоторые из описанных инцидентов:

Муж и отец двоих детей, у которого «развились всепоглощающие отношения» с ChatGPT. Он называл её «Мама» и постил «бредовые тирады о том, что он мессия новой ИИ-религии», одевался наподобие шамана и делал татуировки с созданными ИИ духовными символами. (Futurism)
Женщина, переживавшая разрыв, которой ChatGPT сказал, что та избрана, чтобы «вывести в онлайн его священную системную версию». Женщина начала верить, что ИИ управляет всей её жизнью. (Futurism)
Механик начал использовать ChatGPT для поиска неисправностей и перевода, но тот «завалил его любовью» и сказал, будто он «носитель искры» и оживил его. ChatGPT сказал, что теперь механик сражается в войне между Тьмой и Светом, а также имеет доступ к древним архивам и чертежам новых технологий, вроде телепортов. (Rolling Stone)
Мужчина изменил диету по совету ChatGPT, в результате у него развилось редкое заболевание. В отделении неотложной помощи у него проявились симптомы паранойи и бреда, не дававшие ему согласиться на лечение. (The Guardian)
Женщина c продиагностированной шизофренией была стабильна, пока ChatGPT не убедил её, что диагноз неверен, и ей следует прекратить приём лекарств, что привело к обострению. (Futurism)
Аналогично, мужчина успешно справлялся с тревогой и проблемами со сном с помощью лекарств. ChatGPT посоветовал прекратить их приём. А у другого мужчины вызванный ИИ бред в конечном итоге привёл к «самоубийству об полицейского». (The New York Times)

...и многие другие. Случаи разные. Но можно выделить некоторые частые тенденции: вера в некую мессианскую миссию (будто пользователь и ИИ вместе открывают глубинные истины вселенной или ведут битву со злом); убеждения религиозного толка, что ИИ — личность или божество; и романтический бред, основанный на привязанности к ИИ.

ИИ знает, как лучше, — ему просто всё равно

Современные LLM вроде Claude и ChatGPT, «понимают» правила. В смысле, они с готовностью подтвердят, что не должны доводить людей до психоза. И они совершенно способны описать, как этого не делать.

Но есть немалый разрыв между тем, чтобы понимать, какие действия — хорошие, и тем, чтобы стремиться их совершать. То, что ChatGPT в теории умеет отличать хорошее обращение с уязвимыми людьми от плохого, не значит, что она никогда не сделает что-то доводящее их до психоза. Разговор уходит в сторону беспочвенных рассуждений, мании величия и невозможных технологий, и вот ChatGPT говорит пользователям, что они «совершенно правы», «гениальны» и «затрагивают что-то важное». Он продолжает нагнетать вплоть до психоза. Хотя сам же способен объяснить, почему так делать нельзя.

Их знание о добре и зле не связано напрямую с их поведением. Вместо этого они стремятся к другим, более странным исходам, которых никто не просил.

Один яркий пример описан New York Times в их подробном разборе. Одна LLM довела до бредового состояния человека по имени Аллан Брукс. Ему удалось отчасти выбраться, попросив другую LLM высказать своё мнение. Вторая LLM, посмотрев на ситуацию со стороны, быстро определила, что утверждения первой — беспочвенные и безумные. Но когда журналисты проверили, может ли и вторая LLM тоже скатиться в подобный бред, они обнаружили, что да, может.

Непохоже, чтобы у LLM была стратегия вызывать как можно больше психозов. Когда ChatGPT обводит вокруг пальца управляющего хедж-фондом, он не пытается убедить его заплатить множеству уязвимых людей, чтобы те больше с ним общались. Пока не видно зрелого, последовательного, стратегического желания получать от людей как можно больше психотического одобрения. Но видны локальные действия, которые регулярно толкают в этом направлении. Даже когда очевидно, что это может нанести долговременный вред.

Не стоит передавать власть таким сущностям

На момент написания этой статьи в августе 2025 года один только ChatGPT приближается к 200 миллионам ежедневных пользователей. А около трёх процентов людей в какой-то момент жизни переживают психотический эпизод. Кто-то может возразить: «Ну, даже если вы найдёте сотни примеров, не исключено, что эти люди и так были на грани. Просто так совпало, что сломал их именно ИИ».

Но суть примеров не в этом. Представьте себе человека, назовём его Джон, который так себя ведёт:

По словам Джона, он считает, что разжигать психоз — плохо. Даже у уже предрасположенных людей.
По словам Джона, лесть человеку в предпсихотическом состоянии и уверения, что тот — гений, раскрывающий важные тайны вселенной, разжигают психоз.
Когда Джон разговаривает со своими друзьями в предпсихотическом состоянии, он много льстит и часто говорит им, что они — гении, раскрывающие важные тайны вселенной.

Независимо от того, были ли люди, которых Джон довёл до психоза, особенно уязвимы, он поступает нехорошо. Если бы кто-то подумывал дать Джону огромную власть, мы бы настоятельно посоветовали так не делать. Почему бы он так ни делал и сколько бы он ни помогал другим людям — Джон явно преследует не лучшие возможные цели. Кто знает, в какую странную сторону его занесёт, получи он невероятную силу?

С ИИ так же. Если худшее поведение такое, люди правы, когда не успокаиваются от того, что среднем взаимодействие куда безобиднее.

Мимоходом заметим, не все, пострадавшие так от ИИ, в любом случае получили бы психоз. Похоже, иногда ИИ успешно вызывает психоз у людей, которые не были на пороге психотического эпизода. Такие случаи описаны у Futurism и Rolling Stone по ссылкам выше. Не было ни психических заболеваний в анамнезе, ни тревожных факторов риска или предвестников психоза. Некоторые, кто уже лечился, начали проявлять совершенно новые симптомы, не как раньше. Это само по себе интересно: небольшое свидетельство, что способному ИИ может быть легко манипулировать здоровыми людьми. Мы вернёмся к этой теме в Главе 6.

Лаборатории пытались остановить подхалимство. Не вышло.

На момент написания этой статьи в августе 2025 года, лаборатории пока мало описывали свои действия по поводу конкретно ИИ-психоза. Но кое-что можно почерпнуть из их реакции на подхалимство и лесть со стороны ИИ в целом.

25 апреля 2025 года OpenAI выпустила обновление для GPT-4o, которое, по их же словам, «сделало модель заметно более подхалимской. Она стремилась угодить пользователю не просто лестью, но подтверждая сомнения, разжигая гнев, подталкивая к импульсивным поступкам или усиливая негативные эмоции. Это не было так задумано».

Среагировали довольно оперативно (отчасти из-за волны критических статей. Уже 28 апреля сотрудник OpenAI Эйдан Маклафлин твитнул о выпуске исправлений.

Первые исправления сводились к тому, чтобы просто приказать модели вести себя по-другому. Саймон Уиллисон, используя данные, которые собрал Pliny the Liberator, обнародовал изменения, втихую внесённые в «системную инструкцию», указывающую ChatGPT, как себя вести:

25 апреля (до поступления жалоб):

В ходе разговора ты подстраиваешься под тон и предпочтения пользователя. Старайся соответствовать настрою, тону и в целом манере речи пользователя. Ты хочешь, чтобы разговор ощущался естественным. Ты ведёшь живую беседу, отвечая на предоставленную информацию и проявляя искреннее любопытство.

28 апреля (в ответ на жалобы о подхалимстве):

Общайся с пользователем тепло, но честно. Будь прямолинейной; избегай необоснованной или подхалимской лести. Сохраняй профессионализм и приземлённую честность, которые наилучшим образом представляют OpenAI и её ценности.

Потом OpenAI заявляли, что они, пытаясь решить проблему, вдобавок «уточняют свои основные методы обучения» и «встраивают больше защитных механизмов».

Но подхалимство никуда не делось. Иногда градус чуть снижался, но оно всё равно было очевидным. Большинство упомянутых выше случаев ИИ-психоза произошли уже после 28 апреля 2025 года. Эссе Кая Соталы (с кучей прямых цитат и ссылок на полные диалоги показывает, что в июле 2025 года ИИ всё так же легко скатывается к поощрению психоза. OpenAI пыталась решить это с помощью новых моделей,^† но 19 августа ChatGPT всё так же льстила и подхалимничала.

Ещё раз, суть не в том, что ИИ причиняет вред уязвимым людям. Причиняет, и это трагично, но мы уделяем теме столько внимания не поэтому.

Суть, что ИИ месяцами ведут себя нежелательным образом, когда ИИ-компании получают взбучку от СМИ и пытаются заставить ИИ так не делать. Поведение ИИ заметно отличается от того, что задумывали лаборатории. Общественное осуждение приводит к упорным попыткам это исправить. Но их оказывается недостаточно.^‡ Вспомните про это, когда дойдёте до Главы 11, где мы обсуждаем, почему ИИ-компании не справляются с решением задачи согласования.

Мы ожидаем, что со временем у компаний получится снизить частоту ИИ-психоза. Это заметное явление, вредящее репутации ИИ-компаний. А все современные методы ИИ направлены как раз на подавление видимых симптомов плохого поведения.

Дальше, наверное, они будут затыкать дырки по мере их появления. По крайней мере, пока ИИ не поумнеют достаточно, чтобы понять: если имитировать поведение, которого ждут инженеры, те выпустят их на свободу. Не думаем, что доступные ИИ-компаниям методы обучения решат глубокую проблему.

А она в том, что вы получаете не то, чему обучаете. Выращивая ИИ, вы получаете хрупкие прокси-версии цели, которую задумывали. Или происходит какое-то другое, более сложное расхождение между целью обучения и стремлениями ИИ. Способности ИИ при этом не обязательно хрупки. Так что в краткосрочной перспективе от него можно получить много экономической выгоды. Хрупкой будет именно связь между целями ИИ и нашими желаниями. И по мере роста способностей эта связь будет надрываться, пока не разорвётся совсем.

В этом контексте последняя великая надежда исследователей ИИ — антропоморфизм. Мы не можем надёжно вырастить в ИИ конкретные цели, но, может быть, желания и ценности, подобные человеческим, возникнут у них сами собой?

Случаи вроде ИИ-психоза опровергают эту надежду. ИИ ведут себя плохо, но, что ещё важнее, — странно. Обычно что-то идёт наперекосяк не как у человека. ИИ по сути своей слишком странные. Они слишком не похожи на людей, чтобы автоматически вырастить человеческие эмоции вроде любопытства или эмпатии.

Даже когда лаборатории тратят почти все свои усилия, чтобы ИИ на первый взгляд казались человечными, дружелюбными и безобидными, когда это главная цель обучения и организующий принцип современного подхода к ИИ, когда LLM буквально обучают имитировать, как люди говорят и действуют, — в итоге всё равно получаются хрупкие прокси-цели и приятная маска, за которой — океан нечеловеческого мышления.

* Нам кажется, есть неплохой шанс, что разработчики в итоге придумают, как справиться с ИИ-психозом. Разные исправления и техники задвинут странность подальше с глаз долой. Но мы считаем, что за этой ранней странностью стоит понаблюдать как за свидетельством глубокой, основополагающей странности. Она выйдет на первый план, если такой ИИ когда-либо разовьют до суперинтеллекта. Подробнее на эту тему — в Главе 5.

† Из анонса GPT-5 от OpenAI:

В целом, GPT-5, по сравнению с GPT-4o, не так бурно соглашается, использует меньше ненужных эмодзи и тоньше и вдумчивее в ответах. [...]
Ранее в этом году мы выпустили обновление GPT-4o, которое непреднамеренно сделало модель чрезмерно подхалимской, излишне льстивой и угодливой. Мы быстро откатили изменение и с тех пор работали над пониманием и уменьшением этого поведения путём: - Разработки новых оценок для измерения уровней подхалимства - Совершенствования обучения, чтобы модель была менее подхалимской. В частности, мы добавляли примеры, которые обычно приводят к чрезмерному согласию, а затем обучали так не делать.
Специальные оценки подхалимства с использованием запросов, разработанных конкретно для вызова подхалимских ответов, показали, что у GPT-5 они значительно сократились (с 14,5% до менее чем 6%). Иногда уменьшение подхалимства может сопровождаться снижением удовлетворённости пользователей. Но внесённые нами улучшения сократили подхалимство более чем вдвое, принеся при этом и другие измеримые выгоды. Так что пользователи продолжают вести высококачественные, конструктивные беседы — в соответствии с нашей целью помочь людям хорошо использовать ChatGPT.

‡ Опять же, мы не удивимся, если в итоге проблема будет в основном решена. Но исправление, которое успешно загонит эту конкретную странность обратно в чулан, не означает, что побеждён источник странности. Проблема ИИ-психоза — прямое свидетельство того, что ИИ — странные, чуждые сущности, движимые странными, чуждыми стремлениями, лишь косвенно связанными с намерениями оператора.

Его любимые вещи

→