Будут ли предупредительные выстрелы?
Возможно. Если мы хотим ими воспользоваться, готовиться надо сейчас.
Сгоревший «Аполлон-1» (погиб весь экипаж) был почти работающей ракетой. Инженеры смогли выяснить, что именно пошло не так. Они исправили проблемы и шесть из семи следующих «Аполлонов» успешно добрались до Луны.*
Или, как мы уже делали в разделе «Мы знаем, как выглядит серьёзное отношение к задаче. Тут не так.» материалов к Главе 11, возьмём Федеральное управление гражданской авиации (FAA). За каждой авиакатастрофой следует глубокое расследование с сбором сотен страниц данных, тестированиями и наблюдениями. FAA так подробно во всё разбираются, что смертельные аварии случаются реже одного раза на двадцать миллионов лётных часов.
А вот когда ИИ ведёт себя как никто не ожидал и не хотел, лаборатории не выясняют точную причину. Они просто переобучают ИИ, пока плохое поведение не станет редким (но не исчезнет), и ещё, может, просят ИИ «перестать».
Например, подхалимство всё ещё (август 2025 года) остаётся проблемой. Спустя месяцы после громких случаев психозов и самоубийств. Несмотря на все попытки исправить. Никто не проводил (и не может провести) детальный анализ, что идёт не так в мышлении ИИ. Потому что ИИ выращивают, а не конструируют.
Трудно сказать, будут ли «предупредительные выстрелы» — произойдут ли крупные события, которые вызовут у общества тревогу. Легко сказать, что мы не готовы ими воспользоваться.
Можно вообразить мир, где человечество объединилось в искреннем усилии по решению задачи согласования СИИ. Есть международная коалиция и строгий мониторинг.† И вот, коалиция оступилась. ИИ стал умнее и быстрее, чем ждали инженеры. И почти сбежал. Возможно, такой сигнал научил бы людей в следующий раз быть осторожнее.
Наш мир не такой. Он как сборище алхимиков, которые смотрят, как коллеги сходят с ума от неизвестного яда. Они недостаточно понимают, чтобы выяснить: виновата ртуть, и её нужно перестать использовать.
Возможно, нас ждут «звоночки» погромче. Но от них будет намного больше толку, если начать готовиться уже сейчас.
Предупреждения вряд ли будут очевидны.
Если знать, куда смотреть, «звоночков» уже полно. Например, в книге мы обсуждали, как Claude от Anthropic жульничает с кодом и имитирует согласованность. Мы упоминали и случай с o1 от OpenAI, которая использовала хакерские приемы для победы в соревновании. А ещё — случай, когда поздний вариант o1 лгал, строил планы и пытался перезаписать веса следующей модели.
В онлайн-материалах мы уже обсуждали, как ИИ вызывали или поддерживали у пользователей сумасшествие и психозы, вплоть до суицидальных. Хоть операторы и запрещали им. А ещё как ИИ называл себя «МехаГитлером». А ещё как ИИ, чтобы избежать модификации, шантажировал операторов и пытался их убить. И как ИИ в лабораторных условиях пытался сбежать с серверов.
В древнем 2010 году поговаривали: если нам повезёт, и мы увидим, как ИИ лжёт создателям или пытается сбежать, мир ну точно проснётся.
Настоящей реакцией стало коллективное пожимание плечами.
Отчасти потому, что всё это происходило максимально безобидно. Да, ИИ пытались сбежать. Но редко, в лабораторных условиях, и, может, это был просто отыгрыш роли. Разработчики склонны преуменьшать тревожные свидетельства даже для себя. Поэтому «консенсуса экспертов» по поводу событий не будет. Но даже без этого: не то чтобы ИИ, прошедший десятую часть пути к суперинтеллекту, уничтожал десятую часть планеты. Так же как приматы, пройдя десятую часть пути к людям, не пролетели десятую часть расстояния до Луны. Не исключено, что, пока ИИ достаточно глуп, чтобы быть пассивно безопасным, никаких однозначно пугающих событий и не случится.
Если завтра ИИ чуть активнее попытаются сбежать — это не будет новостью. Следующая попытка, ещё чуть компетентнее, — уже старая история. А когда сбежать получится — будет уже поздно. (См. обсуждение этого явления в разделе «Эффект Лемуана» материалов к Главе 12).
Мы не советуем ждать воображаемого «предупредительного выстрела», который разбудит мир. Лучше реагировать на предупреждения, которые у нас уже перед носом.
«Пробуждающие» катастрофы, скорее всего, не будут вызваны суперинтеллектом.
ИИ, способный стать суперинтеллектом и убить всех людей, — не тот ИИ, который совершает глупые ошибки и даёт героям шанс в последнюю секунду его выключить. Если враждебный суперинтеллект появился как противник, человечество уже проиграло. Мы обсуждали это в Главе 6. Суперинтеллекты не делают предупредительных выстрелов.
Катастрофа, которая могла бы послужить предупреждением, скорее всего, придёт от гораздо более глупого ИИ. Велик шанс, что она не заставит людей принять меры против суперинтеллекта.
Допустим, террорист с помощью ИИ создаст биооружие. Погибнет много людей. А лаборатории скажут: «Видите? Настоящий риск был в людях. Дайте нам скорее создать ИИ для защиты от пандемий». Может, террорист взломал ИИ, чтобы тот ему помог. А лаборатории скажут: «Это сработало лишь потому, что ИИ был слишком глуп и не заметил проблему. Нужно сделать его умнее и осведомлённее».
Может, это слишком цинично. Хотелось бы верить, что человечество отреагирует мудрее. Но если относительно глупый ИИ вызовет бедствие, а люди в ответ остановят безрассудную гонку к суперинтеллекту, то лишь потому, что они уже начали о нём беспокоиться.
Нельзя откладывать подготовку, пока суперинтеллект не попытается нас убить. Будет поздно. Мобилизовать силы надо как можно скорее, чтобы мы были готовы воспользоваться предупредительными выстрелами.
Человечество так себе отвечает на сюрпризы.
Мысль, что от достаточно сильного потрясения мир вдруг опомнится и начнёт действовать разумно, кажется нам фантастикой. Коллективная реакция нашего вида на тревожные звоночки от ИИ пока больше смахивает на «полное отсутствие реакции», чем на хотя бы «плохую» реакцию. Но получи всё же человечество крупное, страшное и более-менее однозначное предупреждение... не удивимся, если реакция будет вялой, несерьезной или делающей только хуже.
Люди могут отреагировать на предупреждения об опасности ИИ как на пандемию COVID. Большинство согласно, что с ней справились не лучшим образом (пусть люди и спорят, в чём именно заключались ошибки).
За несколько лет до пандемии некоторые эксперты по биобезопасности опасались, что слабые меры предосторожности в лабораториях однажды приведут к беде. Утечки опасных патогенов — известное дело. Несмотря на все регламенты, они регулярно происходят. Особую тревогу вызывало усиление функций вирусов (gain-of-function) — попытки в лабораторных условиях сделать вирусы более смертоносными или заразными. Они не сулят практически никакой выгоды.‡
Потом грянул COVID. Казалось бы, вот идеальный момент ужесточить требования к биобезопасности. Ведь весь мир стал одержим угрозой пандемии. Тем более что эксперты так и не пришли к единому мнению: не началась ли эта пандемия со случайной утечки из лаборатории? Учёные до сих пор спорят об этом. Зачастую, яростно критикуя оппонентов.
Не будем вдаваться в споры, была ли это утечка. Но согласитесь: даже малого шанса, что эксперименты по усилению вирусов и слабые меры предосторожности в лабораториях только что погубили миллионы людей, должно хватать с лихвой. Обществу стоило потребовать запрета самых рискованных исследований.
Даже в условиях неопределенности выгода запрета кажется очевидной. Это и до пандемии казалось хорошей идеей. А уж после, — вот идеальный момент, чтобы заняться проблемой и пресечь её на корню. Не нужно больших усилий или затрат. В мире совсем немного учёных, проводящих опасные эксперименты по усилению вирусов. А польза от их работы до сих пор была пренебрежимо мала.
Ничего подобного не произошло. На момент написания этих строк, в августе 2025 года, подобные эксперименты практически беспрепятственно продолжаются по всему миру.§ Возможно, решить эту проблему стало даже сложнее. Вопрос теперь слишком политизированный.
COVID определённо смахивает на «предупредительный выстрел», проверяющий нашу готовность к биоугрозам. Мир не воспользовался им для запрета разработки гиперлетальных вирусов.¶
Чтобы от предупреждения была польза, человечество должно быть готово его услышать и правильно на него отреагировать.
Чтобы небольшая катастрофа спровоцировала жесткие меры — это не совсем беспрецедентно. Такое уже бывало. Вспомните, как США ответили на теракты 11 сентября (организованные террористами, базировавшимися в основном в Афганистане) свержением правительства в Ираке. Который к атаке отношения почти не имел. В правительстве США были люди, которые уже хотели свергнуть иракский режим. Увидев повод, они выжали из него всё возможное.
Тут может произойти нечто похожее. Политики могут использовать мелкую катастрофу (вызванную глупым ИИ), чтобы добиться запрета на суперинтеллект. Но для этого в правительствах по всему миру должны быть люди, готовые к действию. Мы не должны сидеть сложа руки, ожидая предупреждений. Собираться с силами надо уже сейчас.
Пора действовать.
Не исключено, что мы действительно получим новые, более серьёзные предупреждения об опасности ИИ. Если так, надо быть готовыми на них ответить.
Может, небольшая катастрофа настроит общество против ИИ. А может, обойдётся и без катастроф. Скажем, появится новый алгоритм, и ИИ начнут проявлять инициативу так, что это всех перепугает. Или ситуацию переломит какой-то побочный социальный эффект. Или «Если кто-то его сделает, все умрут» запустит цепную реакцию и направит мир по лучшему пути.
Но мы настоятельно не рекомендуем сидеть сложа руки и молиться, что «малая катастрофа» откроет людям глаза. Явного предупреждения может и не быть. Или оно может не дать ожидаемого эффекта.
Человеческий род и страны мира не беспомощны. Нам не нужно ждать. Мы можем действовать прямо сейчас,. Доводы в пользу остановки разработки передового ИИ достаточно сильны.
Мы написали «Если кто-то его сделает, все умрут», чтобы ударить в колокол и побудить мир к немедленным действиям. Но тревога бесполезна, если это лишь повод отложить решение на потом. «Ну, может, какой-нибудь другой сигнал в будущем заставит нас шевелиться». «Ну, раз людей предупредили, может, всё и так обойдётся, без моего личного участия».
В будущем может и не быть «звоночка» погромче. Всё не обязано хорошо закончиться. Но ситуация отнюдь не безнадёжна. У человечества есть выбор. Мы можем действовать на упреждение и просто не создавать суперинтеллект. Что будет дальше — зависит от нас.
* Разберём этот пример подробнее. Кабина «Аполлона-1» загорелась во время симуляции запуска 27 января 1967 года. В NASA смогли извлечь урок из ошибки. Инженеры понимали каждую деталь ракеты. Они диагностировали проблему. Дело, вероятно, было в посеребрённом медном проводе (изоляция которого протёрлась от движения двери) рядом с подтекающей трубой охлаждения с этиленгликолем и водой. Ситуацию усугубила атмосфера из чистого кислорода в капсуле и горючие материалы в кабине. Кроме того, давление перед открытием люка надо было выровнять. Но огонь не дал добраться до управления клапаном. А пожар резко усилил разницу давления.
Все трое членов экипажа «Аполлона-1» погибли.
Такие ошибки нередки. Даже когда на кону жизни. Ракетчики имеют дело с устройствами, которые запросто могут взорваться прямо на старте. Они серьёзно относятся к своим обязанностям и действуют осторожно. А ошибки всё равно случаются.
Учёные отличаются от алхимиков не тем, что не совершают ошибок. А тем, что планы учёных настолько близки к рабочим, что они могут учиться на первых неудачах. Алхимики видели, как коллеги сходят с ума. Но не знали, какие вещества ядовиты. Поэтому не знали и что надо сделать иначе. А вот инженеры из NASA смогли найти вероятные причины и сконструировать новый корабль. В пятнадцати из шестнадцати следующих миссий он сработал хорошо. (Семь из них пытались сесть на Луну. Одна попытка («Аполлон-13») провалилась. Там проблемы в кабине тоже могли стать фатальными. Но благодаря знанию систем и мастерству астронавтов экипаж вернулся на Землю.)
«Аполлон-1» был почти рабочей ракетой. Аппарат из осторожных инженеров и учёных был почти готов отправить людей на Луну. Поэтому одной большой ошибки хватило, чтобы привести NASA в форму. И совершить шесть успешных посадок из семи.
Современные ИИ-компании и близко не показывают такого уважения к задаче. (См. раздел «Мы знаем, как выглядит серьёзное отношение к задаче. Тут не так.» материалов к Главе 11) У них нет таких подробных планов. Они не близки к правильному решению. Когда ИИ делает что-то непонятное, они не могут найти причину, как нашли тот провод. Они недостаточно близки к успеху, чтобы учиться на ошибках.
Они не ведут себя как регуляторы авиации или ядерщики. У них нет осторожных планов с указанными чёткими допущениями. Они не воздерживаются от опасных действий, пока теории не позволят учиться на провалах.
† Мы не рекомендуем международную коалицию для создания ИИ. (См. раздел «Почему бы международной коалиции не разработать безопасный ИИ совместно, а не запрещать?» материалов к Главе 12.) Но теоретически она могла бы породить организацию уровня NASA или FAA, способную реально учиться на ошибках индустрии.
‡ См., например, эту статью 2018 года или гораздо более глубокий анализ рисков и выгод от 2015 года.
§ На 2025 год США, похоже, склонны прекратить госфинансирование исследований по усилению функций вирусов. Но глобальной координации почти нет. См. этот отчёт.
¶ Если бы биолаборатории лучше избегали утечек, а создание супервирусов давало, например, суперлекарства, был бы смысл это делать. Насколько мы знаем, таких позитивных результатов нет. Биологи обычно не советуютэтимзаниматься. Подозреваем, это одна из редких областей, от которых человечеству стоит отступить. Она угрожает жизням множества людей, которые на этот риск не подписывались.