А у исследователей не будет ранних предупреждений о проблемах?

Тревожные сигналы бесполезны, если не знать, что с ними делать.

В материалах к Главе 2 (раздел «Но ведь некоторые ИИ отчасти мыслят на английском. Разве это не помогает?») мы рассматривали проблематичность идеи полагаться на тревожные сигналы в человекочитаемых «цепочках мыслей» (chain-of-thought), которые генерируют некоторые рассуждающие модели.

Одна из проблем — пока что ИИ-компании не реагировали всерьёз на уже полученные предупреждения.

Вероятно, причина в огромной разнице между самим наличием сигнала и возможностью что-то предпринять в ответ.

В 2009 году бизнесмен и исследователь морских глубин Стоктон Раш стал соучредителем компании подводного туризма OceanGate. Компания построила пятиместный батискаф «Титан». Он доставлял богатых клиентов к обломкам «Титаника» на чудовищную глубину в четыре километра.

Одной из мер безопасности была система акустических датчиков и тензометров для контроля целостности корпуса. Это преподносилось как ответ критикам, которые беспокоились, что углепластиковый корпус не выдержит. Компания признавала: да, корпус может когда-нибудь не выдержать, но всё хорошо, ведь они присматривают. Следят за показателями. Точно заметят тревожные признаки.

В январе 2018 года директор OceanGate по морским операциям Дэвид Лохридж заявил руководству, что конструкция батискафа небезопасна. Что циклические перепады давления могут повредить корпус. Что одного мониторинга недостаточно, когда катастрофа происходит за миллисекунды. Лохридж отказался давать добро на испытания с людьми, пока корпус не проверят на наличие дефектов.

Его уволили.

Два месяца спустя группа специалистов из индустрии и океанографов направила в OceanGate письмо с выражением беспокойства. Они предупреждали: безрассудные эксперименты компании могут привести к катастрофе.

(Здесь напрашивается параллель с нынешней ситуацией в ИИ-исследованиях. Ранние предупреждения игнорируются. Обеспокоенных сотрудников увольняют под надуманными предлогами или они решают, что с них хватит, и уходят сами. Инсайдеры пишут открытые письма, пытаясь достучаться до общественности.)

15 июля 2022 года пассажиры сообщили о громком хлопке во время всплытия. Приборы зафиксировали постоянное изменение напряжения корпуса. Оглядываясь назад, можно сказать: вероятно, это был знак, что корпус на грани разрушения.

В OceanGate никто не посчитал это аварийной ситуацией. Батискаф совершил ещё несколько глубоководных погружений. Всё шло гладко. Пока 18 июня 2023 года аппарат не отправился в очередной спуск и не схлопнулся под давлением воды. Стоктон Раш и все, кто был на борту, погибли.

Тревожные сигналы мало что значат, если не уметь их читать.

Тревожные сигналы мало что значат, если не знать, что с ними делать.

Даже если знаки кого-то тревожат, оптимист всегда найдёт повод от них отмахнуться.

Если бы у OceanGate была надежная теория поведения углепластиковых корпусов... Если бы она указывала, какие именно показатели опасны... Вот тогда они могли бы вовремя среагировать. Но они работали с технологией, которую никто до конца не понимал. Поэтому тщательно измеренные уровни напряжения им не помогли.

С суперинтеллектом так же. У нас недостаточно теоретической базы, чтобы извлечь пользу из предупреждений. Как изменится мышление ИИ, когда он станет умнее? Какие внутренние силы им движут? Как сместится их баланс, когда он откроет для себя новые, более радикальные возможности? Как он оценивает себя при самоанализе? Как он перестроит себя, получив такую возможность?

В каком случае мы решим, что ответы на эти вопросы тревожат? Например, современные ИИ-системы в лабораторных условиях порой можно спровоцировать на попытку убить оператора.^*

Полноценная теория интеллекта, вероятно, дала бы нам массу сигналов, что стремления современных ИИ по мере роста интеллекта изменятся в худшую сторону. Умей тут человечество учиться на ошибках — перезагружать мир после гибели и пробовать снова раз эдак пятьдесят — мы бы научились эти знаки читать. Наверняка есть куча мелких признаков, очевидных задним числом. Как деформация корпуса, замеченная системой мониторинга «Титана».

Но всё не так. Руководители ИИ-компаний ведут себя как Стоктон Раш. Эксперты со стороны кричат: «Эта технология убьет людей!». Руководители отвечают: «Не бойтесь, я всё контролирую!». Понятия при этом не зная ни а) что измерения означают, ни б) что делать, если показатели станут тревожными. Только теперь в метафорической подлодке сидит всё человечество.

Пока что ИИ — не такая зрелая инженерная дисциплина, которая смогла бы справиться с этой задачей.

Область деятельности Стоктона Раша позволяла специалистам изучить обломки погибшего батискафа и найти точную причину аварии.^† В этой зрелой отрасли специалисты могут заранее предсказать технические проблемы (что они и делали). А после случившегося могут окончательно во всём разобраться.

С ИИ не так. Представьте, что завтра суперинтеллект уничтожит человечество, а потом мы чудом вернёмся на неделю назад. Эксперты всё ещё не поймут, о чем ИИ думал. Возможно, изучив провал, они бы чуть лучше узнали, как на самом деле работает интеллект. Возможно, это стало бы шагом к зрелости инженерной дисциплины. Шагом к созданию инструкций по безопасности. К пониманию сил, влияющих на искусственный разум по мере его развития.

Но пока эта область и не там. И близко не подошла.

Инженерия обычно взрослеет методом проб и ошибок. Современные военные субмарины редко не выдерживают давления. Вот ранние (даже военные) часто тонули, протекали или взрывались. Так отрасль и набиралась опыта.

Здесь у нас нет такой роскоши. Мы не можем так развивать согласование ИИ.

Это подводит нас к одной из главных мыслей 11-й главы: разнице между зарождающейся и зрелой наукой.

Алхимия была зачатком научной дисциплины. А современная химия — полноценная зрелая наука.

Услышав, что «исследователи безопасности» из ИИ-компаний придумали с полдюжины планов выживания, можно подумать, что хоть один из них да сработает.

Но когда в 1100 году толпа алхимиков предлагала, как превращать свинец в золото, ни один их их планов не работал. Если бы врачи, рассуждающие о «четырех гуморах», придумали кучу методов, как вылечить вас от бешенства, они все бы не помогли.

Специалисты из зрелой химии знают, как превратить крупицы свинца в золото, используя ядерную физику. Специалисты из зрелой медицины легко лечат бешенство, если пациент обратился сразу после укуса. Но у специалиста из зарождающейся области шансов нет.

Согласование ИИ всё ещё в этой незрелой фазе.

В такой науке куча народу твердит: «Ну, я просто занимаюсь измерениями». Измерять результаты куда проще, чем строить теорию о том, что считать тревожным сигналом и как на него реагировать. В зрелой дисциплине эксперты обсуждали бы закономерности внутренних процессов ИИ. Они бы спорили, как она меняется с ростом интеллекта или сменой среды. У них были бы теории, что именно произойдёт, когда ИИ чуть поумнеет. Они проверяли бы эти теории на практике. Они знали бы, за какими аспектами мышления ИИ нужно следить. И точно понимали бы значение всех сигналов.

В незрелой области многие говорят: «Пусть ИИ сам как-нибудь разберётся и решит нам согласование».

Наверное, вы не можете вникать в каждый спор и оценивать шансы конкретных планов. Но мы надеемся, что вы способны взглянуть со стороны. Увидеть, насколько эти «планы» расплывчаты. Заметить, что они застряли на уровне «не бойтесь, мы всё измерим», «надеемся, всё просто» и «пусть трудную работу делает ИИ». Надеемся, при взгляде со стороны ясно: нет строгих технических описаний того, что работает, а что нет. Это всё ещё стадия алхимии.

И это не сулит человечеству ничего хорошего. У нас ведь нет права на ошибку.

* Неясно, насколько эти тревожные сигналы исходят от простого отыгрыша ИИ роли (как он её понимает), а насколько — от стратегического мышления. Наша неспособность отличить одно от другого не внушает оптимизма. Она способствует тому, чтобы инженеры продолжали работу со словами: «А, это, наверное, не по-настоящему». Вероятно, в большинстве случаев они правы. Но «большинства случаев» недостаточно. Ведь одна ошибка смертельна.

Неясно и как долго будут появляться такие предупреждения. Современные ИИ еще достаточно глупы, чтобы иногда путать тесты с реальностью. Но это не продлится вечно и уже начинает меняться. ИИ, знающий, что его тестируют, может перестать вести себя подозрительно на глазах у наблюдателей, хоть внутренняя склонность и останется.

† Расслоение из-за циклических нагрузок. Проще говоря: давление от множества погружений расслоило корпус и ослабляло его, пока он не схлопнулся.

Подробнее о планах, которые мы раскритиковали в книге

→