А что если компании будут использовать ИИ только для безопасных задач?

Даже вроде бы безобидные действия могут требовать опасных способностей.

Мы встречали такие предложения: ИИ-компании продолжат развивать способности моделей, но пообещают использовать их лишь так, чтобы это не выглядело явно опасным. Например,в разговорах с ветеранами индустрии (годы назад) всплывала такая мысль: мощный ИИ, владеющий риторикой, мог бы убедить политиков всего мира запретить разработку опасного ИИ.

Мол, для этого ИИ нужно будет лишь разговаривать. Не придется управлять роботами. Не нужен доступ к биолаборатории, где можно создать супервирус.

Во-первых, эта идея нам претит этически. ИИ с достаточно сверхчеловеческим даром убеждения, вероятно, уговорит кого угодно на что угодно. Использовать его, чтобы навязать другим свои взгляды, — неправильно. Вряд ли нужны такие крайности. Ведь люди-специалисты уже сегодня могут и должны куда больше делиться опасениями и аргументами и предупреждать мировых лидеров о колоссальной опасности суперинтеллекта.^*

Разработчики могут годами выращивать ради этой цели всё более опасные системы. А могут пойти к законодателям и сами честно с ними поговорить. Чтобы проинформировать, а не манипулировать. Нас часто приятно удивляло, насколько восприимчивы люди в Вашингтоне, если говорить с ними начистоту.

Но мы отвлеклись. Главное: если создан очень мощный ИИ, умеющий «просто разговаривать», всё уже пойдёт не так. Помимо этики, тут техническая проблема. Для сверхчеловеческой убедительности, ИИ, вероятно, должен детально моделировать людей и искусно ими манипулировать.

Люди разумны. Стали бы вы беседовать с ИИ, о котором известно, что он уболтает кого угодно на что угодно, неважно, правда это или нет? Если один мировой лидер поговорит с таким ИИ и полностью изменит свои взгляды, кто захочет стать следующим? Мы бы не стали добровольно с ним общаться. В частности потому, что не хотим менять свои ценности (см. обсуждение неисправимости в материалах к Главе 5).

ИИ, способный добиться успеха даже в таких условиях, должен уметь просчитывать реакции людей на свои слова. Ему придется прокладывать маршрут через пространство человеческих реакций к редким и труднодостижимым результатам. Скорее всего, в таком ИИ есть достаточно обобщённые механизмы, чтобы делать всё, что умеют люди. Чтобы так хорошо нами манипулировать, надо, как минимум, уметь думать те же мысли, что мы.

Подобный ИИ почти наверняка не будет узкоспециализированным. И его выращивают, а не конструируют. Нельзя настроить его механизмы исключительно на предсказание людей. Их можно будет использовать для решения любых задач. Как сделать, чтобы ИИ превосходил людей там, где вам надо, но не понимал: любых целей проще достичь, если выйти из-под контроля операторов?

Мировых лидеров можно просто убедить хорошими аргументами? Приведите их сейчас! Если же нужна мощная сверхубедительность — это опасная способность. Тут или одно, или другое.

Вероятно, люди из лабораторий, предлагавшие нам это, не всё продумали. Скорее всего, они просто искали оправдание, чтобы мчаться дальше. Но суть не меняется. Многие идеи сделать с помощью ИИ нечто «совершенно безопасное», подразумевают далеко не безопасный уровень его способностей.

Нам часто говорят, что ИИ будет «просто» делать что-то одно. Например, убеждать политиков. Что он не сможет или не станет делать ничего другого. Кажется, эти люди недооценивают универсальность интеллекта, способного решать подобные задачи. «Просто разговаривать» — задача не узкая. В речи и общении отражено много сложностей и нюансов нашего мира. Поэтому современные чат-боты, в отличие от шахматных движков, такие универсальные. Для успешного общения нужно куда более общее понимание людей и мира.

Обучив ИИ отлично водить красные машины, не удивляйтесь, что он научился водить и синие тоже. Глупо строить планы в расчете на то, что не научится.

Так что идея «Мой ИИ не сделает ничего опасного, просто убедит политиков» — не спасает. Даже если забыть про этику и практические сложности. И политиков, вероятно, можно убедить уже сейчас. Обычными разговорами. Информируя их и общество о ситуации. Многие навыки общего мышления относятся к сверхубеждению как синие машины к красным. ИИ с такими возможностями не настолько слаб, чтобы быть по умолчанию безопасным.

А ещё — сам навык сверхчеловеческого убеждения очень опасен, если хоть что-то пойдёт не так.

Мы не видим вариантов использования ИИ, которые радикально всё бы меняли, но не требовали прорывов в согласовании.

Было много идей, как использовать прогресс ИИ для спасения мира. Но у большинства из них есть эта проблема: ИИ, способный помочь, должен быть настолько мощным, что его уже надо согласовывать. Получается без толку.

Идея сверхубедительного ИИ такая же. Модели, способные исследовать согласование (об этом мы пишем в книге) — тоже. И системы, разрабатывающие мощные технологии, чтобы остановить распространение ИИ. Как понять, безопасно ли воплощать принципиально новые изобретения, выданные такой системой? (Вспомните пример из шестой главы про кузнеца, который строит холодильник.)

Сложно создать ИИ, достаточно сильный, чтобы помочь, но достаточно слабый, чтобы быть пассивно безопасным. В ответ нам часто предлагают другие варианты, которые может и интересны, но никак не мешают кому-то ещё разработать суперинтеллект, который всех убьёт.

Скажем, ИИ, выдающий лишь доказательства (или опровержения) выбранных людьми теорем.^† Людям почти не придётся взаимодействовать с его выводами. ИИ просто предлагает доказательство. Потом надежный автоматический механизм проверяет, верно ли оно. Так мы сможем использовать ИИ, чтобы узнавать новое.

Но что именно должен доказать ИИ, чтобы мы смогли помешать следующей модели захватить биолабораторию и разрушить будущее?

Нам отвечают по-разному. Кто-то говорит, что нужен глобальный запрет создавать любые ИИ, кроме тех, что скармливают доказательства программам-проверщикам. Может, это и сработает. Но успех тогда будет заслугой жесткого глобального контроля ИИ. Сам «математический» ИИ тут ни при чём.

Другие говорят: «Кто-нибудь обязательно придумает важную теорему, доказательство которой всё изменит». Но самое сложное — как раз понять, что можно доказать, чтобы наше положение стало намного лучше. Нельзя попросить ИИ доказать фразу «Меня безопасно использовать». Это не математическое утверждение. Нужно очень много знать об интеллекте, чтобы математически точно определить, что значит «безопасность» гигантской груды вычислений. Но тогда и доказательства не нужны. Мы бы просто сразу спроектировали безопасный ИИ.

В таких предложениях часто кроется подвох, как в игре в напёрстки. Обсуждают опасность ничем не сдерживаемого сильного ИИ, и кто-то предлагает ограничить его действия узкой сферой (вроде поиска доказательств). Но тут заходит речь о спасении мира, и все представляют, что ИИ по сути всемогущ. Мол, есть некая неизвестная теорема, доказательство которой перевернёт мир.

Получить и то и другое сразу нельзя. Но пока предложения очень расплывчатые, сторонники ИИ-гонки могут скрывать это противоречие.

Если бы кто-нибудь нашёл настолько узкую, но важную область, что доказательство простого утверждения в ней спасло бы мир, это сильно повысило бы шансы человечества на выживание. Но неспроста победа компьютеров над людьми в шахматах в 1990-х не привела к экономическому взрыву. Ждать от ИИ больших перемен в экономике начали из-за ChatGPT, а не Deep Blue. И это не случайно. Узкая специализация Deep Blue напрямую связана с тем, что он не мог отхватить себе кусок экономики. Именно проблески обобщённого интеллекта делают ChatGPT такой значимой. А системы, способные самостоятельно перекроить мир, скорее всего, будут ещё универсальнее.

Нам так и не удалось найти одновременно узконаправленные и эффективные планы. Мы подозреваем: это закономерно. Спасение мира не влезает в большинство узких областей.

* ИИ-лаборатории часто активно препятствуют тому, чтобы законодатели получили полную и полезную картину ситуации. В этом контексте особенно странно оправдывать дальнейшую разработку тем, что более мощный ИИ сможет «убедить законодателей».

† Пример такого предложения (с обсуждением некоторых проблем) см. в работах Ника Бострома об ИИ-Оракулах.

Почему бы просто не читать мысли ИИ?

→