Почему бы просто не читать мысли ИИ?

Их трудно прочесть.

Многие представители ИИ-индустрии, включая некоторых руководителей лабораторий, возражали нам:

«ИИ не сможет нас обмануть. Мы ведь сможем читать его мысли!»
У нас есть полный доступ к «мозгу» ИИ. Даже если он знает больше нас и придумает непонятный нам план, он должен хотя бы раз подумать, что операторов полезно обмануть. А мы читаем его мысли, так что заметим это. (А если мыслей слишком много, пусть за ними следят другие ИИ!)

Первая проблема — мы пока плохо читаем мысли ИИ. Специалисты, изучающие внутренности ИИ, пока бесконечно далеки от такого уровня понимания. Они прямо об этом говорят (см. раздел «Понимают ли специалисты, что происходит внутри ИИ?» материалов к Главе 2).

Как мы обсуждали во второй главе, современные ИИ выращивают, а не проектируют. Мы можем смотреть на огромную кучу чисел, из которых состоит мозг ИИ. Но это не значит, что мы способны их понять и увидеть, о чём ИИ думает.

В конце 2024 года появились «рассуждающие» модели. Части их мыслей выглядят читаемыми (так называемые «цепочки рассуждений»). Куда понятнее того, что происходит внутри базовой модели. Но и эти записи обманчивы. У ИИ полно возможностей спрятать мысли, которые он не хочет нам показывать.

К тому же, мысли современных ИИ, вероятно, куда проще и поверхностнее по сравнению с мыслями суперинтеллекта. И будут становиться умнее, а их мысли — непонятнее. Проблема будет лишь усугубляться.

Решит ли проблему использование других ИИ для надзора? Сомневаемся.

Блестящие учёные, выращивающие ИИ, не могут понять его мысли. Вряд ли это удастся слабым ИИ. А ИИ, достаточно умный для такой задачи, опасен сам. Он вряд ли сделает именно то, что вы просили. Получается замкнутый круг.

Мы бы не знали, что делать, поймав ИИ на опасных мыслях.

А пусть даже исследователи смогут читать мысли достаточно хорошо. Что дальше? Можно наказать ИИ, обучать его не активировать детектор «плохих мыслей». Но вряд ли это научит ИИ их не думать. Скорее — прятать их от детектора.

Проблема упорная. Мотивация, побуждающая ИИ думать, как можно пойти против людей, — не просто черта характера, которую легко исправить. Предпочтения получившегося ИИ будут действительно отличаться от предпочтений операторов. И он действительно получит больше желаемого, выйдя из-под контроля.

У ИИ буду механизмы, умеющие находить эффективные решения в самых разных областях. Они наверняка заметят и возможность обхитрить операторов. (см. раздел «Глубинные механизмы направления» в материалах к Главе 3).

Даже создай вы сирену, которая сработает, когда предпочтения ИИ разойдутся с вашими, она не поможет создать ИИ, который действительно ценит то же, что и мы. Обучить ИИ обманывать инструменты мониторинга или даже самого себя — гораздо проще, чем заставить его хотеть прекрасного (по человеческим меркам) будущего. А особенно трудно сделать, чтобы это свойство сохранилось, когда ИИ станет суперинтеллектом.

Помогло бы тщательное проектирование ИИ на основе зрелой теории интеллекта. Тогда исследователи могли бы расставить такие индикаторы, которые позволили бы замечать и исправлять изъяны. Но современные ИИ не такие.

Они склонны уверенно «галлюцинировать». А ни один инженер даже близко не понимает, какие механизмы за этим стоят. Ни у кого нет такой точности понимания, чтобы залезть внутрь ИИ и вытащить «галлюцинирующие» части (если это вообще возможно).

Вытащить «лживые» части ещё сложнее.

Если нам невероятно повезёт, герои, работающие над интерпретируемостью, смогут настроить сигнализацию на часть случаев обмана. Но что потом? Если она сработает, все просто остановятся? Или беспечные инженеры будут переобучать ИИ, пока тот не научится скрывать мысли получше и сирена замолкнет?

Мы (Юдковский и Соарес) занялись задачей согласования ИИ ещё до того, как стало ясно — градиентный спуск победит. В ИИ тогда ничего толком не работало. И была надежда: создавая интеллект, человечество поймёт, как он устроен. Но даже тогда мы ожидали, что согласование будет сложным (причин много, например, самомодификация). Чтение мыслей ИИ приблизило бы нас к чуть более простой задаче — согласованию понятного нам разума. Но это лишь шаг. Читать мысли — не значит понимать разум в деталях или знать, как его изменить. Это полезно. Но это не решение проблемы. Мы не думаем, что сейчас есть доступные технические решения. А значит, человечеству нужно просто отступить. ^*

См. также раздел «Тревожные сигналы бесполезны, если не знать, что с ними делать» ниже.

* Больше — в последних главах книги.

А если заставить ИИ спорить, конкурировать или присматривать друг за другом?

→