А нам не нужно мчаться вперёд, чтобы можно было исследовать согласование?

Мы выступаем против всей нынешней парадигмы ИИ.

Современные методы приводят к неоправданно сложным проблемам для согласования. Мы обсуждали их в прошлых главах. Нет причин, почему создать согласованный суперинтеллект было бы принципиально невозможно. Но нужно достаточно глубокое понимание, что мы делаем, и подходящий набор формальных инструментов. А вся нынешняя парадигма в плане согласования и надежности кажется тупиковой. Хоть и отлично подходит для наращивания способностей ИИ.

Мы не агитируем за «старый добрый» ИИ, как с 50-х по 90-е. Те методы были ошибочны. Вполне ясно, почему они провалились. Но кроме весьма поверхностных попыток из восьмидесятых и выращивания ИИ без понимания его устройства есть и другие варианты.

Доступной важной работы и так много.

Sydney Bing газлайтила пользователей и угрожала им. Мы до сих пор точно не знаем, почему. Не знаем, что творилось у неё в голове. То же касается случаев (в реальных условиях) излишнего подхалимства и намеренных, судя по всему, попыток свести людей с ума (см. раздел «ИИ-психоз» в материалах к Главе 4). И жульничества и попыток его скрыть. И упорного объявления себя Гитлером. А ещё экспериментальных случаев, где модели имитируют согласованность, шантажируют, сопротивляются отключению или пытаются убить операторов.

Мы не знаем, какие из этих случаев вызваны чем-то опасным. Ведь никто так и не понимает, что происходит внутри ИИ, почему всё это случилось. Подумайте, сколько всего можно узнать о современных LLM и работе интеллекта в целом, изучая существующие модели, пока мы не станем понимать все эти тревожные звоночки.

В 2015-м году тезис «нельзя решить проблему согласования без изучения ИИ» был поосмысленнее. Мы слышали его от людей, которым нужен был предлог для запуска ИИ-компаний вопреки доводам, что они играют нашими жизнями. Мы и тогда возражали. Говорили, что работы и так полно. И что парадигма на основе градиентного спуска не внушает надежд (в плане создания дружественного суперинтеллекта). Но сейчас этот аргумент ну совсем потерял смысл. Уже есть тьма вещей, которые мы не понимаем и можем изучать.

Руководители корпораций, которые действительно создавали ИИ только чтобы согласование можно было изучать на практике, а не в теории: Вы это сделали! У вас получилось. Работы исследователям хватит на десятилетия. Мы не считаем, что продвижение крайне опасной парадигмы того стоило. Но, в любом случае, теперь точно есть что изучать. Можете остановиться.

А как насчет тех, кто продолжает давить на газ, несмотря на все предупреждения? Очевидный вывод: они никогда и не создавали ИИ только ради решения проблемы согласования. Что бы они ни говорили для успокоения, оправдывая своё безрассудство в 2010-х.

А что если компании будут использовать ИИ только для безопасных задач?

→