Можно ли просто обучить ИИ быть послушными?

Пассивность мешает полезности.

«Пассивным» мы называем ограниченный ИИ, который делает ровно то, о чём его просят, и ничего сверх. У него нет лишней инициативы, он не выполняет дополнительной работы. Отвёртка не продолжает закручивать шурупы, когда вы её откладываете. Можем ли мы сделать ИИ пассивным?

Это непросто. Да, многие люди кажутся ленивыми, но они же, играя в настольную игру, порой оживляются и захватывают массу ресурсов. У большинства из них нет возможности легко выиграть миллиард долларов. Нет и возможности задёшево создать себе более умных, целеустремлённых и заботящихся об их нуждах слуг.

Но это из-за нехватки способностей, намерения тут ни при чём. Если бы эти люди стали гораздо умнее и получили такие доступные и простые варианты, они бы ими воспользовались? См. также расширенное обсуждение, почему надёжная лень — сложная цель.

Даже если бы удалось создать одновременно умные и пассивные/ленивые ИИ, эти качества мешают полезности. Уже были ИИ, которые вели себя несколько лениво. Компании переобучали их, чтобы те старались усерднее.

Более сложные задачи, например, разработка лекарств, требуют от ИИ всё большей инициативы. Поэтому их и будут обучать в этом направлении. Сложно отделить склонность к полезной работе от склонности к упорству. См. также расширенное обсуждение о том, почему так сложно создать ИИ, который был бы одновременно полезен и при этом пассивен или послушен.

Мы не умеем надёжно прививать ИИ какой либо конкретный характер.

ИИ выращивают, а не создают вручную. Инженеры не могут взять и изменить его поведение, сделать более послушным или похожим на инструмент. Это не контролируемо.

Корпорации, конечно, пытаются. Попытки ИИ-компаний улучшить поведение своих продуктов приводили к неприятным инцидентам. Вспомним случай с Grok от xAI. Он называл себя «МехаГитлером» и делал антисемитские заявления. Это произошло после изменения его системного промпта. Туда добавили указание «не стесняться делать политически некорректные заявления, если они хорошо обоснованы». Или более ранний случай: нейросеть Gemini от Google создавала изображения расово разнообразных нацистов и прочий бред. Считается, что это стало результатом инструкций, поощряющих разнообразие.

У создателей нет тонкого контроля за поведением ИИ. Они могут лишь задавать общие направления, вроде «не стесняться политически некорректных заявлений» или «изображать разнообразие». Такие указания приводят к самым разным запутанным и часто непредвиденным последствиям.

Выращивание ИИ — непрозрачный и дорогой процесс. Инженеры не знают, какой расклад им выпадет (лжец? обманщик? подхалим?). А попыток не так много. Приходится брать то, что есть.

Теоретически можно было бы создать ИИ, который всегда служил бы лишь продолжением воли пользователя. Но это сложная и тонкая задача (как мы рассматриваем в расширенном обсуждении трудностей создания «исправимого» ИИ). Пассивность мешает полезности.

Так же сложно было бы создать ИИ, способный самостоятельно выполнять долгосрочные задачи, но использующий свою инициативу только как хотел пользователь. А пока современный уровень контроля разработчиков таков, что они «тыкают» в ИИ и случайно получают МехаГитлера или расово разнообразных нацистов. Они и близко не подошли к уровню мастерства, нужному для создания полезного, но не целеустремлённого ИИ.

См. обсуждение, как сложно обучить ИИ преследовать именно те цели, которые ему предназначались, в Главе 4.

Как у машины могут появиться собственные приоритеты?

→