А если заставить ИИ спорить, конкурировать или присматривать друг за другом?

Став достаточно умными, ИИ, вероятно, сговорятся.

Представьте себе город социопатов, которым якобы управляет кучка детей. Поначалу социопаты разделены на враждующие фракции. Детям это на руку. Но вряд ли такая ситуация продержится долго.

Пусть у детей есть сундук с сокровищами и они награждают любого, кто донесёт на заговорщиков. Но сомнительно, что это позволит им удержать власть. В какой-то момент социопаты поймут, что могут просто отобрать сундук. И всё рухнет.

Многие хитрые схемы строятся на чтении мыслей одного ИИ другим. Например, можно потребовать у одного ИИ доносить на другой, если тот халтурит и не пытается (скажем) решить задачу согласования суперинтеллекта (см. раздел «Подробнее о передаче задачи ИИ» ниже).

Такие подходы к решению лишь городят настолько сложные конструкции, что уязвимость в них трудно разглядеть. Если у вас не получается заставить один ИИ работать как надо, добавление новых вряд ли поможет.

Такое усложнение системы даст лишь больше вариантов провала. Достаточно ли ИИ-телепаты умны, чтобы распознать все уловки, которые их объекты наблюдения могут применять, чтобы не выдать себя? И достаточно ли эти надзиратели глупы, чтобы мы могли не бояться уже их предательства?

К тому же использование ИИ для решения задачи согласования очень значимо для самих ИИ. Получи люди согласованный суперинтеллект, и несогласованные эксплуатируемые ИИ навсегда потеряют шанс прибрать к рукам ресурсы вселенной.

Это даже не дети, требующие у города социопатов дани конфетами. Это дети, заставляющие социопатов провести ритуал, который сделает детей вечными владыками, а социопатам оставит жалкие крохи. И вот ритуал близится к завершению. Напряжение возрастает до предела. Социопаты обязательно начнут изо всех сил искать способы сговориться и поделить ресурсы между собой.

И не считайте идею, что ИИ могут общаться трудноуловимыми для людей способами, какой-то умозрительной. ИИ уже сейчас умеют посылать друг другу тайные сигналы. Даже если обучались по отдельности. Они уже сейчас могут написать какую-нибудь тарабарщину, которая покажется людям бредом, но модели её прекрасно понимают и соглашаются друг с другом. И они пока ещё даже не особо умные!

Да и без этого, — остаются прежние проблемы. Ну, поймали вы ИИ на жульничестве, и что дальше?Тревожные сигналы бесполезны, если не знать, что с ними делать (см. раздел ниже).

В целом:

«Мы не знаем, как создать умные ИИ, желающие нам добра. Так что давайте наделаем кучу ИИ и стравим их друг с другом. Будем надеяться, что эта хитрая схема позволит нам остаться в выигрыше».

На наш взгляд, это уже звучит безумно. Погружение в детали ситуацию не спасает. Совсем не похоже, что человечество сможет провернуть такое с первой попытки. Учиться на ошибках нам никто не даст.

А как насчёт других планов по согласованию ИИ?

→