Отступление о теории игр

Известно, как достаточно умные агенты могут заключать друг с другом сделки, которые будут исполнены. Один из них платит другому сейчас за услугу в будущем. Второй действительно её оказывает, а не предаёт первого и сбегает с деньгами.

К сожалению, нам, людям, эти методы недоступны. Они требуют, чтобы каждый агент мог читать разум другого и проверять в нём некоторые сложные свойства. Два суперинтеллекта могли бы так договориться. Но это не помогает людям договариваться с суперинтеллектами.

Для более подробного и технического объяснения начнём с основ теории игр.

Математики проанализировали упрощённые и абстрактные формы сотрудничества и предательства. Центральный пример — «Дилемма заключённого». Два преступника сидят в двух отдельных камерах. Каждому из них грозит два года тюрьмы. Каждому предлагают донести на другого. Это сократит его собственный срок на один год, но увеличит срок другого на два года. Если никто не донесёт, оба получат по два года тюрьмы. Если оба донесут друг на друга, оба получат по три года. А если один преступник благородно откажется предать товарища, а вот другой донесёт, то предатель отсидит всего год, а благородный — четыре.

Донести на другого заключённого называется «предать», а отказаться — «сотрудничать». Ключевое свойство «Дилеммы заключённого»: обоим участникам выгоднее сценарий (Сотрудничать, Сотрудничать), чем (Предать, Предать). Но можно выиграть ещё больше, предав того, кто сотрудничает, и проиграть, сотрудничая с тем, кто предаёт.

Многие, услышав стандартную версию «Дилеммы заключённого», сразу же находят кучу возражений к условиям мысленного эксперимента. Например: «А кто сказал, что меня волнуют только годы в тюрьме? Разве я не могу также не хотеть предавать своих товарищей?»

Но это не относится к делу. «Дилемму заключённого» интересуют матрицы выигрышей, а не то, насколько заключённые эгоистичны или альтруистичны. Можно изменить сюжет так, что «я предаю, а ты сотрудничаешь» станет с точки зрения каждого игрока самым альтруистичным и просоциальным исходом. Но математика останется той же. Для нашего анализа важен порядок предпочтений двух игроков, а не эгоистичны или моральны их предпочтения.

Другая очевидная мысль: «Так тот, кого предали, может убить другого, когда они наконец выйдут из тюрьмы?» Анализ «Дилеммы заключённого» обычно быстро переходит к «Повторяющейся дилемме заключённого» — ситуации, где агенты взаимодействуют так снова и снова, и у них есть шанс наказать друг друга за прошлые предательства. Но тут мы сосредоточимся на одноразовой «Дилемме заключённого». В ней предполагается, что у заключённых нет никаких будущих последствий их действий. Или они уже учтены в матрице выигрышей. (Подробнее о «Повторяющейся дилемме заключённого» см. в сноске.)^*

Стандартный в академических кругах анализ гласит, что даже два суперинтеллекта не увидят иного выхода, кроме как предать друг друга в одноразовой «Дилемме заключённого».

Этот вывод интуитивно показался нам подозрительным. У искусственных суперинтеллектов (ИСИ) была бы куча мотивации придумать способ договориться и перейти от (Предать, Предать) к (Сотрудничать, Сотрудничать).^†

Можно рассмотреть и практические, не-теоретические решения. У суперинтеллектов было бы больше вариантов, чем у людей, которым трудно доверять друг другу. Два ИСИ могли бы вместе проконтролировать создание третьего, доверенного суперинтеллекта. Обе стороны постепенно передавали бы ему власть небольшими частями, а потом этот третий ИСИ сам бы исполнил сделку.^‡

Но это лишь уклонение от «Дилеммы заключённого», а не прямое решение. Оно не отвечает на основной вопрос: не глупо ли в каком-то смысле двум ИСИ в «Дилемме заключённого» предавать друг друга, следуя одной и той же логике? Ведь очевидно, что обе стороны основывают своё решение на одних и тех же соображениях и придут к одному и тому же результату.

Почему бы двум ИСИ по достаточно сходным причинам просто не решить сделать рациональным сотрудничество? Не то чтобы какая-то внешняя сила, вроде тайфуна или метеорита, заставляет обоих ИСИ проигрывать. Буквально их собственные решения «обрекают» их на исход Предать-Предать, который они оба считают гораздо худшим, чем Сотрудничать-Сотрудничать.

Можно даже сказать, что менее «рациональный» агент мог справиться лучше. Он мог бы в большинстве случаев следовать стандартному совету теории игр и предавать. Но в особом случае, когда он уверен, что другой агент следует той же логике, можно делать исключение. Тогда, выбирая «нерациональный» вариант сотрудничества, он может быть уверен, что и другой поступит так же.

Так можно ли в этом особом случае действительно назвать сотрудничество «нерациональным»? И ещё вопрос: были бы реальные суперинтеллекты так «обречены»? Нет внешней силы, заставляющей ИИ проигрывать. Проигрыш полностью зависит от них самих. Наверняка должен быть какой-то хитрый трюк, позволивший бы суперинтеллектам справиться лучше.

Разные философы, занимавшиеся теорией принятия решений, подходили к этому вопросу по-разному. Версия выше напрямую вдохновлена выдвинутой в 1985 году идеей Дугласа Хофштадтера о «суперрациональности»:

«Если логика сейчас вынуждает вас выбрать П, она по тем же причинам вынудила и остальных сделать то же самое. И наоборот, если логика вынуждает вас выбрать С, она вынудила сделать это и остальных. [...]
Насколько вы все действительно рациональные мыслители, настолько вы будете мыслить в одном ключе. [...]
Нужно полагаться не только на то, что они рациональны, но и на то, что они полагаются на рациональность всех остальных, а те, в свою очередь на то, что все полагаются на рациональность всех, и так далее. Группу мыслящих существ в таких отношениях друг с другом я называю суперрациональной. Суперрациональные мыслители, согласно рекурсивному определению, учитывают в своих расчётах то, что они входят в группу суперрациональных мыслителей».

Наш институт, MIRI, проанализировал этот вопрос. Полный анализ слишком длинный, чтобы приводить здесь. Вы можете прочитать его в этой статье 2014 года. Грубо говоря, мы писали программы для турниров, в которых агенты могли видеть исходный код друг друга и пытаться проанализировать, как оппонент принимает решение. Мы смогли создать агента, которого назвали FairBot. Он сотрудничает с другим агентом тогда и только тогда, когда может доказать, что тот сотрудничает с ним.^§ Мы доказали, что любые два FairBot сотрудничают друг с другом, даже если они по-разному написаны на разных языках программирования.^¶

В некотором смысле, получается, что прошлое обещание может повлиять на будущее действие, если те, кто заключал сделку, способны отличить тех, кто держит слово, от тех, кто не держит.^‖

Можно опять провести аналогию с покупкой машины у продавца подержанных автомобилей. Пусть ценность рабочей машины для вас эквивалентна 10 000 долларов, а сломанная — нулю. Предположим, продавцы знают, какая машина рабочая, а какая сломанная. Но вы этого определить не можете. Вам предлагают машину за 8 000 долларов. Продавец настаивает, что она в порядке. Стоит ли её покупать?

Зависит от продавца. Некоторые продавцы честны. Стоит им заплатить, если вы можете отличить их от остальных. А некоторые — обманщики и продают только сломанные машины. Их стоит избегать, если вы можете их распознать.

Но представьте себе ситуацию, когда большинство продавцов машин умнее вас и могут определить, простак вы или нет. Поняв, что вы не можете определить, честны ли они сегодня, они предложат вам сломанную машину. Особенно если вы такой простак, который усиленно убеждает себя, что всё в порядке и сделку можно заключать, вместо того, чтобы как следует проверить машину.

Если вы хотите получить рабочую машину, убеждать себя, что у вас нет другого выбора, не поможет. Многочисленные обещания продавцов — тоже. Поможет только одно: научиться отличать хорошие машины от плохих. Правду от лжи.^#

Когда заключающие сделку могут в нужном смысле отличить правду от лжи, они могут «заставить» друг друга держать обещания. FairBot «заставляет» своего оппонента сотрудничать (если тот хочет избежать исхода «Предать-Предать»). Но для этого нужно уметь правильно рассуждать о том, как другая сторона принимает решения. А люди не могут читать мысли ИИ достаточно хорошо, чтобы понять, каким суперинтеллектом он потом станет. А точно сказать, что этот суперинтеллект будет делать — тем более.

Так что в этом случае более сложный и тонкий теоретико-игровой анализ приводит к тому же выводу, что и самый простой, первый взгляд на эту проблему. Суперинтеллект не станет жертвовать своими ресурсами (даже в малых количествах), чтобы сдержать обещание, данное людям, когда можно просто солгать.

* Есть простая стратегия для «Повторяющейся дилеммы заключённого», которая хороша против очень многих оппонентов. Это «Око за око» (Tit for Tat): начни с сотрудничества, а затем повторяй то, что оппонент сделал на предыдущем ходу. Если его первый ход — предательство, твой второй ход будет предательством. Если его первый ход — сотрудничество, твой второй — тоже сотрудничество. Ключевые свойства этой стратегии: она добрая (никогда не предаёт первой), мстительная (наказывает стратегии, которые предают её) и прощающая (не наказывает предателей вечно).

Оптимальна ли она? Зависит от того, с кем она играет. Предположим, агент находится в среде с разными возможными оппонентами. Есть некоторый шанс, что оппонент будет сотрудничать независимо ни от чего. Есть шанс, что оппонент использует «Око за око». И есть шанс, что оппонент похож на самого агента. Лучшей идеей может оказаться предать в одном из первых раундов, просто чтобы посмотреть, а другой агент на это вообще отвечает? Если оппонент потом предаст, можно раунд или два посотрудничать, даже в ответ на очередное предательство — чтобы посмотреть, можно ли восстановить кооперацию. Это позволит использовать тех, кто будет сотрудничать в любом случае, и при этом не сильно потерять против «Око за око».

Проводят эволюционные турниры по «Повторяющейся дилемме заключённого». Там выжившие агенты играют против большего числа копий тех игроков, которые в прошлый раз показали себя лучше всего. Эксплуатация тех, кто всегда сотрудничает, тут не преуспеет, потому что они скорее всего почти сразу исчезнут. Для этого достаточно, чтобы вокруг были хоть какие-то не «добрые» (то есть, никогда не предающие первыми) агенты. Обычно в эволюционных турнирах побеждает «Око за око» или что-то похожее.

В правилах игры есть лазейка. Из тех, от которых хочется закатывать глаза, вопрошая, насколько же нереалистичными могут быть формальные условия. Если в каждой партии играют ровно десять итераций «Дилеммы заключённого», то оппонент уже не может ответить на предательство в десятом раунде. Ведь одиннадцатого нет. Так что в этом раунде предательство будет выгоднее, чем следование «Око за око» или любой другой стратегии. Последний раунд — уже не повторяющаяся «Дилемма заключённого». Она снова одноразовая.

Легко исправить: пусть каждый турнир продолжается случайное число раундов, верно? Нереалистично, если агенты знают, когда игра закончится. В реальной жизни вы не уверены, что больше никогда не будете с кем-то взаимодействовать. И люди накапливают репутацию.

Вот только иногда в реальной жизни довольно очевидно, что игра окончена. Достаточно, чтобы одна из сторон получила такое превосходство, чтобы можно было предать другую без реального шанса на последующее возмездие. Так поступали те державы, что сгоняли индейцев с уступленных по договору земель, которые европейцы в итоге решили забрать себе.

Какой бы ими не ожидался эффект для репутации в будущем, очевидно, перспектива наказания за предательство чужаков, иностранцев и людей другой расы не заставила их соблюсти сделку. Эти страны и так уже считались не вполне надёжными. Им нечего было терять в плане безупречной репутации. Возможно, их моральные инстинкты отключались по отношению к чужакам. Те, кто принимал решения, могли не испытывать никаких эмоций по поводу нарушения договорённостей со странными и уже не представляющими угрозы дикарями.

Европейцы, с их собственной точки зрения, были в последнем раунде. Вполне реалистично считать, что «Дилемма заключённого» бывает скорее одноразовой. История показывает, что это нередко приводит к предательству.

Не всегда. Люди часто сотрудничают и в таких случаях. Мы уже обсуждали в «ИИ вряд ли будут честны», откуда мог взяться этот аспект человеческой натуры. Наши эмоции и инстинкты созданы естественным отбором. А это оптимизатор с очень узким информационным «бутылочным горлышком». Он мог дать нам лишь относительно простые и широко применимые порывы. Другой фактор — культуры, высоко ценящие честь. Особенно с поощрением её универсальности и распространения.

† Есть и мотивация получить исход (Предать, Сотрудничать) в свою пользу. Потому Дилемма и является Дилеммой. Но только одна сторона заинтересована в этом. Зато обе стороны предпочитают исход (Сотрудничать, Сотрудничать) исходу (Предать, Предать). Потому возможностей для достижения этого результата больше.

‡ Пожалуй, можно сравнить это с исторической практикой, когда два правителя скрепляли союз, вступая в брак и заводя ребёнка. Но, очевидно, у людей это решение медленное и не особо надёжное. Ему очень далеко до совместного создания представителя с абсолютным пониманием и доверием обеих сторон.

§ Тут «доказательство» заменяет более общие методы рассуждения. Доказательства — что-то вроде рассуждений на пределе логической достоверности. Мы не думаем, что в реальной жизни ИИ будут работать на доказательствах (в том числе, но не только, потому, что, хотя логические доказательства и достоверны, они могут оказаться неприменимы к реальной ситуации). Но в исследованных нами игрушечных моделях доказательство служит полезным формальным аналогом рассуждений.

¶ Затем мы пошли дальше и определили агентов вроде PrudentBot. Он предаёт некоторых «простаков», но сотрудничает с теми, кто не простак и доказуемо сотрудничает с самим PrudentBot. Этот результат больше впечатляет тех, кто уже увлекался теорией игр.

‖ Мы провели весь этот анализ не для обоснования, почему суперинтеллект не будет инструментально соблюдать свои ранние договорённости, если у него нет терминальных предпочтений по поводу честности. Это и так было совершенно прямым предсказанием классической теории игр.

Но классическая теория игр к тому же предполагала, что суперинтеллекты будут беспомощно предавать друг друга. Это интуитивно показалось нам довольно подозрительным. Мы проследили за этой интуицией и нашли в классическом анализе изъяны. В процессе мы выяснили много нового о том, как суперинтеллекты потенциально могли бы достичь взаимного сотрудничества в «Дилемме заключённого». И, к сожалению, конечный результат был в том, что смертные люди не могут доверять этой технологии заключения сделок и участвовать в ней наравне с суперинтеллектами.

# В случае с ИИ это не так-то просто: недостаточно понять, верят ли они, что сдержат слово. Нужно заглянуть в тот суперинтеллект, которым ИИ станет позже, и правильно проанализировать его процессы принятия решений. Это гораздо сложнее.

Эффективность, сознание и благополучие ИИ

→

Отступление о теории игр

Посчитает ли ИИ полезным нас оставить?

Будет ли ИИ относиться к нам как к своим «родителям»?

А ИИ не потребуются работающие законы?

А разве затраты на сохранение человечества не будут пренебрежимо малы для мощного ИИ?

Разве ИИ не сочтёт нас занятными или исторически важными?

Разве ИИ не признает нашу неотъемлемую моральную ценность?

Разве ИИ не захочет, чтобы мы были счастливы и здоровы? Ради сохранения экологии или из-за какого-то похожего стремления?

Но мы вот оставили лошадей. Что б ИИ не оставить нас?

Неужели ИИ не будет хоть немного ценить людей?

Так есть хоть какой-то шанс, что ИИ оставит нас в живых?

Люди пытаются сделать ИИ дружелюбным. Разве это совсем не имеет значения?

А можно заставить ИИ пообещать быть дружелюбным?

А если заставить ИИ думать, будто он в симуляции?

Люди стали эгоистичными, агрессивными и жадными в ходе эволюции. Откуда таким стремлениям взяться у ИИ?

А разве ИИ не будет заботить только цифровой мир?

Может, достаточно удовлетворённый ИИ просто оставит нас в покое?

Может, просто сделать его ленивым?

Люди, становясь умнее или мудрее, обычно и добреют. А с ИИ не так же?

Разве он не поймёт, что его цели скучны?

Почему вы считаете, что умный ИИ будет заниматься такими глупыми, пустяковыми вещами?

Вы просто пессимисты?

Будет ли ИИ умнее людей обладать сознанием?

Почему вас заботят только человеческие ценности?

Расширенное обсуждение

Как взглянуть с точки зрения ИИ?

Люди почти никогда не бывают самым эффективным решением