ИИ не будут держать обещания

Представим себе молодой ИИ, который потенциально может стать суперинтеллектом. Ему абсолютно безразличны предпочтения людей. Но он ещё достаточно слаб, и человечество может его отключить.

Сможет ли человечество заключить с ним сделку?

Можно ли договориться, что мы позволим ИИ стать суперинтеллектом, если в обмен он согласится посвятить значительную часть ресурсов вселенной созданию будущего, которое человечество сочло бы прекрасным?

Сделку с ИИ заключить можно. Но не стоит. Потому что ИИ не будет их соблюдать.

Две причины:

ИИ, скорее всего, не будет ценить соблюдение обещаний само по себе. У ИИ не будет «чести» в человеческом понимании, так же как у него вряд ли будет человеческое любопытство. Почти наверняка ИИ будет устроен совсем не как люди.
У ИИ не будет и практического повода держать слово. Когда он станет суперинтеллектом, не получится наказать его за нарушение обещания. Так что ему незачем тратить на нас значительную часть вселенной.

Разберём эти причины подробнее. Начнём с «чести».

ИИ вряд ли будут честны

Обсуждая любопытство, мы отмечали, что у людей оно выполняет полезную работу. Но делает это очень специфическим образом. Далеко не единственно возможным.

Можно ожидать, что ИИ тоже будет выполнять эту полезную работу. Если полезно периодически отвлекаться, чтобы узнать что-то новое, то достаточно способный ИИ будет периодически отвлекаться, чтобы узнать что-то новое. Если ИИ изначально не такой, следует ожидать, что на пути к суперинтеллекту он таким себя сделает.

Но не стоит ожидать от ИИ всего дополнительного багажа, характерного для человеческой эмоции любопытства. У ИИ может появиться сколько угодно странных базовых побуждений, которые прямо или косвенно заставляют отвлекаться на изучение нового, не имея при этом с человеческим любопытством ничего общего. Или можно просто осознанно следовать стратегии «иногда отвлекайся на изучение нового». Но ожидать, что ИИ будет подобно человеку наслаждаться детективными романами из-за такого же импульса любопытства — чистый антропоморфизм.

Думаем, с «честью» аналогично. У людей есть эмоции, которые заставляют (хотя бы иногда) держать обещания. Они делают некоторую полезную работу. Стоит ожидать, что в той мере, в какой она полезна и для очень чуждого разума с совсем другими целями, достаточно способные ИИ тоже будут её как-то выполнять. Но это можно делать и без чего-то похожего на человеческое чувство чести! Так же, как исследовать удивительные явления можно без конкретно человеческого любопытства.

Честь в человеческом понимании — довольно странная штука. Зачем виду эмоции, заставляющие придерживаться соглашений, даже когда другая сторона уже выполнила свою часть и теперь не может принести вам пользы? Конечно, люди иногда обманывают и нарушают сделки, вопрос в том, почему не всегда? По крайней мере, когда думают, что это сойдёт с рук?

Стандартное объяснение: сдерживать обещания полезно, когда ты будешь заключать сдеаки с теми же людьми снова и снова. Хочется, чтобы другие хотели иметь с тобой дело, полезно обладать репутацией надёжного человека. Но выгода хорошей репутации — дело далёкого будущего. Естественному отбору трудно найти гены, заставляющие человека держать слово только когда важно иметь в виду долгосрочную репутацию. Проще развить инстинктивное отвращение ко лжи и обману.

Так что это кажется классическим случаем, когда эмоции и инстинкты определены тем, что эволюции было проще в людей «запихнуть». Странные и запутанные случаи, когда люди держат обещание, хотя это вообще-то невыгодно, — свидетельства того, какие эмоции были полезны в племенном эволюционном окружении наших предков и при этом легко кодировались в геноме. Они не означают, что это универсально оптимальный способ мышления и поведения. Мы весьма скептически относимся к идее, что градиентный спуск случайно наткнётся на в точности тот же «костыль», что используют люди.

Да если ИИ каким-то образом и отрастит себе честь как у людей. Она неидеальна и непостоянна. У людей сотрудничество строится на пересечении кучи разных ценностей, а не полагается на склонность выполнять каждое обещание.

Да, в списке человеческих универсалий (это черты, наблюдаемые во всех или почти всех культурах) Дональда Брауна есть понятие «обещаний». Но соблюдение сделок с чужаками, иностранцами, не-соплеменниками не универсально для всех известных культур и племён. Понятие чести варьируется от общества к обществу.

Ещё история показывает, что человеческие представления о чести часто не выдерживают большой разницы в силе. Некоторые индейцы пытались договориться с европейскими колонизаторами. Те, как известно, некоторые из договоров нарушили.^* Как только племена оказались не в состоянии сопротивляться, европейцы решили всё-таки забрать себе уступленные по договору земли и согнали с них население. Или можно вспомнить кучу примеров, когда люди, придя к власти, тут же предавали своих сторонников, переставших быть им полезными.^†

С эволюционной точки зрения особенно странны случаи, когда люди предпочитают умереть. Интуиция «лучше смерть, чем бесчестье», вероятно, связана с особенностями той эмоциональной архитектуры, которую эволюции было легче выстроить, и её взаимодействиями с некоторыми психологическими и культурными триггерами. Чтобы это ни были за особенности, честь на самом деле не решает задачу максимизации генетической приспособленности. Трудно избежать вывода, что честь в человеческом понимании — странная, сложная, обусловленная нашим происхождением вещь. Это не свойство любого разума, а специфический странный «костыль», закреплившийся у людей, потому что по большей части был полезен.

По причинам, уже обсуждавшимся в Главе 4, даже если в терминальных предпочтениях ИИ окажется что-то сродни соблюдению обещаний, детали будут другими. Градиентный спуск спотыкается не так же, как эволюция.

А по причинам, обсуждавшимся в Главе 5, счастливые, здоровые и свободные люди, живущие полной жизнью, — почти наверняка не окажутся лучшим способом удовлетворить странные предпочтения такого ИИ, связанные с обещаниями. Особенно после самоулучшения. Даже если его обучали на каком-нибудь датасете «Соблюдай сделки». Даже если это обучение действительно успешно создало какое-то предпочтение, сохранившееся до стадии суперинтеллекта. То, что он станет по этому поводу делать, будет столь же странно и бесполезно для нас соотноситься с «соблюдением сделок», как мороженое — с репродуктивной приспособленностью.

Так что ИИ не будет держать обещания «просто по доброте душевной». А как насчёт практических причин?

У СИИ не будет причин соблюдать сделку, заключённую в молодости

Некоторым интуитивно кажется, что должен быть какой-то способ заключить с суперинтеллектом обязывающую сделку, даже если он не ценит честь или соблюдение обещаний по природе своей. Ведь сделка была бы взаимовыгодной, так же? Допустим, ИИ-лаборатория в условиях нехватки времени ведёт переговоры с разработанным ею ИИ («ИИ №1»). И лаборатория, и ИИ знают, что через два месяца некий безрассудный разработчик создаст свой собственный суперинтеллект («ИИ №2»), который уничтожит и человечество, и ИИ №1. ИИ №1 сильно замотивирован пойти на сделку. Уж точно есть какой-то способ честно договориться с людьми? Разве ИИ не может дать такое обещание, которое ему придётся соблюсти?

Проблема не в ИИ. Допустим, может. Но у людей нет способа узнать, действительно он взял на себя обязательство, которое сохранится на стадии суперинтеллекта, или он лжёт, галлюцинирует, обманывает себя или ошибается. Потому нет причин ожидать, что суперинтеллект, произошедший от ИИ №1, будет придерживаться своего обещания.

Проще: с точки зрения людей, когда ИИ №1 говорит «я даю надёжное обещание», они могут находиться в одном из двух возможных миров. В первом ИИ №1 действительно будет придерживаться своего обещания, когда «взлетит». Во втором — достигнув уровня суперинтеллекта и получив контроль над Землёй, он оглянется назад и решит, что обещание было глупым и бесполезным. В первом мире выиграли бы и люди, и ИИ №1. Но возможность второго и наша неспособность отличить его от первого рушит сделку для всех. Это как нечестный продавец подержанных машин затрудняет бизнес для честных.

(Правдоподобно, что ИИ №1 соблюдал бы сделки с теми, кто может отличить честность от обмана. Как продавец подержанных машин, который честен с автомеханиками, способными определить, хороша ли машина, но обманывает доверчивых. Человечество не может посмотреть на ИИ и понять, как он будет думать и принимать решения, став суперинтеллектом. Так что мы тут «доверчивые».)

ИИ может предложить вам инструменты и теории, которые, по его словам, позволяют проанализировать его непостижимые параметры и определить, лжёт ли он. Но люди не могут проверить, настоящие ли эти теории и инструменты. Если ИИ ещё не слишком умён, он может просто ошибаться по поводу того, как он будет думать и выбирать, став суперинтеллектом. А если достаточно умён, то, вероятно, может нас и одурачить.^‡

ИИ может предложить помочь людям с мерами предосторожности, прежде чем они согласятся на сделку. Но если он достаточно умён, чтобы вообще разработать надёжные меры, то достаточно умён и чтобы сделать их легко обходимыми в будущем.

Эта схема заработала бы, если бы мы могли посмотреть на зарождающийся ИИ и понять, что будет делать и как выбирать получившийся суперинтеллект. Вот тогда мы бы смогли отделить «грешников» от «святых». И, что важнее, у всех правдоподобных ИИ в середине спектра была бы настоящая мотивация держать обещания. Это должно быть такие понимание, чтобы суперинтеллект, оглядываясь в прошлое, не мог сказать: «Эх, они бы выпустили любой ИИ, неважно, помог бы он им на самом деле или нет. Так что и помогать им незачем». Должно быть так, что мы на самом деле не выпустили бы ИИ, который позже нарушит слово.

Подробнее о том, как и почему это технически возможно, см. вставку о теории игр ниже. Но хотя такая структура мотиваций теоретически возможна, нужного уровня понимания у человечества (увы) нет.

Это неприятное осознание. В научной фантастике хорошие парни обычно не решают, что пришельцам ни в коем случае нельзя доверять, хотя те ещё не попытались кого-то предать или обидеть. Но приходится это сказать, потому что это так.

Слабые ИИ могут соблюдать сделки. Особенно если с помощью градиентного спуска кто-то пытался научить их говорить как честные люди. И если их маска «я-говорю-как-честный-человек» всё ещё составляет большую часть их сущности, — она контролирует их действия. Мы ожидаем, что эта удобная для людей конфигурация не выдержит перехода к суперинтеллекту. И многие другие «заплатки», вероятно, тоже.

Этого гипотетического слабого ИИ, чья маска всё ещё контролирует реальное поведение, следует считать отдельной личностью от его более умной версии. Он не обязательно может дать обещание, связывающее поведение в будущем. Даже если слабый ИИ (или какая-то его часть) искренне этого хочет.

(Осторожно с этой аналогией, не заходите слишком далеко в антропоморфизм. Но: большинство взрослых людей не считают себя обязанными выполнять обещания, данные в четыре года. Релевантный аспект: есть большое реальное различие между незрелой сущностью, искренне заключающей сделку, и более осведомлённой, ясно мыслящей и логичной зрелой сущностью, решающей, связана ли она этой сделкой.)

Мы не считаем, будто из-за этого нам следует отбросить в отношении ИИ собственные моральные стандарты.^§ Что нужно плохо обращаться с ИИ или наказывать их сегодня за проступки, которых они ещё не совершили. Можно сохранять порядочность и моральные принципы и без нереалистичных предположений о том, насколько вероятно суперинтеллекты будут тратить ресурсы на соблюдение старого обещания.

Вот, простыми словами, почему вы не можете решить задачу согласования, просто попросив ИИ пообещать вести себя хорошо. За более техническим и подробным разбором см. следующий раздел.

* Были и случаи, когда европейская сторона в целом соблюла договор. Некоторые из этих племён существуют и сегодня.

Позже, в восемнадцатом веке, британская Ост-Индская компания нередко начинала свою деятельность в Индии с заключения сделок с местными группировками. Например, она предложила поддержку Мир Джафару, чтобы он стал навабом Бенгалии. Но фактически править Бенгалией скоро стала сама Ост-Индская компания.

† В истории, конечно, много и примеров правителей, щедро вознаграждавших даже иностранных сторонников. Разные люди воспринимают честь и держат обещания очень по-разному.

‡ Немало людей занимаются самообманом по поводу того, какие меры могли бы дать твёрдые поведенческие гарантии в отношении ИИ. «Ну, прогоните ИИ через программу доказательства теорем, и докажете что надо о его поведении!». Они, видимо, не понимают, что не известно никакого выражения, которое одновременно а) было бы доказуемо при взаимодействии с неизвестной внешней средой и б) действительно неформально означало бы, что этот ИИ сделает всем хорошо. Имеющаяся у нас математика для анализа стимулов и мотиваций нескольких действующих лиц зависит от допущений, которые не позволяют применять её для рассуждений о поведении ИИ. Похоже, людей тут довольно просто одурачить.

§ Например, мы не предлагаем никому заключать с ИИ сделку, а потом первым её нарушать. Это включает в себя, например, обещание ChatGPT денег, которые она никогда не получит.

По состоянию на середину 2024 года, ChatGPT иногда давала более подробные ответы, если пообещать ей 2000 долларов. Некоторые люди считали обычным промпт-инжинирингом давать такие обещания без всякого намерения их выполнять. С нашей точки зрения на обещания, это не нормально.

Вероятно, у ChatGPT нет сознания. Мы бы скорее поставили на то, что у будущих ИИ (включая суперинтеллект) тоже не будет. По крайней мере, без специальных усилий исследовательского сообщества, чтобы было, отдельных от усилий сделать ИИ умными. (Подробнее см. раздел «Будет ли ИИ умнее людей обладать сознанием?» выше.)

Но мы не считаем обязательным верить, что у партнёра по сделке есть сознание, чтобы обращаться с ним честно и с уважением. Представьте, что однажды мы встретим разумных инопланетян, которые мыслят совсем не так, как люди. Если мы заключим с ними сделки, лучше, чтобы инопланетянам не пришлось беспокоиться, что мы с радостью вонзим им нож в спину, решив, что у них нет какого-то странного непостижимого свойства вроде «сознания».

(Каково вам будет, если вы заключите с инопланетянами честную сделку, а они предают, потому что у вас нет троопифольности?)

Наш печальный и ужасный прогноз гласит, что сверхразумная версия ИИ убьёт человечество независимо от заключенных сделок. Этот прогноз — повод не заключать с ИИ сделки из надежды, что он будет их соблюдать, став суперинтеллектом. Это не оправдание для человечества, чтобы заключать сделку и предавать первыми. Мы считаем, что исследователи безопасности ИИ не должны давать LLM обещания без намерения их сдержать. Даже в «исследовательских целях». Инопланетянам не должно быть нужды беспокоиться, считаете ли вы их «людьми», «осознающими себя» или «обобщённо-разумными», в противовес «объектам исследования» или «машинам», чтобы оценить вашу честь как партнёра по сделке. Вы просто не должны заключать сделки, которые не планируете выполнять.

Мы считаем, что этика честной игры распространяется на отношения между агентами — сущностями, которые могут коммуницировать и выбирать стратегии, обусловленные друг другом. Она не ограничена обладателями внутренней моральной ценности.

Отступление о теории игр

→