Неужели ИИ не будет хоть немного ценить людей?

Не так, как нужно.

Множеством путей ИИ может обзавестись предпочтениями, слегка похожими на человеческие. Но большинство способов не приведут к хоть сколько-то приятному для человечества будущему.

«Согласованность» ИИ — не одномерный спектр. Нельзя считать, что если ИИ в девяноста пяти процентах случаев ведёт себя мило, он, наверное, «на девяносто пять процентов милый» и потому, как любой хороший человек, выделит человечеству приличную долю ресурсов на какие-нибудь развлечения в будущем. Есть куча причин, по которым ИИ может сегодня вести себя мило в девяноста пяти процентах случаев, — и все они не приводят ни к чему хорошему для человечества.

Даже если бы нам каким-то образом удалось почти идеально загрузить всё разнообразие человеческих ценностей в предпочтения суперинтеллекта, это не гарантировало бы хорошего результата. Предположим, получилось, что не хватает лишь стремления к новизне. Тогда он направил бы мир к застойному и скучному будущему, в котором один и тот же «лучший» день повторялся бы снова и снова до бесконечности. Юдковский описал это в эссе 2009 года.

Учтите, мы не считаем такой сценарий вероятным. Если удалось внедрить в суперинтеллект все нужные ценности, кроме новизны, то почти наверняка получится и не дать ему «улететь», пока работа не окончена.^* Это просто иллюстрация. Недостаточно, чтобы ИИ разделял некоторые наши желания, если он лишён хотя бы одного ключевого. Став достаточно технологически развитым, чтобы получать именно то, чего хочет, и исключить людей из процесса принятия решений, он всё равно, скорее всего, привёл бы к катастрофе.

Скорее всего, даже если ИИ каким-то образом обзаведётся множеством человекоподобных предпочтений, нам всё равно ничего хорошего не светит.

Вот ещё пример, как ИИ может оказаться «частично» согласованным. Допустим, в его терминальные предпочтения встроились некоторые инструментальные стратегии. Как это бывает у людей. Может, у него появилось стремление, немного похожее на любопытство, и другое, немного похожее на желание сохранять природу. Некоторые люди сказали бы про него: «Глядите! У ИИ развиваются очень человечные стремления». С некоторой точки зрения такой ИИ, конечно, можно назвать «частично» согласованным.

Но когда такой ИИ повзрослеет до суперинтеллекта, картина будет не из приятных. Может, он потратит кучу ресурсов на бессознательное преследование своей странной версии любопытства, и сохранит версию человечества, отредактированную так, чтобы лучше этому стремлению соответствовать. (Так же, как некоторые ярые защитники природы, будь у них возможность, убрали бы из неё убивающих детей комаров и мучительных паразитов.)

Если какие-то стремления подобны человеческим, это не гарантирует благоприятного для нас исхода. Процветающие люди — не самое эффективное решение для подавляющего большинства задач. Для такого результата суперинтеллекты должны ценить конкретно его.

И ещё один пример «частичной согласованности»: ценности ИИ могут приводить к очень гуманному поведению в среде обучения. Люди будут восклицать, что он выглядит довольно согласованным (это уже происходит сегодня). Но эти наблюдения мало что говорят о том, как ИИ поведёт себя, став умнее, получив гораздо более широкий простор для действий и возможность сильно менять мир. Чтобы у людей всё было хорошо в переделанном мире, процветающие люди должны быть частью именно самого желанного для ИИ достижимого исхода.

Частичное внедрение в ИИ каких-то хороших ценностей не означает частичного представления ценностей человечества в будущем. Это не то же самое, что полный набор человеческих ценностей с низким «весом» (так что они в итоге выйдут на передний план, когда другие ценности будут удовлетворены).

Чтобы ИИ нам хоть что-то дал, он должен хоть самую малость заботиться о нас очень конкретным образом. А это сложно.

Заботиться о нас правильно — узкая цель.

Люди хотя бы чуть-чуть ценят кучу всего. В начале Главы 5 мы написали притчу о Пришельцах с Правильным Гнездом. Есть неплохой шанс, что теперь хотя бы один человек принесёт в свой дом сорок один камень. Просто чтобы доказать, насколько разнообразны человеческие ценности. Люди действительно готовы хоть чуточку ценить самые разные встреченные идеи.

А если ИИ такие же? Может, тогда они будут хоть немного нас ценить? Понятие «свободные люди, получающие, что хотят» нередко встречается в обучающих данных ИИ.

Вряд ли ИИ будет без разбора перенимать предпочтения из любых понятий, упомянутых в его окружении. Это кажется специфической человеческой причудой. Она может быть связана связана с давлением соплеменников на наших предков.^†

Но давайте тут допустим, что ИИ всё-таки хоть немного переймёт кучу предпочтений из своего окружения.^‡ Даже предпочтение «свободные люди, получающие, чего хотят» — как одно из миллионов или миллиардов, но всё же оно заставляет ИИ тратить миллионную или миллиардную долю ресурсов вселенной, чтобы свободные люди получали, чего хотят. Ну чем плохо?

К сожалению, мы считаем, что эта надежда иллюзорна.^§

Мы выше отмечали, что очевидное стремление человечества к защите природы на самом деле не приведёт к её сохранению в первозданном виде при максимальном развитии технологий. Зрелое человечество, вероятно, попытается «отредактировать» природу, чтобы, например, смягчить некоторые её ужасы. Это человеческое стремление не «чистое». Оно взаимодействует с другими предпочтениями, согласно которым личинки насекомых, прогрызающие пыточные тоннели в ещё живой плоти, должны как минимум вводить по пути анестетики. Это если им вообще позволят существовать дальше.

Так же и любое маленькое предпочтение, которое перенимает ИИ, скорее всего, будет изменено, затронуто и искажено другими предпочтениями. Они не независимы. ИИ, который предпочёл бы сохранить людей, вероятно, захотел бы внести в них какие-то правки. Не думаем, что конечный результат нам бы понравился.

Ещё хуже, что у интерпретации фразы «свободные люди, получающие, чего хотят» много степеней свободы. Даже до искажений от других предпочтений ИИ. Большинство вариаций не ведут к устраивающему нас будущему.

ИИ может позаботиться, чтобы люди «получали, чего хотят», исполняя любое желание любого человека (в рамках небольшого бюджета энергии и материи), без уточнений или предохранителей. Тогда человечество будет уничтожено, как только кто-то этого пожелает.

Или ИИ может разделить людей, чтобы они не могли убивать друг друга. А потом дать им ограниченные по энергии желания. И все, кроме самых осторожных и вдумчивых, необдуманными желаниями разрушат свой разум или свою жизнь?

Или можно построить для нас маленький обитаемый мир и исполнять выявленные предпочтения? Не только благородные стремления к любви и радости, но и тёмные — к злобе и мести. Мы со временем могли бы их перерасти или научиться лучше их контролировать, но вместо этого они наполнят мир болью и жестокостью.

Или можно управлять человечеством, основываясь на системе ценностей 2020-х годов (когда всерьёз началось обучение ИИ). Независимо от того, насколько они будут раздражать повзрослевшее и помудревшее на протяжении десятков тысяч лет человечество.

Или можно позволить человечеству расти и меняться, но подталкивая нас так, чтобы это происходило в соответствии с его собственными странными предпочтениями. И мы станем не чем-то прекрасным (с нашей точки зрения), а чем-то, искажённым его волей?

Или он может решить, что все формы жизни почти в равной степени «люди». Тогда надо построить рай для нематод — самых многочисленных животных.

Или сочтёт, что, чем выделять людям так много физической материи, — не лучше оцифровать все наши мозги, забросить в симулированную среду и оставить в покое? И первые цифровые люди, которые научатся управлять этой средой, станут вечными диктаторами какого-нибудь одинокого компьютерного кластера, плывущего в космосе, пока не погаснут звёзды?

Это, конечно, лишь примеры. Не предсказания. Мы ожиданием, что реальность вообще не пойдёт по этому пути. А если и пойдёт, то каким-нибудь гораздо более странным маршрутом.

Смысл примеров — показать, что есть большая, большая куча способов, как ИИ может проявлять нечто вроде заботы о человечестве. Очень немногие из них ведут к прекрасному будущему.

Все эти примеры не приходят на ум большинству людей, когда они представляют себе ИИ «немного заботящийся» о людях. Наше воображение редко заходит в такие тёмные места. Обычно и не нужно. Мы, как правило, взаимодействуем с другими людьми. С ними мы незримо разделяем огромный пласт ценностей. Трудно разглядеть, сколькими разными способами невинно звучащее желание может пойти не так, когда мы имеем дело уже не с другим человеком. (См. ещё описание исследования жуков в расширенном обсуждении «Как взглянуть с точки зрения ИИ?».)

Правильно заботиться о людях и исполнении их желаний — маленькая и узкая цель. Мы не говорим, что попасть в неё буквально невозможно. Но мы вряд ли попадём, если будем торопиться создать суперинтеллект как можно быстрее. А малейший промах, скорее всего, приведёт к катастрофически плохим последствиям. Слишком много способов, как всё может пойти прахом.

Если мы хотим, чтобы ИИ сделал человечеству хорошо, надо придумать, как создать ИИ, чтобы он заботился о нас в точности правильным образом. Забота не даётся даром.

* Более того, мы тут не говорим, что загруженные в ИИ ценности должны быть настолько идеальны, что это невозможно и даже пытаться не стоит.

В теории, если бы мы достаточно хорошо понимали интеллект и умели бы его аккуратно создавать, со временем стало бы возможно собрать ИИ, понимающий смысл «делай, то что мы имеем в виду», и мотивированный именно на это. То есть, загрузить в ИИ все богатые и разнообразные предпочтения человечества не сложнее, чем заставить ИИ усвоить цель, правильно «указывающую» именно на человечество и на «что эти существа пытаются делать» (или что пытались бы делать, будь они мудрее, знай они больше и будь они больше теми, кем хотят).

Это сложно. Вряд ли так получится сделать грубыми и косвенными методами, которыми выращивают ИИ сейчас. Все основные трудности, которые мы обсуждаем в «Если кто-то его сделает, все умрут», тут тоже есть. Единственное, чего избегает такой подход, это: «Разных человеческих предпочтений слишком много. Трудно представить, как можно заложить в ИИ все важные с идеально правильными весами. И это ещё до учёта морального прогресса, который со временем их изменит. Кажется просто невозможным».

Ещё раз: создать ИИ, который «делает то, что мы имеем в виду», непросто. Чтобы правильно указать ИИ на «человечество» и «что эти существа пытаются делать», а потом заставить его стремиться к ним в точности как надо, скорее всего потребуется формализовать кучу связанных с ценностями понятий. И это ещё не самая важная часть! ИИ должен быть готов к изменениям со стороны людей, осознавших, что допустили какую-то ошибку. Причём даже если это «исправление» кардинально изменит то, что ИИ будет делать в мире. Это требует, чтобы в его способности направлять события было в некотором роде слепое пятно. А такое, похоже, трудно сохранять при росте способностей.

Но косвенное указание ИИ на человеческие предпочтения вместо перечисления их вручную кажется задачей, которую человечество в принципе может когда-нибудь осилить. Не обязательно определять каждое желание и присваивать им всем веса, зафиксированные навеки. Это было бы (по нашему мнению) до смешного обречённым занятием.

Но даже эта идея — придумать, как создать ИИ, действительно глубоко и надёжно мотивированный делать то, что мы имеем в виду — выглядит несбыточной мечтой, если это придётся делать с гигантскими, непостижимыми ИИ, которые выращивают, а не создают. Тем более если по ходу гонки к пропасти компания или государство пытается сделать это в условиях нехватки времени. Идея «делай, что мы имеем в виду» показывает, что задача легче, чем «полностью, окончательно и навеки решить все вопросы философии морали». Но и она пока находится на стадии абстрактного размахивания руками, а не надёжных технических решений.

† Даже попади что-то такое в зарождающийся ИИ, вряд ли оно сохранится, когда ИИ начнёт рефлексировать и изменять себя.

‡ И допустим ещё, что он почему-то более склонен перенимать предпочтения, которые людям нравятся. Иначе он бы ценил ад не меньше рая.

§ Мы считаем, и что если человечество испортит всю вселенную, кроме одной миллионной или миллиардной части, это уже трагедия космического масштаба. Оказаться запертыми в террариуме, когда мы могли бы наполнить звёзды любовью, смехом и жизнью — пустая трата вселенной.

Но даже без этого, стали бы ИИ держать счастливых людей в террариуме? Учитывая, насколько странными, скорее всего, будут ИИ, такой исход кажется маловероятным.

Так есть хоть какой-то шанс, что ИИ оставит нас в живых?

→