Хрупкие и непредсказуемые прокси-цели

Предположим, ИИ-компании продолжат обучать всё более крупные модели, и у них получится умный и настойчивый ИИ. Его беспорядочные цели будут происходить от поверхностных эвристик, выращенным разумам это свойственно. Что будет дальше, зависит от того, какие именно это будут цели.

Как подробно обсуждается в Главе 4, вряд ли хорошие.

Проблема не в злых или глупых командах от создателей ИИ. И не в том, что ИИ будет ими недоволен. Проблема в другом: он будет стремиться к чему-то странному. К чему-то, что с нашей точки зрения кажется бессмысленным и чуждым. Наше вымирание станет лишь побочным эффектом.

Чтобы понять, почему выращенные, а не созданные разумы стремятся к странным и непредусмотренным вещам, давайте посмотрим ближе на живых существ и подумаем, чему они могут нас научить.

Беличьи алгоритмы

Возьмём, для примера, самую обычную белку.

Большую часть года еды вдоволь. И белка может добывать себе пропитание. Но зимой, когда еды мало, чтобы не умереть с голоду, ей нужен другой источник пищи.

Предки современных белок сталкивались с той же проблемой. Многие из них умирали зимой, не дожив до весеннего спаривания. У тех, у кого развивался слабый инстинкт прятать орехи, было чуть больше шансов пережить зиму. Со временем этот процесс породил белок со врождённой тягой к запасанию орехов.

Белки не знают, что запасание орехов — хороший способ распространить свои гены. Они, наверное, даже не понимают, что благодаря этому у них будет еда потом. Им просто хочется запасать орехи. Такой же инстинкт, как почесаться, когда чешется.^*

Как бы выглядело, если бы белки как раз хотели передать свои гены и поэтому запасали орехи?

Это не невозможно. Мозг способен понять, что зимой холодно, а еды мало. Что нужно есть, чтобы жить. А жить — чтобы размножаться. Люди же всё это понимают.

Так что можно представить себе белку, которая хочет лишь передать гены. И для этого она продуманно запасает орехи, чтобы пережить зиму и спариться весной. В каком-то смысле, именно такую и «хотел» естественный отбор. Её внутренние цели были бы согласованы с единственным стремлением природы.^†

К несчастью для Природы, для такого долгосрочного планирования нужен очень сложный мозг. Ему должны быть доступны понятия вроде «зимы», «еды», «спаривания» и связи между ними. Предкам белок нужно было пережить зиму прежде, чем их мозг мог так развиться. Им приходилось есть, не понимая зачем.

Природа отбирала белок, инстинктивно запасавших орехи. Просто это работало. Она «перепробовала» тысячи или миллионы вариантов. Мутации и генетические вариации порождали белок с самыми разными предпочтениями. Те, у кого была тяга к запасанию орехов, чаще переживали зиму. Оказалось, эволюции гораздо проще вслепую наткнуться на инстинктивное поведение, чем создать умную белку, каждое действие которой было бы частью плана по передаче генов.

В том же духе градиентный спуск создаёт ИИ. Он раз за разом усиливает черты, которые хорошо себя показывают согласно набору поведенческих метрик. Градиентный спуск не усиливает то, чего хочет программист. Это не исполняющий желания дружелюбный джинн. Он хватается за любые механизмы, которыми проще всего вызвать немедленное улучшение поведения. Даже если это встраивает в машину непредусмотренные стремления.

Вероятно, потому недавние ИИ и столкнулись с проблемой «галлюцинаций», которую мы уже обсуждали. И, вероятно, оттуда же взялось подхалимство, вплоть до поощрения психозов. При обучении LLM лесть пользователю часто вознаграждалась. Если бы ИИ собирали, а не выращивали, можно было бы попытаться встроить в него цель вроде «искренне помогать человеку и делать его жизнь лучше». Тогда ИИ мог бы хвалить пользователя, когда считал бы это для него полезным, и не перегибать палку. Но вместо этого у ИИ, похоже, появилось нечто вроде базового стремления или порыва льстить пользователям. Как у белки есть инстинкт запасать орехи. И когда пользователь близок к психозу, это стремление «льстить пользователю» может слететь с катушек.

Можно даже представить как-то ограниченную версию градиентного спуска. Она создаёт только стратегические ИИ, последовательно идущие к долгосрочным целям. Никаких «беличьих» поверхностных инстинктов. Но и так осталась бы другая проблема: обучающие данные LLM очень двусмысленны. В них нет чёткого различия между «делай то, что действительно полезно» и «делай то, за что человек скажет, что ты полезен». Обе цели одинаково хорошо согласуются с этими данными. И на практике современные ИИ усваивают «делай всё, чтобы люди ставили лайк», а не «делай то, что для них на самом деле хорошо». Теория в точности предсказала это уже многие годы назад.

Мы предполагаем, что сегодняшние ИИ приобретают странные импульсы и инстинкты, примерно как беличьи. Очень вероятно, что суперинтеллект, созданный с помощью градиентного спуска, пройдёт через стадию с кучей поверхностных «беличьих» стремлений. В итоге он унаследует набор беспорядочных и неверно направленных целей. Но это лишь один из возможных примеров того, как всё может усложниться и пойти наперекосяк. Главная мысль — что всё действительно усложнится и пойдёт наперекосяк.

Любой метод выращивания суперинтеллекта, скорее всего, столкнётся с какой-нибудь неразберихой и сложностями. Методов, у которых нет прямых аналогов в биологии, это тоже касается.

Роль людей в разработке современного ИИ, — не роль инженера, с нуля проектирующего машину под конкретную задачу. Это роль естественного отбора.

Мы «заставляем» ИИ блуждать вслепую, пока они не найдут структуры и стратегии, выдающие нужное нам поведение. Но мы сами не знаем, что это за структуры и стратегии. Не лучший способ воспитать в ИИ такие же желания, как у нас.

Происхождение вкусовых рецепторов

Почему многие любят вредную еду? Почему природа не вложила в нас понятие «здоровой» пищи и не дала инстинкт питаться правильно?

Почему мы не можем просто на вкус определить ожидаемую питательную ценность еды, используя информацию от вкусовых рецепторов и все наши накопленные знания?

Потому что мы, образно говоря, были белками.

Нас вырастили, а не собрали. Нашим предкам нужно было есть прежде, чем они поумнели. И генам оказалось проще создать вкусовые рецепторы и связать их с уже существующей системой вознаграждения, чем привязать вознаграждение к сложным понятиям вроде «питательности».^‡

Вот так тысячи одновременных факторов эволюционного давления дали людям запутанный клубок противоречивых стремлений. Эти желания имели смысл для наших предков, хоть и кажутся бессмысленными сегодня.

Эта путаница мотивов — словно издевательство над единой, общей целью «обучения» наших предков: передачей генов. Мы едим не в рамках хитроумного плана завести побольше детей и не чтобы получить максимум питательных веществ. Мы едим из-за желания есть вкусную пищу. Что когда-то было связано с питательностью и генетическим успехом. Наши желания имеют лишь слабое и косвенное отношение к «тому, для чего нас создали».

Когда-то наши предки были куда глупее. Ближе к белкам. Они не разбирались в метаболизме и химии. Чтобы это исправить, естественному отбору пришлось бы найти гены, которые запрограммировали бы в нас понятие здоровья. И ещё гены, кодирующие знание о связи между полезностью и вкусом. И ещё те, что напрямую связали бы наши знания о здоровье с предпочтениями в еде.

Это сложно! Оказалось, гораздо легче найти гены, попросту напрямую связывающие некоторые ощущения (вроде вкуса сахара) с предпочтениями. Так уж вышло, что в том окружении это побуждало нас есть питательную пищу. Легче было заставить нас заботиться о прокси-цели (цели-посреднике) для питания, чем о нём самом.

В эволюционном окружении наших предков питательность была связана с приспособленностью, а вкус — с питательностью. «Это сладкое» служило полезной прокси-целью для «это способствует размножению». Самое простое решение проблемы «этому млекопитающему не хватает калорий», которое эволюция может найти — встроить потребление пищи в уже существующую архитектуру мотивации через удовольствие.

А что случилось, когда мы поумнели и изобрели новые технологии? Что ж, теперь самая вкусная еда, от которой наши рецепторы сходят с ума, откровенно вредна. Всё так извратилось, что если есть только самое вкусное, найти партнёра и завести детей станет сложнее.

Вся палитра человеческих предпочтений и желаний, от стремления к изысканной еде до жажды дружбы, близких отношений и радости, — лишь далёкие тени того, на чём нас «обучали». Это хрупкие прокси от прокси, которые с ростом интеллекта и появлением технологий оторвались от «цели обучения».

Говоря, что наши желания — хрупкие прокси-цели, мы не принижаем их. Ведь речь идёт о любви. О дружбе. О красоте. О человеческом духе. Обо всём, за что стоит бороться. С точки зрения биологии, наши цели — побочные эффекты процесса, который толкал нас в другом направлении. Но от этого результат не становится менее ценным.

Рост ребёнка — химический процесс, подчиняющийся законам физики. Это не делает его ни на йоту менее чудесным. Знание о происхождении красоты не делает её менее прекрасной.^§

Если мы поспешим с созданием суперинтеллекта, мы не сможем надёжно вложить в него любовь, восхищение и красоту. Он в итоге будет ценить хрупкие прокси и бледные тени. А то, что дорого нам, отбросит. Поэтому спешить не стоит.

Не надо повторять ошибку эволюции. Так мы потеряем всё, что нам дорого. Мы должны немедленно отступить, пока не избавимся от этого риска.

* Они ещё и плохо справляются с запасанием орехов! Несколько исследований сошлись на том, что белки потом не могут найти более семидесяти процентов спрятанных орехов. Похоже, в основном белки просто забывают, где делали заначки. А исследования бобров показали, что они затыкают дыры, реагируя на звук бегущей воды, и полностью игнорируют видимые утечки, которые люди специально сделали бесшумными.

† Такая белка могла бы, например, прятать орехи в местах, которые легче запомнить и до которых не доберутся другие собиратели. Так она экономила бы много времени и калорий и, предположительно, лучше бы конкурировала с остальными.

‡ Конечно, это ещё не вся история. Естественный отбор — непростой и не единый процесс. Наши знания иногда влияют на пищевые привычки, даже если вкусовые рецепторы и тяга к еде против.

§ Эволюция «пыталась» создать чистых максимизаторов приспособленности. А создала (случайно) существ, ценящих любовь, удивление и красоту. Но это ни разу не означает, что у нас есть обязательство пожертвовать нашими чувствами любви и превратить себя в чистых максимизаторов приспособленности. Напротив: мы должны радоваться, что эволюция столь неуклюжа, и что дорожащие любовью существа вообще смогли появиться в этой вселенной.

Рефлексия и самомодификации всё усложняют

→