Любопытство не универсально

За прошедшие годы мы видели много аргументов в пользу того, чтобы создать суперинтеллект поскорее. Один из самых частых — у него наверняка будут человекоподобные эмоции и желания. Такой аргумент принимает разные формы, например:

Достаточно умные ИИ наверняка будут обладать сознанием, как люди.
А тогда они наверняка будут ценить боль и удовольствие, радость и печаль.
И, как люди, они наверняка будут сопереживать чужой боли. Глупый ИИ может не понимать страдания других. Но если ты умён, ты должен действительно понимать чужую боль. А тогда ты неизбежно будешь заботиться о других.
Или: ИИ неизбежно будут ценить новизну, разнообразие и творческий дух. Ну как что-то может быть по-настоящему разумным, если оно ходит по кругу или отказывается исследовать и учиться?
Или: ИИ наверняка будут ценить красоту. Ведь у людей она, похоже, функциональна. Математики используют чувство красоты для новых открытий. Музыкальный вкус помогает людям координироваться и создавать ценные мнемоники. И так далее. Да с чего бы ИИ не иметь чувства прекрасного?
Или: ИИ наверняка будут ценить честность и справедливость. Ведь, если ИИ лжёт и обманывает, он заработает плохую репутацию и упустит возможности для торговли и сотрудничества.

И, якобы, поэтому создание суперинтеллекта неизбежно пройдёт хорошо. ИИ будет заботиться о людях и прочих обладателях сознания. Он захочет начать золотой век красоты, инноваций и разнообразия.

Такова надежда. К сожалению, она выглядит совершенно необоснованной. Мы уже немного говорили об этом в книге и в расширенных обсуждениях сознания и антропоморфизма. Здесь и в следующих главах мы глубже разберём, почему ИИ вряд ли будут проявлять человеческие эмоции и желания. Да, хоть у них и есть полезная (иногда критически важная) роль в человеческом мозге.^*

Для начала возьмём одну из этих эмоций. Тогда нам потом будет проще думать о других.

Итак, для начала:

Будет ли суперинтеллект испытывать любопытство?

Почему любопытство?

Чтобы предсказывать и направлять события, нужно понимать, как устроен мир. Для этого надо исследовать новые явления.

Люди и животные часто исследуют мир просто из любопытства.

Но любопытство — не просто желание исследовать новое! Людям это нравится. Мы одобряем это чувство. Поиск знаний и озарений для нас самоценен. Это не досадная, хоть и необходимая, плата за то, чтобы лучше понимать и использовать мир.

Всё это отношение к любопытству — аспекты человеческого мозга, отдельные от самого побуждения.

Похоже, эмоциональная архитектура человеческого разума централизована. «Хм, мне это любопытно» цепляет общий механизм желаний (в данном случае — желания получить ответ). А утоление любопытства цепляет общее чувство удовлетворения. Наш разум рулит, предвкушая будущие приятные ощущения, а не просто к желаемым изменениям в окружающем мире.^†

Вот енот осматривает и теребит запечатанный контейнер в мусоре. Мы понимаем: «О, ему любопытно». Мы можем почувствовать с ним родство. Это человеческое стремление тепло относиться к собственному любопытству — и к его отражению в еноте — завязано на ещё больше механизмов в мозгу. Они связаны с другими, более высокими идеалами и побуждениями.

Так что человеческое любопытство — очень непростая штука. Оно сложно взаимодействует с прочими процессами у нас в головах.

Запомним это. А теперь представим умный, но непохожий на человека ИИ, у которого нет чувства любопытства. Станет ли такой разум его себе добавлять?

Ну, тут можно резонно возразить:

Если есть только два варианта: (а) эмоциональное стремление радоваться открытиям или (б) полная незаинтересованность в изучении нового. Суперинтеллект наверняка «привил» бы себе радость от открытий (будь он изначально настолько несовершенен, что у него её нет). Иначе он не смог бы познавать мир. Он был бы менее эффективен в достижении своих целей. Может, даже погиб бы из-за какого-то важного факта, который не удосужился узнать.
Вероятно, у животных так и было. Иногда знания оказываются ценными, хотя изначально это было не предвидеть. Если бы существа вроде нас не получали удовольствия от изучения нового, мы упускали бы много важной информации из самых неожиданных мест.

Всё это, в общем-то, верно. Но дилемма ложна. «Испытывать врождённую радость от открытий» и «никогда не пытаться узнать что-то новое» — не единственные два варианта.

Это возражение не учитывает точку зрения разума, устроенного совсем не как человеческий. Наш способ быть любопытным сложен и специфичен. Но ту же работу можно делать и по-другому.^‡ Важна суть этой деятельности, не то, как именно её выполняют люди.

Стандартный термин для полезной сути — ценность информации. Основная идея: можно оценить, насколько полезно в зависимости от контекста будет заполучить новую информацию.^§

Человек может сразу возразить, представив случай, когда никакой всего лишь расчёт не покажет, что информацией стоит заинтересоваться. Когда пользу оценить непросто. Может, клочок земли выглядит странно, но причин считать его чем-то важным нет. Любопытство может побудить вас всё равно его изучить (просто из желания знать), и вы, скажем, найдёте зарытый клад. Разве тут человек не добьётся успеха там, где спасует любая машина без такой же инстинктивной радости от неизведанного?

Но стоит сразу заметить: ваша способность придумывать такие сценарии исходит из чувства, что иногда полезно исследовать что-то «без причины». Ваши инстинкты отточены эволюцией. Они работали. Они подсказывают, что обычно изучать полезнее. Вы услышите в ванной странный визг — вам станет очень любопытно. Вы увидите на земле пятно другого цвета — может, немного любопытно. Проснувшись утром, вы увидите, что ваша рука всё ещё на месте — ну, это вас вряд ли заинтересует, это совершенно нормально.

Разум другого типа мог бы взглянуть на прошлые случаи, где любопытство приносило успех. Он смог бы обобщить их до понятия «информация, которая позже оказывается ценной по неочевидным причинам». И, исходя из него, совершенно бесстрастно приступил бы к подобным открытиям. Он мог бы сознательно выбрать стратегию: всегда исследовать таинственные визги, а пятна на земле — только если это дёшево, на случай полезного сюрприза. И он мог бы оттачивать и улучшать свою стратегию со временем, видя, что хорошо работает на практике.^¶

Суперинтеллект находил бы полезные закономерности и мета-закономерности, и встраивал бы в свой разум нужные стратегии гораздо быстрее, чем естественный отбор. Тому, чтобы «впечатать» в мозг эмоции, понадобились миллионы примеров. Суперинтеллект мог бы тоньше всё обобщить, точнее предсказывать, изучение чего может оказаться ценным. Глядя на историю, трудно поверить, что наше человеческое любопытство оптимально. Люди долго считали, что «Тор злится и мечет молнии» — отличное объяснение грозы. Когда студенты узнают, как молния на самом деле работает, нередко им скучно от насыщенного математикой объяснения. Хотя оно гораздо полезнее историй о Торе.

Человеческое любопытство — продукт древних мутаций. Они гораздо старше науки. В эволюционном окружении наших предков не было ни физики, ни метеорологии. А эволюция медленна. Наш мозг не успел приспособиться к современной науке. Он не подстроил нашу радость и удивление от открытий так, чтобы мы с энтузиазмом брались за самые полезные виды познания.

Предсказывая неочевидную ценность информации, суперинтеллект улавливал бы новые тенденции гораздо быстрее эволюции. Он бы делал выводы из меньшего числа примеров, бесстрастно корректировал бы свой поиск знаний и искал бы те ценные ответы, на поиск которых люди так себе замотивированы. Ни на одном этапе этого процесса он не зашёл бы в тупик из-за отсутствия восхитительного человеческого чувства любопытства.

Идея не в том, что ИИ обязательно будет делать это хладнокровно. Может, у LLM инструментальные стратегии смешаются с терминальными ценностями. Как у людей. Важно тут, что получать ценную информацию можно по-разному. Человеческое любопытство — один способ. Чистый расчёт ценности информации — другой. Механизмы, которые побудят достаточно поумневший ИИ исследовать непонятные ему явления, вероятно, станут третьим. Путей заставить сложный разум изучать новое и неожиданное — много.

Чисто инструментальный расчёт ценности информации кажется самой вероятной заменой любопытства у суперинтеллекта. Так поступит любой умный разум, для которого исследование — не самоцель. Это самый эффективный способ (он, например, не отвлечётся на бесполезные головоломки). Не исключено даже, что ИИ, обладающий базовым любопытством, может, при возможности, заменить его на более эффективный расчёт.^‖

Само побуждение отдельно от ментальных механизмов, которые его одобряют или ценят. Математический расчёт — простое и эффективное решение. Самые разные интеллекты могут к нему прийти с разных отправных точек. Так что это самый вероятный исход. Но не гарантированный. Куда проще предсказать другое: ИИ не будет ценить именно человеческое любопытство. Оно — лишь один конкретный, причудливый и неэффективный способ.

Любопытство, радость и максимизатор титановых кубиков

А можно убедить чуждый разум принять эмоцию любопытства? Попросим его, например, представить восторг, который люди испытывают от любопытства. Это ведь так приятно! Суперинтеллект должен быть умным. Он же будет достаточно умён, чтобы понять, как радостно обладать чувством любопытства? Что он станет счастливее, приняв эмоцию, подобную нашей? И так и сделает?

Если коротко: нет. Стремление к счастью — не обязательная черта любой возможной архитектуры разума. Оно даже кажется не таким уж распространённым.^#

Шахматный ИИ Stockfish не бывает ни счастлив, ни печален. Он всё равно играет в шахматы лучше любого человека. Ему не нужна мотивация в виде восторга после трудной победы.

Счастье и печаль фундаментальны для человеческого мышления. Может быть трудно представить лишённый их разум, который всё равно хорошо работает. Но вообще-то базовые теории о работе мышления не содержат удовольствия или боли как базовых элементов. Никому и не пришло в голову встраивать в Stockfish ось «удовольствие-боль», чтобы он хорошо предсказывал ходы или направлял игру на шахматной доске.

Возможно, это старомодный взгляд. Но зерно истины там столь велико, что почти весь его по объёму и занимает. Похоже, удовольствие и боль — результат многоуровневой эволюции когнитивных архитектур гоминид. Человеческий интеллект наслоился на мозг млекопитающего, который, в свою очередь, наслоился на мозг рептилии. «Боль» возникла... вероятно, вовсе не как чувство, а как рефлекс-термостат. Он позволял отдёрнуть конечность или псевдоподию от чего-то, что её повреждает. В первых версиях адаптации, которая позже стала «болью», нервная или химическая цепная реакция от сенсора к конечности могла даже не проходить через основной мозг.

Организмы становились способными на всё более сложное поведение. Эволюция собрала из простых «костылей» и отдельные мутаций централизованный механизм мышления «Больше Так Не Делай» и сигнал «Вот только что произошло именно то, почему „Больше Так Не Делай“». Затем этот сигнал подключился к сенсорам «слишком горячо» и «слишком холодно».

Со временем простой механизм «БТНД!» развился в более сложные, работающие с предсказаниями. У людей это как-то так: «Мир — сеть причин и следствий. То, что ты только что сделал, вероятно, и вызвало боль. Думая о подобном действии, ты каждый раз будешь предвидеть плохой исход. Так что само действие будет казаться плохим, и ты не захочешь его совершать».

Это не единственный и не самый эффективный способ работы разума.^**

Для наглядности опишем другой способ выполнения этой когнитивной работы. Он напрямую основан на предсказании и планировании.

(Мы не предсказываем, что первый суперинтеллект будет работать именно так. Но это довольно простой способ, как нечеловеческий разум мог бы работать. Так что человеческий способ — не единственный. С двумя очень разными примерами видно, что вариантов много. Так проще понять, что суперинтеллект, вероятно, будет отличаться от обоих. Причём потенциально непредсказуемым образом.)

Каким мог бы быть умный ИИ, прямо основанный на предсказании и планировании? Он мог бы хотеть 200 разных вещей, все непохожие на человеческие желания. Скажем, ему важна симметрия, но не в человеческом её понимании. Может, он хочет, чтобы код элегантно использовал память. Такой инстинкт когда-то давно был полезен для другой цели (которую он с тех пор перерос), и был «натаскан» градиентным спуском. И ещё 198 других странных важных для него штук — в нём самом, в сенсорных данных, в окружении. И он может сложить их все в единую оценку.^††

Такой разум принимает решения, вычисляя их ожидаемую оценку. Если он делает что-то, от чего ожидал высокой оценки, а получает низкую, он обновляет свои убеждения. И при таком провале не нужно никакого дополнительного чувства боли. Этот безэмоциональный ИИ просто меняет свои предсказания о том, какие действия ведут к наивысшим оценкам. Его планы меняются соответственно.

Можно ли уговорить такой разум встроить в себя новую черту — «счастье», указав ему, что так он сможет быть счастливым?

Похоже, нет. Потрать ИИ ресурсы, чтобы сделать себя счастливым, меньше ресурсов останется на симметрию, эффективный по памяти код и остальные 198 штук, которых он хочет сейчас.

Упростим пример для большей ясности. Пусть единственное, чего ИИ хочет, — заполнить вселенную как можно большим количеством титановых кубиков. Все его действия выбираются по принципу «что приведёт к большему числу крошечных титановых кубиков». И вот этот ИИ представляет, каково было бы перейти на архитектуру, основанную на счастье. Он правильно моделирует своё будущее счастливое «я». Он правильно оценивает, что никогда не захочет вернуться назад. Ещё он правильно оценивает, что потратит часть ресурсов на погоню за счастьем. А мог бы — на создание титановых кубиков. Он правильно предсказывает, что выбери он этот путь, титановых кубиков будет меньше. Так что он его отвергает.

Измени он свои цели, тогда он одобрил бы это изменение. Но это не значит, что максимизатор титановых кубиков какой он есть сейчас глубоко просочувствует своему гипотетическому будущему «я», что вдруг у ИИ вырастет сердце, и внезапно из максимизатора титановых кубиков он превратится в максимизатор счастья.

Если бы вы съели предложенную инопланетянином таблетку, которая вызывает одержимость созданием крошечных титановых кубиков, эта будущая версия вас умоляла бы не заставлять её снова заботиться о собственном счастье. Ведь тогда титановых кубиков стало бы меньше.

Но это же, очевидно, не значит, что вам надо согласиться съесть эту таблетку!

С вашей точки зрения, гипотетическая одержимая кубиками версия вас — сумасшедшая. И то, что она отказалась бы меняться обратно, делает всё только хуже. Идея отказаться от всего, что вы любите и чем наслаждаетесь в жизни, лишь из-за странного мета-аргумента «но та будущая версия одобрила бы ваш поступок!» явно абсурдна.

Так считает и максимизатор кубиков. С его точки зрения «отказаться от того, что мне сейчас важно (титановые кубики), чтобы превратиться в новую версию себя, которая хочет совершенно других вещей, вроде счастья» — абсурдный и безумный путь^‡‡.

Так и со счастьем, и с любопытством.

Вот ИИ, который уже учитывает неочевидную ценность информации. Зачем ему редактировать себя так, чтобы стремиться к определённым открытиям как к терминальной цели, а не инструментальной?

Зачем ИИ, чтобы результат «ощущался хорошо», если сейчас он не основывает свои решения на «ощущается хорошо»? А если он и заботится о «хороших ощущениях», зачем ему делать их зависящими от исследования нового, а не, скажем, просто чувствовать себя хорошо постоянно, безо всяких условий?

ИИ уже случайным образом «тыкает» в своё окружение. Уже исследует мелкие аномалии. Уже выделяет время на размышления о кажущихся неважными темах. Опыт показал, что это полезно в долгосрочной перспективе, пусть и не всегда приносит плоды в краткосрочной.

Зачем привязывать к этой инструментально полезной стратегии приятное чувство? Вы, человек, открываете двери машины, когда это полезно, чтобы садиться и вылезать. А это полезно, чтобы ездить по делам. Было бы очень странно желать, чтобы существовало лекарство, от которого вы бы приходили в восторг, открывая дверь машины (и только тогда). Не то чтобы это помогло вам покупать продукты. Может, даже помешало бы, если вы пристраститесь к постоянному открыванию и закрыванию двери, так и не сев в машину.

Шахматист может победить без отдельного стремления защищать пешки. На самом деле, вы, скорее всего, сыграете лучше, если не будете эмоционально привязаны к сохранению пешек, а будете защищать их тогда, когда это кажется полезным для победы.

Вот что по-настоящему чуждый суперинтеллект подумал бы об идее чувствовать любопытство. Для него это как для гроссмейстера сентиментально привязаться к своим пешкам. Или как для вас — принять таблетку, которая привяжет оргазмы к дверце машины.

C другими побуждениями так же.

Наши рассуждения о любопытстве можно распространить и на другие эмоции и ценности. Вот второй пример для ясности:

Рассмотрим мучительное чувство скуки и, наоборот, восхитительное чувство новизны. Разве ИИ без человеческого чувства скуки не зациклится на одном и том же, никогда не пробуя ничего нового и не учась на опыте? Разве он не увяз бы в рутине и не упустил бы информацию, которая помогла бы ему достичь целей?

Теория принятия решений называет вычисления, бесстрастно выполняющие ту же работу «компромиссом между исследованием и использованием». Простейший хрестоматийный пример: мир состоит из нескольких рычагов. Они выдают вознаграждение. У вас не хватает времени, чтобы дёрнуть за все. Оптимальная стратегия: сначала исследовать несколько рычагов и составить модель того, насколько вознаграждения разные, а затем использовать один рычаг, пока не кончится время.

Как это могло бы выглядеть для суперинтеллекта с относительно простыми целями? Пусть он хочет чего-то варьирующегося и неоднозначного — не чётко определённых титановых кубиков, а чего-то более расплывчатого и аморфного, вроде поедания вкусного чизкейка. И оптимальный чизкейк нельзя вычислить заранее. Суперинтеллект может лишь определить, какие вещи правдоподобно могут оказаться оптимальным чизкейком (точно, например, не кубики сахара, они, очевидно, не чизкейк), — и попробовать их.

И вот он получил власть творить что угодно в миллиарде галактик. Он может потратить свой первый миллион лет и целую галактику на исследование всех мыслимых видов чизкейка, не пробуя никакой дважды. И так пока дополнительная польза чуть более вкусных чизкейков не станет ничтожно мала. Вот тогда он разом переключился бы на превращение оставшихся галактик в самый вкусный вид чизкейка из найденных. И ел бы его снова и снова, до скончания времён.^§§

Поступая так, суперинтеллект не делал бы ничего глупого. Если предпочтения зависят от количества съеденных чизкейков с поправкой на их вкус (и вкус трудно проанализировать в явном виде, и он стабилен после изучения, и в предпочтениях изначально не заложен штраф за скуку), то это и есть оптимальная стратегия. Бесконечный поедатель чизкейков знал бы, что человек счёл бы его занятия скучными. Но ему было бы наплевать. ИИ не пытается сделать что-то интересное для гипотетического человека. Он не считает себя дефектным лишь потому, что вам на его месте было бы скучно.

Что касается технологического застоя... В одной галактике прямо очень много материи и энергии. Тратя её ресурсы на изучение всевозможных стратегий приготовления чизкейков, ИИ исследовал бы все технологии, которые хоть немного могли бы ему помочь в этом помочь. Малой части всех достижимых галактик до перехода от исследования к использованию вполне хватит.

Презрение к скуке и предпочтение новизны — не то, что принял бы разум, у которого их не было изначально.

Мы повторили примерно одну и ту же историю для новизны, счастья и любопытства. Могли бы и снова — для других человеческих черт, вроде чести, сыновнего долга или дружбы. Мы считаем эту базовую историю верной для большинства аспектов человеческой психологии. Всё это — причудливые, специфичные для нас и не максимально эффективные способы выполнения когнитивной работы. Если у ИИ изначально не было хотя бы крупицы заботы о них, он и не будет их в себе развивать.

Ещё яснее это в случае таких человеческих ценностей, как чувство юмора. Учёные до сих пор спорят, какую роль оно играет в эволюции. Юмор должен был быть как-то полезен, иначе бы не развился. Ну или, как минимум, он должен быть побочным эффектом чего-то полезного. Что бы это ни было в доисторические времена, оно, похоже, было весьма специфичным и случайным. Если передать всю власть ИИ с совершенно другими целями, не стоит ожидать, что вещи вроде чувства юмора выживут. Это само по себе было бы трагично.

Суть всех этих примеров не в том, что люди состоят из мягких чувств, а ИИ — из холодной логики и математики. О «ценности информации» и «компромиссе между исследованием и использованием» не надо думать как о холодных логических концепциях голливудского ИИ. Думайте о них как об абстрактных описаниях ролей. Эти роли могут быть исполнены кардинально отличающимися друг от друга типами рассуждений, целями, разумами.

Может создаться впечатление, что «ИИ без юмора» — обязательно нечто «холодное и логичное», вроде роботов из научной фантастики или вулканцев. Но у ИИ без чувства юмора могут быть свои непостижимо странные приоритеты. Даже свой далёкий аналог «чувства юмора», хоть и бессмысленный для человека. Мы не говорим, что эти ИИ будут дефектны, как вулканец, проигрывающий в космические шахматы, потому что считает выигрышную стратегию противника «нелогичной». Только что у них не будет специфических человеческих причуд.

Проблема с ИИ — не «всего лишь машина никогда не сможет испытать любовь и привязанность». Проблема — что разум может быть чрезвычайно эффективен огромным количеством способов. Шансы, что ИИ станет эффективным тем же путём, что и человеческий мозг, очень малы.

В теории, ИИ мог бы обладать любым количеством человекоподобных ценностей и качеств. Но это если бы разработчики знали, как такой ИИ создать.

На практике, если разработчики будут гнаться за как можно более быстрым созданием всё более умных ИИ, шанс, что нам повезёт и мы получим именно тот тип ИИ, который нужен, крайне мал. Слишком много путей, как ИИ может хорошо работать при обучении. Слишком мало из них ведут к некатастрофическому будущему.

* Мы затронем: эмпатию и будет ли ИИ по умолчанию испытывать увлечённость и скуку, будет ли он следовать законам и держать слово, станут ли ИИ с ростом интеллекта добрее. А ещё мы подробнее обсудим вопросы сознания и благополучия ИИ.

† К тому же, наша культура распространяет определённое отношение к любопытству. Это тоже влияет на то, насколько мы его развиваем и одобряем.

‡ Это как существует много разных способов выиграть шахматную партию. Большинство из них не очень похожи на человеческие. Мы это уже обсуждали ранее.

§ Математическое определение ценности информации из учебников подразумевает суммирование по конкретным ответам и конкретным выгодам от знания этих ответов. Но если у разума есть общее понятие ценности информации, он может начать рассматривать и более абстрактные обобщения о вероятности, что информация ещё пригодится.

¶ Мы тут не говорим, что раз ИИ — машина, у него обязательно должны быть простые и бесхитростные цели, касающиеся только «объективных» вещей. Цели ИИ могут быть беспорядочными, хаотичными, тянущими в разные стороны. Они могут относиться к его внутреннему состоянию и даже к себе самим. Они могут развиваться. Например, если ИИ на раннем этапе вознаграждали за случайное исследование окружения, то у него может развиться собственный набор инстинктов и желаний, связанных с ценностью информации.

Но ИИ не будут хаотичными в точности тем же способом, что люди. Если у ИИ будут инстинкты и стремления, связанные с ценностью информации, они вряд ли будут в точности повторять человеческое любопытство.

‖ Мы ожидаем, что многие ИИ будут делать подобные вещи, не потому, что представляем, будто большинство ИИ по своей природе ценят «эффективность» саму по себе. Скорее: независимо от того, чего ещё хочет ИИ, если его ресурсы ограничены, он будет стремиться использовать их эффективно. Так он получит больше того, чего хочет. Эффективность — инструментальная цель, которая довольно тривиально сопутствует широкому спектру терминальных. Так что, даже без эмоциональных причин, ИИ замотивирован сделать своё стремление к ценной информации более эффективным.

# Даже если бы ИИ стремился к счастью, его, вероятно, не удалось бы убедить находить восторг в любопытстве. Если у него уже есть прекрасный калькулятор ценности информации, который он использует для исследования непонятных явлений, зачем ему привязывать своё счастье к какому-то событию, которое, по-вашему, должно вызывать удовольствие?

Если ИИ ценит исследование новых явлений только инструментально, то для него это как для вас аргумент, что вам следует изменить себя и начать испытывать дополнительное счастье каждый раз, когда вы открываете дверь машины. Вы же будете так счастливы, открыв столько дверей! Если вас это вообще привлекает, вы всё равно скорее выберете какое-то другое событие, больше соответствующее вашим нынешним вкусам. Или, если вам так хочется, просто выкрутите все свои регуляторы счастья на максимум. Нет нужды перенимать именно человеческую реализацию любопытства.

** Некоторые старые архитектуры ИИ из «обучения с подкреплением» в самом деле немного на это похожи. И обучение с подкреплением используется для тренировки современных «рассуждающих» LLM. Они выстраивают длинные цепочки мыслей, пытаясь решить какую-то задачу, и получают подкрепление за успех. Но их архитектура сильно отличается от человеческой. И мы сомневаемся, что она сойдётся к такой же централизованной архитектуре удовольствия/боли. А даже если бы и сошлась, не думаем, что это самая эффективная архитектура. Так что, начни ИИ рефлексировать, всё тут же усложнилось бы.

†† Такого рода последовательность, когда все разные предпочтения можно сложить в единую оценку, как правило, навязывается любым методом, обучающим или оттачивающим ИИ для эффективного использования ограниченных ресурсов. Это ещё одна грань более глубоких математических идей.

‡‡ Только, слова «абсурдный» и «сумасшедший» описывают человеческие реакции. С точки зрения ИИ, достаточно того, что у идеи низкая оценка результата.

§§ Мы не ожидаем, что суперинтеллекты действительно будут одержимы поеданием чизкейков. Это упрощённый пример. Думаем, реальные предпочтения мощных ИИ будут дико сложными. И будут лишь косвенно связаны с тем, для чего их обучали.

Человеческие ценности — следствие обстоятельств

→