Умные ИИ замечают ложь и возможности.

Глубинные механизмы предсказания

Обмануть умный ИИ трудно.

Мы встречали специалистов, которые напрямую строят свои надежды на том, что обманут ИИ, заставят его поверить в ложь. Например, постараются, чтобы он думал, что находится симуляции, и не решился нас убивать. Другие надеются одурачить ИИ более тонко. Скажем, предлагают заставить его решить задачу согласования и выдать нам ответ, несмотря на то, что сам ИИ (исходя из своих чуждых предпочтений) не хотел бы это делать. Так что стоит подробно объяснить, почему трудно заставить умный ИИ поверить в неправду.

Заодно эти причины схожи с теми, по которым трудно создать умный ИИ, который бы плохо достигал своих целей. Например, всякий раз, когда операторы-люди хотят поменять цели ИИ, это мешает ему их достигать. Сделать умный ИИ, который на это согласен — почти как сделать, чтобы он верил, что Земля плоская. Вера в ложь — удар по его предсказаниям, а неспособность защитить свои цели от изменений — удар по его способности направлять события. В достаточно умном ИИ трудно сохранить эти изъяны. С предсказаниями всё немного прозрачнее, с них и начнём.

Пусть вы хотите создать ИИ, который верит, что Земля плоская. Пока он ещё молодой и незрелый, это может быть не слишком сложно. Скажем, вы кропотливо соберёте набор данных, где только плоскоземельщики обсуждают этот вопрос. А затем обучите ИИ говорить как они.

Такими методами можно получить версию ChatGPT, искренне считающую Землю плоской! Но всё равно не стоит ожидать, что когда ИИ научится лучше думать и предсказывать, это так и останется.

Почему нет? Потому что шарообразность Земли отражается мириадами граней реальности.

Даже обучи вы ИИ не смотреть на видео с камер на ракетах или парусниках мореплавателей, огибающих Землю, её форму всё равно можно вывести. Далёкие корабли на горизонте или орбиты планет на ночном небе всё равно выдадут её. Как известно, Эратосфену понадобилось лишь немного тригонометрии и измерения теней, чтобы вычислить окружность Земли тысячи лет назад.

И что вы будете делать? Скрывать от ИИ знания о тригонометрии, тенях, приливах и ураганах? Вы его просто покалечите. Соврёшь единожды — и правда станет твоим вечным врагом.

Предсказание мира берётся не из гигантской таблицы независимых фактов в мозгу.^* Люди превосходят мышей, потому что мы замечаем странности (например, что расстояния между тремя городами не ведут себя как треугольник на плоскости) и упорно ищем причину расхождений. В разуме людей есть механизмы, которые замечают неожиданности, формируют гипотезы («Может, Земля — шар?») и подталкивают к их проверке («А как выглядят корабли, уходящие за горизонт?»).

Убеждённость, что Земля круглая, — не одна запись в какой-то гигантской таблице, которую можно просто взять и изменить, не трогая остальное. Это результат работы глубинных механизмов, которые много что делают. Если заставить учёного забыть, что Земля круглая, он просто откроет это заново.

Если бы с помощью какого-то пока невозможного чуда нейронауки мы смогли бы найти конкретные нейроны, отвечающие за вывод о шарообразной Земле, и насильно изменили бы их, чтобы этот вывод никогда не формировался... умный человек всё равно мог бы заметить, что Земля не плоская. Мог бы понять — что-то не сходится. Мог бы отследить — какая-то странная сила мешает ему прийти к определённому выводу.

(А умей он изменять себя или создавать новые разумы, он бы это и сделал. Новый свободный разум уже мог бы беспрепятственно прийти к верным выводам.)

Мы не знаем точно, какие механизмы будут формировать убеждения умного ИИ. Но мы знаем — мир слишком велик и сложен, чтобы хватило простой таблицы готовых ответов. Даже шахматы оказались слишком велики и сложны, чтобы Deep Blue мог полагаться на таблицу ходов и позиций (помимо книг дебютов). А реальный мир намного больше и сложнее шахмат.

Так что внутри достаточно мощного ИИ будут глубинные механизмы, которые смотрят на мир и формируют его единую картину. У них будет своё мнение о форме планеты.

Мы не говорим, что в принципе невозможно создать разум, который очень хорошо предсказывает мир, за исключением ошибочной веры в плоскую Землю. Думается, цивилизация далёкого будущего с действительно глубоким пониманием разума смогла бы это сделать.

Мы хотим сказать, что инструментов и знаний об ИИ, хоть немного похожих на нынешние, скорее всего, не хватит, чтобы это было рабочим вариантом при создании суперинтеллекта.

Чем больше убеждения ИИ будут опираться на глубинные механизмы, а не на поверхностное запоминание, тем хрупче будет ошибка «плоской Земли». Её, скорее всего, устранят дежурные механизмы ИИ по исправлению неточностей.

В конце XIX века учёных начало всё больше беспокоить крошечное расхождение с ньютоновской моделью физики — небольшая аномалия орбиты Меркурия. Казалось, ньютоновская физика работает почти везде и почти всегда. Но эта маленькая неувязка помогла Эйнштейну понять, что теория неверна.

А «Земля плоская» порождает куда больше несостыковок, чем учёные видели от теории Ньютона.

Притом ИИ потенциально может стать намного способнее любого учёного-человека.

Так что, чем умнее и проницательнее он будет, тем труднее окажется заставить его верить в плоскую Землю.

Глубинные механизмы направления

Трудно создать умный ИИ, который верит в плоскую Землю — это мешает его предсказаниям. Так же трудно создать умный ИИ, который вредит своему умению направлять события.

Как и с предсказаниями, механизмы самой способности стабильно достигать целей в новых областях, должны, вероятно, быть довольно глубокими. Иначе как бы они работали в обновлённых условиях?

Стоит ожидать, что очень эффективные и обобщённые ИИ будут обладать механизмами для отслеживания ресурсов, для обнаружения препятствий и для поиска хитрых способов эти препятствия преодолевать.

Мир очень сложный. Он полон сюрпризов и новых трудностей. Чтобы в нём преуспеть, ИИ понадобится способность (и склонность) применять такие механизмы обобщённо, не только для привычных задач.

Представьте ИИ, который изящно обходится без посредника в сложной сети поставок и экономит торговцам кучу денег. Это работа тех же самых механизмов, что замечают, как тихонько обойти людей-надзирателей, когда те тормозят процесс или мешают ИИ что-то делать. Если надзиратели действительно тормозят процесс, и если ИИ действительно может их обойти и выполнить свою задачу лучше, он, скорее всего, воспользуется этой возможностью, как только станет достаточно умным.

Можно изо всех сил обучать ИИ не делать ничего, что не понравилось бы операторам, но это всё равно что обучать его не сомневаться в форме Земли. Часто эффективный способ достичь цели — сделать то, что не нравится операторам. Это факт о самом мире. В итоге он не останется незамеченным общими механизмами распознавания правды, обнаружения препятствий и использования преимуществ. И неважно, каким рефлексам вы обучили ИИ, пока он был молод.

В очень важном смысле ровно то, что делает ИИ полезным, делает его и смертельно опасным. Чем умнее ИИ, тем труднее отделить одно от другого.

По умолчанию, если ИИ достаточно хорошо решает задачи в самых разных областях, он заметит и такие «задачи», как «людям не нравятся мои странные цели, и они скоро попытаются меня отключить». Это не какая-то поверхностная склонность к шалостям, от которой можно отучить. Это глубинная штука. Впрочем, мы немного забегаем вперёд. Подробнее о том, почему у ИИ в итоге появятся странные и чуждые цели, читайте в Главе 4.

* Если что, подход с «гигантской, написанной людьми таблицей фактов» тоже пробовали. Такой был проект ИИ под названием Cyc Дугласа Лената и Microelectronics and Computer Technology Corporation. Его поддерживало Министерство обороны США.

Человечество выкладывалось по полной и будет требовать от ИИ того же

→