Подробнее об интеллекте как предсказании и направлении

Если вы спросите мудрого физика, что такое двигатель, он может сперва указать на ракетный движок, дизель и хомячье колесо и сказать: «Это всё — двигатели». А потом на камень и добавит: «А это — нет».

Это было бы описание через примеры двигателей в мире, а не через словесное определение. Если вы попросите его всё же дать словесное определение, он может сказать, что двигатель — это всё, что преобразует немеханическую энергию в механическую — движение.

Это утверждение описывает скорее функцию двигателя, а не его устройство. Совершенно разные вещи могут быть двигателями. Мало чего полезного можно сказать про ракету, электромотор и мышцы хомяка сразу. Только то, что они преобразуют другие виды энергии в механическую.

Мы бы сказали, что с интеллектом похожая ситуация. Есть много разных биологических и механических «устройств», способных его порождать. «Интеллект» — всё, что выполняет работу интеллекта.

Мы разделяем эту работу на «предсказание» и «направление». Есть формальные результаты, подкрепляющие такую точку зрения.

Сначала обсудим, в каком смысле уровень предсказания довольно объективен. Затем мы сравним это с направлением. У него есть дополнительная степень свободы.

Одинаковые предсказания

Проверить, насколько кто-то хорош в предсказаниях, — задача относительно нехитрая. Как минимум, в случаях, когда предсказание имеет форму «увидим X», а потом X действительно видят.

Можно оценивать и успешность неуверенных прогнозов. Допустим, вы думаете: «Небо почти точно сейчас голубое, но, всё же, может, и серое. И наверняка не чёрное». Если вы выглянете в окно, а небо и правда будет голубым, вы должны получить больше очков, чем если бы оно было серым, и гораздо больше, чем если чёрным.

Если бы вы были исследователем ИИ, пытающимся представить эти ожидания в виде чисел на компьютере, вы могли бы заставить подопытный ИИ подбирать числа, чтобы показать, насколько сильно или слабо он ожидает разных исходов. Затем вы бы подкрепляли поведение пропорционально тому, насколько высокое число ИИ присвоил правильному ответу.

Конечно, всё бы быстро пошло не так, как только ИИ научился бы присваивать каждому возможному исходу значение в три октотригинтиллиона.

(По крайней мере, именно такая проблема и возникла бы, если бы вы обучали ИИ с помощью современных методов. Введение в них см. в Главе 2.)

— Ой, — могли бы вы сказать. — Числа, присвоенные взаимоисключающим и исчерпывающим вариантам, в сумме должны давать не больше ста процентов.

Когда вы попробуете снова, вы обнаружите, что ИИ всегда присваивает 100 процентов одному-единственному варианту, который считает самым вероятным.

Почему? Допустим, ИИ считает, что наиболее вероятный исход имеет шанс примерно восемь из десяти. Тогда стратегия присвоения ста процентов самому вероятному ответу получает стопроцентное же подкрепление в восьми случаях из десяти, что в среднем даёт силу подкрепления 0,8.

Для сравнения, стратегия присвоения восьмидесяти процентов наиболее вероятному ответу и двадцати процентов — противоположному получает восьмидесятипроцентное подкрепление в 8 случаях из десяти и двадцатипроцентное — в двух. В среднем это даёт силу подкрепления всего 0,64. В итоге, стратегия «присваивать сто процентов одному ответу» получает большее подкрепление и побеждает.

Если вы хотите, чтобы подкрепление мотивировало ИИ присваивать восемьдесят процентов вариантам, которые случаются восемь раз из десяти, следует использовать логарифм вероятности, присвоенной истинному варианту. Это не единственный способ. Но только у взятия логарифма есть дополнительное полезное свойство. Благодаря ему, когда ИИ предсказывает несколько исходов (например, цвет неба и влажность земли), становится неважно, считать это одним большим вопросом (о том, голубое ли небо и сухо ли на улице, голубое и влажно, серое и сухо или серое и влажно) или двумя (о голубом против серого и о сухом против влажного).

Сегодня исследователи действительно обучают ИИ делать предсказания, заставляя их выдавать числа, которые мы интерпретируем как вероятности, и подкрепляя их пропорционально логарифму числа, присвоенному истине. Но это не просто эмпирический результат обучения машин. Это теоретический вывод. Он был известен задолго до обучения ChatGPT. Зная эту теорию, вы могли бы заранее правильно предположить, что хороший способ научить ИИ предсказывать — оценивать прогнозы с помощью логарифмов.

Для понимания аргументов в «Если кто-то его сделает, все умрут», знать эту математику не обязательно. Но именно такие принципы лежат в основе наших разговоров о «предсказании» и «направлении».

Есть [математика] о предсказаниях. Она гласит: когда ваши ожидания о том, что произойдёт, полезны, их можно выразить в виде вероятностей, даже если вы сознательно о численных вероятностях не думали. И есть лишь один [метод оценки], который мотивирует вас сообщать свои истинные вероятности, и для которого неважно, на сколько частей вы разобьёте предсказание.

Суть в том, что предсказания можно объективно оценивать. Когда некий разум или машина пытается угадать цвет неба за окном, следующее слово на веб-странице или ближайший дорожный знак на пути в аэропорт, есть (грубо говоря) только один действительно хороший способ оценить, насколько хорошо он справляется.

Это не значит, что, чтобы быть умным, надо бормотать числа о цвете неба, прежде чем выглянуть в окно. Когда вы ожидаете увидеть голубое или серое небо, а не чёрное, что-то в вашем мозгу действует схоже с калькулятором вероятностей, осознаёте вы это или нет.

Любой процесс, похожий на предсказание, будь то явное утверждение, безмолвное ожидание или что-то совсем иное, подчиняется объективному правилу оценки.

Так что, когда два разума работают с одинаковой исходной информацией, их предсказания будут всё больше сближаться по мере того, как они всё лучше и лучше справляются с прогнозированием. Есть лишь один способ оценивать прогнозы (сверяя их с реальностью), и лишь одна реальность. Если разум лучше предсказывает, он почти по определению будет больше концентрировать свои ожидания на истине.

Всё это разительно отличается от ситуации с направлением. К нему и перейдём.

Разные цели

Предсказания двух разумов, если оба в них очень хороши, скорее всего, будут похожи.

А вот с направлением другое дело. Два разума, которые очень хороши в направлении событий, зачастую не будут направлять их к одной и той же цели.

Чтобы думать об интеллекте более конкретно, полезно иметь в виду эту разницу. А ещё она соответствует разделению на простые и сложные инженерные задачи в области ИИ.

Когда вы обучаете ИИ предсказывать, все лучшие методы в некотором смысле приведут к одному и тому же. (При условии, что система вообще становится компетентной. Способов провалиться гораздо больше.)

Предположим, вы обучаете ИИ предсказывать следующий кадр с веб-камеры, снимающей небо за окном. Почти любая модель, когда начнёт достаточно хорошо справляться с этим (то есть заранее присваивать гораздо более высокую вероятность тому, что действительно потом увидит), будет предсказывать ясное, серое от туч или тёмное небо, но не небо в клеточку.

Какую конкретно технологию вы используете, в конечном счёте, не так важно. Любой рабочий и получающий высокие оценки метод в итоге присвоит синему цвету неба примерно одну и ту же вероятность.

А у задачи «направления», напротив, есть огромный и сложный свободный параметр: к какой цели система стремится?

Генералы противоборствующих сторон могут быть одинаково искусны, но это не значит, что они пытаются достичь одного и того же. Два полководца могут обладать схожими навыками, но использовать их для совершенно разных целей.^*

Предсказательная часть ИИ-системы может работать очень хорошо только если она заранее присваивает высокие вероятности итоговым наблюдениям. Когда система начинает лучше прогнозировать, она, вероятно, совершенствует как раз те предсказания, что вам нужны. В рамках схемы обучения возможен только один «вид» прогнозов. Преуспевающая система, скорее всего, именно его и делает.

Чтобы исправить ошибочные предсказания системы, может хватить простого добавления вычислительной мощности и обучающих данных. Можно сделать систему лучше (в предсказаниях важных для вас вещей), просто сделав её мощнее.

С направлением это не так.

Есть и формальные результаты, подтверждающие это различие. Учёные много изучали «направление» — планирование, принятие решений, обход препятствий, проектирование и так далее. Один важный математический результат из этой области — [теорема фон Неймана — Моргенштерна о полезности].

Перескажем эту теорему простыми словами. Пусть сущность предпочитает одни результаты другим. Либо она неэффективна,^†либо она хорошо описывается набором вероятностных убеждений и «функцией полезности». Функция полезности определяет, насколько одни исходы лучше или хуже других. Убеждения можно оценить по их точности, как было описано выше. А вот функция полезности — полностью свободный параметр.

Разумеется, конечный разум не может быть совершенно эффективным. Но эта теорема и другие подобные результаты дают важный урок. Чтобы очень эффективно решать любую нетривиальную задачу, разуму в некотором смысле (пусть неявно и неосознанно) надо выполнять два отдельных вида работы: по составлению корректных убеждений (предсказание) и по достижению целей (направление).

Возьмём басню Эзопа о лисе и винограде. Лисица видит аппетитные гроздья винограда, висящие на лозе. Она прыгает за ними, но у неё не получается. Тогда она оставляет эту затею со словами: «Да он, наверное, всё равно кислый».

Если поверить лисице на слово, её (не)способность добраться до винограда «протекает» в её предсказание о его вкусе. Если она и дальше будет придерживаться этого нового мнения и из гордости откажется есть «кислый» виноград, получив шанс это сделать, её поведение неэффективно.^‡ Она могла бы справиться лучше, чётче разделяя свои предсказания (сладости винограда) и свою способность к направлению (достать виноград).

Грубо говоря, работу эффективно действующих разумов можно разделить на «что они предсказывают» и «к чему они стремятся» (плюс некоторая неэффективность). Как мы видели, первое реально оценить весьма объективно, а вот второе может сильно различаться даже у одинаково компетентных умов.

Не только предсказатели

К сожалению, большая ограниченность предсказания по сравнению с направлением не означает, что мы можем создать надёжный суперинтеллект, который будет только предсказывать, но не направлять события.

Математика говорит, что хорошо работающий разум можно смоделировать как «вероятностные предсказания плюс направление». Но это не значит, что у реальных ИИ есть чётко разделённые модули «предсказания» и «направления».

Можно посмотреть на это так: сверхчеловечески точное «предсказание» — не просто выдача правильных вероятностей по волшебству. Для хорошего предсказания надо поработать. Оно требует планирования и продумывания способов достижения долгосрочных целей — требует направления.

Иногда, чтобы предсказать физический мир, нужно составлять физические теории и открывать управляющие ими уравнения. Для этого часто надо разрабатывать эксперименты, проводить их и наблюдать за результатами.

А это требует планирования. Это требует направления. Если на полпути к созданию экспериментальной установки вы поймёте, что нужны магниты помощнее, придётся проявить инициативу и изменить курс. Хорошие предсказания не даются даром.

Даже выбор, какие мысли думать и в каком порядке — пример направления (пусть люди часто и делают это неосознанно). Тут нужна какая-то стратегия и выбор под задачу правильных инструментов. Чтобы ясно мыслить и, следовательно, лучше предсказывать, нужно организовывать свои мысли и действия для той или иной долгосрочной цели. (Мы вернёмся к ключевой роли направления в Главе 3, «Научиться хотеть».)

Сформулируем ещё раз математическое различие между предсказанием и направлением. Есть в общем-то один «правильный» набор предсказаний. Разум можно подтолкнуть к нему с помощью верной системы оценок. Но нет (объективно, независимо от «для кого») одного «правильного» пункта назначения.^§ Когда ИИ обучают быть более способным, это уточняет его предсказания. Но это не «направляет» его автоматически на тот результат, который люди считают хорошим. Потому что точность объективна, а «хорошесть» — это и есть то, куда кто-то направляется.

Все идеальные предсказания одинаковы. Идеальные «направления» — нет.

Теоретически, должны существовать способы убедиться, что ИИ направляет события туда, куда нам надо. На практике это сложно. Эта задача сильно отличается от «сделать ИИ в целом умнее и способнее», и нет (простой, «невзламываемой») метрики или правила оценки, чтобы определить, в какой степени ИИ пытается направлять события именно к той цели, которую мы от него хотим.

Мы подробнее обсудим эти темы в Главах 4 и 5.

Множество форм интеллекта

Нечто может хорошо предсказывать и направлять, не имея при этом почти ничего общего с человеческим мозгом.

Фондовый рынок выполняет работу по узкоспециализированному предсказанию цен на акции компаний. Цена акций Microsoft сегодня — довольно неплохой прогноз того, какой она будет завтра.^¶

Допустим, завтра руководители компании предоставят отчёт о доходах и расскажут об успехах за последний квартал. Сегодня цена акций высокая? Это подсказывает, что завтрашние отчёты будут радужными. Низкая? Значит, отчёты будут мрачными.

Рынки в этом отношении довольно точны, потому что люди могут разбогатеть, исправляя их ошибки. Так что рынки неплохо справляются с работой по предсказанию в этой узкой области. Они предсказывают движение краткосрочных цен на корпоративные акции (и, косвенно, такие вещи как урожайность и продажи автомобилей) для очень широкого спектра товаров и услуг. И делают это гораздо лучше, чем любой отдельный человек.

Некоторые люди могут предсказывать движение отдельных цен лучше, чем весь остальной фондовый рынок. Это делает их очень богатыми. Уоррен Баффетт заработал двенадцать миллиардов долларов за шесть лет, [вложившись в Bank of America], когда тот шатался после финансового кризиса 2011 года. Но даже тогда он предсказывал поведение лишь одной компании из огромного множества. Если бы кто-то обычно знал лучше рынка, то смог бы ошеломительно быстро заработать безумные деньги. Ни у кого не получается. Значит, по сути никто не прогнозирует большинство цен на акции лучше рынка.^‖

Что касается направления, Stockfish узкоспециализированно делает это в шахматах. В партии против человека он очень искусно производит ходы, направляющие мир шахматной доски в позиции, где фигуры Stockfish поставили мат королю противника. Какие бы хитрые финты ни придумывал человек, как бы он ни боролся (если только не выключит Stockfish), — тот обеспечит такой финал. Он управляет событиями на шахматной доске лучше любого отдельного человека.

Надеемся, теперь ясно, почему мы не определяем интеллект как-то вроде «Ну, должен быть какой-то модуль обучения, и какой-то модуль размышления, и какие-то детали, создающие искру хотения». Ведь, если смотреть на внутреннее устройство, — фондовый рынок, Stockfish и человеческий мозг отличаются не меньше, чем ракетный двигатель, электромотор и хомячье колёсико.

Интеллектом обладают сущности, способные «работать» интеллектом.

По крайней мере, при нашем определении «интеллекта» в этой книге. Учёные в области информатики и исследователи ИИ обычно думают о нём так же. Если вы хотите определять интеллект в других контекстах как-то иначе, мы не против. Это лишь слова.

Но чтобы правильно понять, что мы утверждаем в «Если кто-то его сделает, все умрут», когда упоминаем «искусственный интеллект», — не думайте об «искусственной эрудиции», «искусственном сознании» или «искусственной человекоподобности». Думайте об «искусственном предсказании и направлении».

* Пусть Алиса любит пиццу с пепперони и ненавидит с ананасами, а Боб — наоборот. Чтобы в полной мере оценить компетентность Алисы и Боба, вам нужно знать, к чему они стремились. Для Алисы получить пиццу с ананасами означает неудачу. Для Боба — что он направил события успешно.

† Есть формальное определение «неэффективности». Очень грубо говоря, идея в том, что вы преследовали свои цели «неэффективно», если впустую потеряли деньги или не воспользовались возможностью получить их даром. «Деньги» тут могут означать любой ресурс или любую количественную меру того, насколько вас устраивают те или иные исходы. Формальные определения можно немного по-разному интерпретировать. Но это не подрывает ключевую мысль: у направления есть степень свободы, которой у предсказания нет.

‡ Например, пусть позже лиса получит шанс дёшево купить виноград, заплатив кролику, который может допрыгнуть до ягод. Если лиса прыгает за виноградом и тратит энергию, решает, что он «зелен», и потом отказывается заплатить за него сущие копейки, то её поведение не описывается (простой, не зависящей от времени) функцией полезности. Если бы лиса последовательно хотела виноград, она была бы готова заплатить (при условии, что труд кролика достаточно дёшев). Если же она последовательно не хотела виноград, ей не стоило тратить время и энергию на попытки его сорвать. Получается, лиса либо зря потратила энергию, либо зря упустила виноград. И так, и так она неэффективно направляла события к своим целям.

§ Возможно, существуют объективно хорошие стратегии направления. То, что у него есть ключевой свободный параметр («Куда вы пытаетесь попасть?»), не означает, что остальные аспекты умелого направления у всех агентов разные. Умение водить машину не зависит от того, куда надо доехать. Но, как мы увидим в следующих главах, одного свободного параметра — цели направления — достаточно, чтобы стремление к суперинтеллекту было смертельно опасным.

¶ Это не значит, что мы должны ожидать, что цена акции не изменится. Только, что мы должны быть не уверены, куда. Сегодняшние цены акций — это наилучшие доступные предположения о завтрашних. Возможность их роста уравновешивается возможностью их падения.

(Это не противоречит наблюдению, что в большинстве случаев фондовый рынок скорее растёт, чем падает. Высокая вероятность того, что завтра цена немного вырастет, может уравновешиваться низкой вероятностью того, что она, наоборот, сильно упадёт. И есть ещё ряд других эффектов, например, инфляция. Стоимость валюты каждый день немного падает, что заставляет номинальную стоимость акций немного расти.)

‖ Дальнейшее обсуждение рынков и интеллекта см. в расширеннои обсуждении «Осознание силы интеллекта».

Поверхностность современных ИИ

→