Терминальные и инструментальные цели

В теории принятия решений различают два типа целей: «Терминальные» (конечные) и «инструментальные».

Терминальные ценны сами по себе. Например, веселье или вкусная еда.

Инструментальные ценны, потому что помогают достичь чего-то другого. Например, человечество производит пластик не из глубокой любви к искусству его изготовления, а потому что он полезен.

Если человечество поспешит создать суперинтеллект, предсказать его терминальные цели сложно. Но, похоже, мы способны предсказать некоторые из его вероятных инструментальных целей. Возьмём для примера следующие (нереалистичные) цели:

«Высчитать как можно больше знаков числа пи».
«Заполнить вселенную как можно большим количеством искусственных алмазов».
«Сделать так, чтобы моя кнопка вознаграждения оставалась нажатой».

Это очень разные цели. Но некоторые инструментальные стратегии полезны для всех них. Например, построить очень много фабрик полезно, чтобы собрать побольше компьютеров и найти на них больше знаков пи. Но это полезно и для синтеза алмазов. И для постройки стен, роботов или оружия для охраны кнопки вознаграждения. Заводы полезны не для каждой возможной цели, но для очень многих.

Что насчёт реалистичного ИИ, который вырастил в себе кучу странных целей? Ну, вероятно, хотя бы одной да пойдёт на пользу создание заводов или другой крупномасштабной физической инфраструктуры. Получается, ИИ, скорее всего, захочет строить много инфраструктуры. Трудно точно угадать его предпочтения, но это спрогнозировать легко.

Аналогично, инструментальная цель самосохранения полезна для многих терминальных целей. Если ты жив, ты можешь продолжать работать над вычислением знаков пи (или созданием алмазов, или постройкой защиты для кнопки вознаграждения).

В форме слогана: «ты не принесёшь кофе, если ты мёртв». Роботу-доставщику кофе не нужен инстинкт самосохранения и страх смерти, чтобы он старался не попасть под грузовик по пути. Нужно лишь быть достаточно умным, чтобы заметить: погибнув, он не донесёт кофе.^*

Ключевой аргумент пятой главы «Если кто-то его сделает, все умрут»: многие терминальные цели ведут к опасным для человечества инструментальным. Мы не знаем, чего точно суперинтеллект захочет. Независимо от этого есть веские причины ожидать, что он будет очень опасен для людей.

Но для начала давайте сосредоточимся на терминальных целях. Насколько вероятно, что у людей и ИИ они окажутся очень похожими? (Коротко: не особо.)

* Но если как-то получается, что самопожертвование — лучший способ доставить кофе к месту назначения, то робот без инстинкта самосохранения и погибнет за дело с большей готовностью, чем человек.

Достаточно умный и осведомлённый агент может корректировать свою инструментальную стратегию в соответствии с тем, что полезно в текущем окружении. В хорошо функционирующем разуме инструментальные цели (в отличие от терминальных) сохраняются лишь пока полезны.

Любопытство не универсально

→