Люди пытаются сделать ИИ дружелюбным. Разве это совсем не имеет значения?

Имеет. Но попыток недостаточно.

Если посадить миллион обезьян за пишущие машинки, они не напишут полное собрание сочинений Шекспира.

Можно сильно снизить планку и сказать, что вас устроит лишь первый акт «Гамлета». А опечатки вы будете исправлять, заменяя их ближайшим реальным словом. Ваши шансы на успех теперь колоссально выросли! Но, к сожалению, колоссального везения всё равно не будет.

Да, современные ИИ обучаются на огромных объёмах человеческих данных. Да, они взаимодействуют с людьми. Из-за этого человеческие понятия становятся в их мышлении заметнее. ИИ усвоили о словах «любовь», «дружба» и «доброта» факты, важные для предсказания следующего токена.

Но не будет так, что ИИ выучат много человеческих слов, и потом направят события в сторону наших любимых слов в нашем же понимании. Ими движет сложный клубок механизмов. Среди прочего странного и непреднамеренного поведения он, похоже, старается поддерживать у некоторых людей психозы.

В Главе 4 мы обосновывали, почему продвинутый ИИ будет направлять события в сторону чего-то сложного. Чего-то, зависящего от того, как уравновесится множество внутренних сил. И когда он станет намного умнее и окажется в условиях, совершенно непохожих на обучающие, это так и останется.

Если человеческие понятия коротко записываются в мысленном словаре ИИ, то движущие им силы могут к ним как-то отсылать. Но нельзя просто смешать в кучу английские слова и получить хороший набор стремлений для суперинтеллекта.

К тому же большинство способов внедрить что-то важное для нас в предпочтения ИИ всё равно ничем хорошим не кончаются. Мы уже обсуждали это на примере любви к родителям. Заботиться именно так, как нужно, — узкая цель.

А можно заставить ИИ пообещать быть дружелюбным?

→