Могут ли разработчики просто держать ИИ в коробке?

Они не будут.

Пятнадцать лет назад скептики возражали, что никто не будет столь глуп, чтобы дать ИИ большую свободу действий. Мол, любой, кто создаёт продвинутый машинный интеллект, будет держать его в физической и цифровой коробке. И будет позволять ему влиять на мир только через взаимодействие с высококвалифицированными (и достаточно параноидальными) контролёрами.

Тогда мы отвечали: сделать, чтобы ИИ вообще никак не влиял на мир, просто. Можно, например, залить компьютеры десятью кубометрами бетона и никогда никого к ним не подпускать.

Такой ИИ безопасен, но бесполезен. Если вы не дадите ему никак влиять на мир, то, конечно, он не будет никак влиять на мир... но, с другой стороны, он не будет никак влиять на мир.

Его нельзя будет использовать, чтобы лечить рак, совершать революцию в инженерии или создавать чудесные новые технологии. Создатели ИИ хотят, чтобы он радикально влиял на мир. В теории, можно попытаться перекрыть каналы ему влияния. Но, на практике, просьба «изобрети для нас вот эту новую технологию» — уже невероятно мощный канал влияния.

Мотивация создания суперинтеллекта — совершить интеллектуальные прорывы, на которые люди не способны. У проверки, что изобретение суперинтеллекта делает именно то, что заявлено, и ничего больше, шансов на успех примерно столько же, как у попытки понять машину, построенную развитой инопланетной цивилизацией. Цивилизацией, сильно замотивированной найти, как вас обмануть.

Такова была дискуссия пятнадцать лет назад.

Сегодня сама идея, что ИИ-лаборатории могут пытаться «держать продвинутый ИИ в ящике», кажется довольно старомодной.

Лаборатории прилагают все усилия, чтобы подключить свои ИИ к интернету. И заодно позволяют им выполнять произвольный код. Иногда пытаются ограничить возможности этого кода, но частенько получается не очень.^* А более мелкие игроки стараются как можно скорее подключить каждый новый ИИ ко всем мыслимым инструментам и возможностям.

В краткосрочной перспективе выгодно передавать ИИ контроль. ИИ, которые могут читать вашу почту и выходить в интернет, принесут больше прибыли. Компании предоставят ИИ доступ ко всем данным, до которых только смогут дотянуться. Microsoft и Apple уже продвигают ИИ, который видит вашу почту, фотографии и календарь^† и встраивают его в свои программы и устройства. Получается слишком много взаимодействий с ИИ, чтобы люди могли их эффективно отслеживать. Если курс радикально не изменится, человечество глубоко интегрирует ИИ в мировую экономику, потому что это принесёт людям много денег.

Создатели ИИ стремятся к огромному влиянию на мир. Они изо всех сил работают, чтобы ИИ мог его оказывать. Если какая-то одна компания не станет этого делать, если она будет держать свой ИИ в таких жёстких рамках, что у него не будет свободы действий, то контроль над будущим достанется другому ИИ, выращенному кем-то более безрассудным.

Всё равно бы не сработало.

В былых спорах мы часто указывали: любой канал, позволяющий ИИ влиять на мир, он может использовать и во вред. Предположим, ИИ разрешено общаться только с одним человеком, скажем, Алисой. Вы надеетесь, что так ИИ создаст чудесные новые технологии. Алиса будет помогать ИИ создавать вещи, которые ни один человек самостоятельно сделать не может. Это почти неизбежно означает: Алисе придётся делать многое, что она сама не вполне понимает. В этот момент ИИ, по сути, получает руки и ноги. Просто эти руки и ноги мы зовём «Алиса».

Люди часто неправильно понимают этот аргумент. Им кажется, что мы говорим, будто достаточно умный ИИ мог бы манипулировать даже самым параноидальным контролёром и заставить его исполнять свою волю. Вероятно, мог бы.^‡ Но наша мысль более обобщённая. ИИ, ограниченный настолько, что не может влиять на мир, безопасен, но бесполезен. А как только вы позволяете ему влиять на мир, чтобы извлечь пользу, безопасность тут же теряется.

Не бывает рук, которые можно использовать только для добрых дел. В принципе, можно представить, что однажды человечество создаст ИИ умнее людей, который захочет приносить пользу. Согласование кажется хотя бы теоретически возможным. А вот держать ИИ в ящике и при этом как-то использовать его только во благо? Вряд ли.

Ну, так мы отвечали раньше. До ИИ тогда было ещё далеко. Оптимистам сходили с рук слова, что ни одна компания не будет настолько безрассудна, чтобы бесконтрольно подключать свой ИИ к интернету. Это было задолго до того, как все начали подключать свои новейшие и лучшие ИИ напрямую к интернету.

* Из аннотации статьи начала 2024 года: «Наше исследование выявило несколько проблем безопасности не только в самой модели LLM, но и в её интеграции с другими компонентами. Мы обнаружили, что, хотя в GPT-4 от OpenAI и реализовано много ограничений для повышения безопасности, они всё ещё уязвимы для атак. Чтобы продемонстрировать реальные угрозы обнаруженных нами уязвимостей, мы разработали сквозную атаку, в ходе которой злоумышленник может незаконно получить историю чатов пользователя, причём без необходимости манипулировать вводом пользователя или получать прямой доступ к GPT-4».

Позже в том же году другая статья «выявила в общей сложности 20 уязвимостей в 11 интегрированных с LLM фреймворках, включая 19 уязвимостей удалённого выполнения кода и 1 уязвимость произвольного чтения/записи файлов».

† Как сообщает CNN: «Apple Intelligence будет иметь доступ к широкому спектру ваших личных данных, от письменных сообщений и ваших фотографий и видео до записей в вашем календаре. Похоже, нет способа запретить Apple Intelligence доступ к этой информации, кроме как не пользоваться ею...»

‡ Я (Юдковский) однажды продемонстрировал это, поспорив с одним человеком на его 20 долларов против моих 0. В приватном чате я отыгрывал роль «ИИ», а он — «контролёра». Я должен был убедить его выпустить меня из коробки. Я это сделал. Он заплатил. Не было никакого хитрого трюка. Я не жульничал и не предлагал заплатить ему 21 доллар, чтобы он уступил и я доказал свою правоту. Я просто честно выиграл.

А мы не сможем использовать критическую уязвимость ИИ?

→