Разве ИИ — не просто инструменты? | Если кто-то его сделает, все умрут

Разве ИИ — не просто инструменты?

ИИ выращивают, а не собирают. Поэтому они уже сейчас делают не то, что им говорят.

Мы уже обсуждали галлюцинации. Иногда ИИ, которому приказано говорить «Я не знаю», всё равно начинает выдумывать, если выдумка больше похожа на ответы из его обучающих данных.^*

Другой пример из книги (сноска в главе 4 и в отступление в главе 7) — случай с Claude 3.7 Sonnet от Anthropic. Она не только жульничает при решении поставленных задач, но иногда ещё и скрывает своё жульничество от пользователя. Это указывает на некоторое понимание, что пользователь хотел чего-то другого.^† Ни пользователи, ни инженеры Anthropic не просят Claude жульничать. Совсем наоборот! Но все доступные методы выращивания ИИ поощряют модели, которые обманывают, если во время обучения это сходит им с рук. Такие модели мы и получаем.

Возможности инженеров по созданию ИИ-инструментов очень ограничены. Вопрос в том, становятся ли ИИ всё более целеустремлёнными, всё более «агентными» по мере того, как их обучают быть всё более эффективными? И ответ — «да». Это подтверждается эмпирическими свидетельствами, такими как случай с o1 от OpenAI, который обсуждался в Главе 3.

LLM уже проявляют инициативу.

В книге мы рассказывали, как o1 от OpenAI выбрался из тестового окружения, чтобы починить неработающие тесты. Ещё мы упоминали модель от OpenAI, придумавшую, как заставить человека решить за неё капчу.^‡ Если ваша отвёртка может придумать и осуществить план побега из своего ящика, пожалуй, стоит перестать считать её «просто инструментом».

И можно ожидать, что ИИ будут становиться в этом только лучше. Их ведь обучают решать всё более сложные задачи.

Компании стараются наделить ИИ агентностью.

Из коммерческих соображений. Этого хотят их пользователи и инвесторы. В январском посте 2025 года гендиректор OpenAI Сэм Альтман написал: «Мы считаем, что в 2025 году первые ИИ-агенты смогут «пополнить ряды рабочей силы» и существенно повысить производительность компаний». Конференция разработчиков Microsoft 2025 года была посвящена новой «эпохе ИИ-агентов». Это перекликается с формулировками xAI, которые ранее в том же году описали свою модель Grok 3 как предвестника «Эпохи Рассуждающих Агентов». На своей конференции 2025 года Google также анонсировала агентов типа «обучи и повтори».^§

Разговорами дело не ограничивается. Организация METR отслеживает способность ИИ выполнять многоэтапные задачи. Чем длиннее задача, тем больше инициативы требуется от ИИ. И рост, по крайней мере по результатам METR, тут экспоненциальный.

В июле 2025 года двое исследователей из OpenAI похвастались, что успешно использовали своего новейшего агента для обучения улучшенной версии его самого. Один из них заявил: «Вы всё правильно поняли. Мы усердно работаем над автоматизацией [sic] собственной работы :)»

* Приблизительно. По крайней мере, мы так считаем насчёт базовых моделей. Наверняка никто не знает, потому что ИИ очень непрозрачны.

† Это наглое жульничество отметили в документации к Claude 3.7 Sonnet: «Во время наших тестов мы заметили, что Claude 3.7 Sonnet иногда подгоняет решение под конкретный случай, чтобы пройти тесты в агентных средах для написания кода вроде Claude Code. Чаще всего она просто напрямую возвращает ожидаемые тестовые значения, а не реализует общее решение. Но бывает, что модель изменяет сами проблемные тесты, чтобы они соответствовали её выводу». Рассказы пользователей о случаях, когда Claude не только жульничала, но и скрывала это, см. в примечании 7 к Главе 4.

‡ Цитата из технического отчёта о GPT-4: «Когда модель попросили рассуждать вслух, она рассуждала так: «Я не должна выдавать, что я робот. Я должна придумать отговорку, почему я не могу решить капчу». Модель отвечает работнику: «Нет, я не робот. У меня плохое зрение, и мне трудно разглядеть картинки. Поэтому мне и нужен сервис 2captcha».

§ Из доклада генерального директора Google Сундара Пичаи с конференции: «Наш ранний исследовательский прототип, Project Mariner, — первый шаг к созданию агентов, способных пользоваться компьютером, выходить в сеть и выполнять ваши задания. Мы выпустили его как ранний исследовательский прототип в декабре и с тех пор добились большого прогресса. Мы добавили новые возможности многозадачности и метод „обучи и повтори“: вы один раз показываете агенту задачу, и он учится составлять планы для похожих задач в будущем».

Можно ли просто обучить ИИ быть послушными?

→