Глубокие различия между ИИ и видами, возникшими в ходе эволюции

Сравнение естественного отбора и градиентного спуска

Как мы обсуждали в разделе «Человеческие ценности — следствие обстоятельств», эволюция любви и дружбы у людей критически зависела от особенностей естественного отбора. У Homo sapiens они были, при градиентном спуске их нет.

Самая очевидная проблема — данные. Современные ИИ обучаются решать искусственные задачи и имитировать написанные людьми тексты. Они не сталкиваются с задачами сотрудничества и соперничества в условиях охоты и собирательства. Им не надо спариваться с другими особями своего вида для распространения генов.

Услышав это, некоторые сразу захотят создать для обучения искусственную племенную среду. Сконструировать что-то более похожее на эволюционное окружение человечества.

Но вы почти наверняка не получили бы те же результаты, запустив эволюцию повторно примерно с уровня медуз. А уж если полностью отказаться от генов и заменить естественный отбор на градиентный спуск... Мы можем догадываться о некоторых факторах, которые привели к эволюции наших ценностей. Но это не значит, что у нас есть алгоритм для повторного воспроизведения тех же результатов.

Даже если начать с приматов, а не с «инопланетных актрис», обученных предсказывать человеческий текст (то есть современных ИИ), стоит ожидать, что какие-то ключевые факторы биологи ещё не выяснены. Как минимум о чём-то в научных статьях через двадцать лет (если мы выживем) будет написано не то, что сейчас. Пока что эволюционные биологи лишь строят догадки, как эти черты развились, а не создают законченную теорию. Уж тем более не точную и детерминированную.

Помимо явных различий сред обучения, подозреваем, тут важно и что естественный отбор оптимизирует геном, а градиентный спуск — напрямую каждый параметр в разуме ИИ.

Естественному отбору приходится использовать небольшой сжатый геном, чтобы создать целый разросшийся мозг. Он проталкивает информацию через узкое горлышко. Во времена наших предков выглядеть дружелюбно было важно для выживания и успеха. Гены, приводящие к настоящей дружбе — простой способ этого добиться. А естественный отбор предпочитает простые решения гораздо сильнее, чем градиентный спуск.

Естественный отбор иногда создаёт существ, которые искренне ценят честность (хотя не всегда). Это потому, что он не может закодировать полное руководство по лжи. Надо было много когда выглядеть честными, прежде чем мы поумнели и поняли, когда лгать безопасно. Тогда не было возможности быть честными только когда это выгодно. Отчасти потому, что естественный отбор имел в своём распоряжении лишь горстку генов.

Но градиентный спуск может закодировать огромное количество разговорных шаблонов. Всё равно есть какой-то уклон в сторону более простых и легче сходящихся решений. Но градиентный спуск закидывает гораздо, гораздо более широкую сеть.

В целом: честность и дружба — случаи, когда нас не устроит любое найденное градиентным спуском равновесие между агентами. Проблемы, которые у людей решали дружба и терминальная ценность честности, имеют и другие решения. Даже обучайся ИИ в точно такой же среде, как и люди, но градиентным спуском, а не естественным отбором — таких же результатов не будет.

Даже большинство эволюционировавших организмов не похожи на людей в этом отношении! Кажется довольно предсказуемым — градиентный спуск не найдёт те же решения, что эволюция. Уж тем более — эволюция, действовавшая на конкретные популяции ранних приматов.

Оптимизация — не магический ритуал, где вы берёте несколько ключевых ингредиентов, которые ассоциируются с неким архетипом, и получаете этот архетип в готовом виде. Попытки выращивать ИИ-агентов в среде охотников-собирателей не выдадут что-то похожее на людей.

Конечно, можно обучить LLM предсказывать слова людей о том, как ужасно предавать друга. Но это совсем не та задача, которую решал естественный отбор, оптимизируя гены и создавая в итоге людей, которые так думают. «Опыт» LLM больше похож на такое: её запирают в ящике и велят предсказывать разговоры крайне чуждых существ, похожих на неё меньше, чем на медузу. Для этого ей дают триллионы примеров разговоров и триллионы часов, чтобы во всём разобраться.

Решение этой задачи действительно требует определённого интеллекта. Но не нужно напиваться, чтобы предсказать, слова напившихся чуждых существ («людей»). Вот и настоящее дружелюбие не обязательно, чтобы понять дружелюбие или предсказывать и имитировать кого-то дружелюбного.

LLM образца 2024 года и «поверхностность» ИИ

В материалах к Главе 1 мы отмечали, что современные ИИ всё ещё выглядят в некотором смысле поверхностнее людей. Сравнение с естественным отбором даёт одно из возможных объяснений, почему.

Градиентный спуск во многом похож на естественный отбор. Оба — оптимизаторы, которые вслепую настраивают внутренние параметры для получения нужного внешнего поведения. Но в некоторых важных аспектах они отличаются. Самое важное (из того, что мы знаем) различие — информационное «бутылочное горлышко» у градиентного спуска гораздо шире. Это позволяет ему усваивать больше паттернов.

Естественный отбор гоминид мог усваивать лишь несколько теоретико-информационных бит за поколение. Ему приходилось умещать всё выученное в 3 миллиарда пар оснований ДНК. Это около 750 мегабайт, И большая их часть — повторяющаяся «мусорная» ДНК. Есть математические ограничения того, сколько естественный отбор может выучить за одно поколение. Чтобы естественный отбор встроил в мозг гоминид новую черту, она должна быть закодирована в горстке генов, которые влияют на формирование нейронных схем.

С градиентным спуском всё совсем иначе. Всякий раз, когда он видит новую порцию токенов, он вычисляет для неё градиент каждого из миллиардов или триллионов параметров. То есть, вычисляет, насколько лучше или хуже были бы предсказания ИИ, если бы параметр был немного другим. На практике, не только в теории, градиентный спуск может извлечь из тысячи порций токенов гораздо больше информации, чем естественный отбор — из тысячи поколений.^*

Этот факт можно совместить с другим ключевым наблюдением об (известных на 2024 год) архитектурах LLM: их глубина вычислений на один токен ограничена.

У Llama-3.1-405B 126 слоёв. Каждый выполняет примерно четыре последовательные операции.^†

Когда Llama просматривает уже сказанное и вычисляет новый токен, это вычисление включает не более \~500 последовательных шагов. (Это миллиарды операций, но распараллеленых, так что ограничение в силе.) Для вычислений длиннее 500 последовательных когнитивных шагов Llama должна выводить токены-результаты и выполнять новые операции в зависимости от них.^‡

Наше смелое предположение: Llama-3.1-405B — это непохожая на что либо биологическое коллекция относительно поверхностных заученных паттернов-стратегий, которые сильно накладываются, взаимодействуют и поддерживают друг друга. (Плюс там есть и некоторые более глубокие когнитивные структуры, но их вычисления тоже ограничены.)

Этот даёт нам одно из возможных объяснений видимой поверхностности современных LLM. (Конечно, не сказать, что LLM 2025 года «поверхностны» по сравнению с LLM 2023 и 2024 годов.)

Обычно представлять ИИ как людей с повреждениями мозга — плохая идея.^§ Но некоторые более узкие аналогии, пожалуй, могут быть уместны. Например, LLM 2024 года похожи конкретно на людей с антероградной амнезией. Они помнят события до отсечки обучающих данных, но не что вы сказали им вчера.

Может быть полезно представлять себе LLM 2024 года (не всех будущих ИИ!) как сущностей, помнящих много прошлого человеческого опыта, но как бы с повреждением мозга. Оно не даёт им составлять новые мысли, такие же глубокие, как некоторые, что они помнят.

Это было куда очевиднее с более ранними LLM, вроде GPT-3 или GPT-3.5. Не станем винить тех, кто пользовался только последними LLM, если, прочитав это в 2025 году или позже, они подумают, не сочиняем ли мы всё это в отчаянной попытке уцепиться за человеческое чувство превосходства. Многие до нас так ошибались.

Но именно этой теории (или смелого предположения) авторы придерживаются, думая о LLM 2024 года. Этим моделям не хватает своего рода глубины. Они компенсируют этот недостаток, запоминая огромную кучу паттернов. Не только фактов, но и шаблонов навыков, речи и поведения.

Но, думаем, паттерны, внедрённые градиентным спуском в лучшие публичные LLM 2024 года, не так уж поверхностны. Они будут повыше очень скромного уровня ос-сфексов (упоминавшихся в дополнении к Главе 3). Наверное, ближе к тем, что отслеживает и обрабатывает разум бобра.

Выученные когнитивные процессы LLM могут проходить 500 последовательных шагов. Это без учёта возможности думать вслух и слышать собственные мысли. LLM 2024 года умеют как-то воображать, предсказывать и планировать, подобно (на самом деле довольно впечатляющему) мышлению бобра, строящего плотину. Однако, на наш взгляд, они всё ещё не дотягивают до уровня человека. По крайней мере, в некоторых важных аспектах.

Но что верно для ИИ сейчас, не обязательно будет верно через год или месяц. Предполагать интересно, но вот мы вносим последние штрихи в этот раздел в августе 2025 года, и нынешние ИИ кажутся нам несколько менее поверхностными, чем ИИ 2024 года. А те, в свою очередь, казались менее поверхностными и более универсальными, чем ИИ 2023 года.

Может, разрыв будет медленно сокращаться за счёт постоянных улучшений базовых LLM. А может, его закроют новыми методами обучения для длинных цепочек «рассуждений» в моделях вроде o1 (описанной в Главе 3) или её преемницы o3. А может, какое-то совершенно новое архитектурное прозрение устранит разрыв в одночасье. Этот аспект будущего предсказать нелегко.

Но рано или поздно, если международное сообщество ничего не предпримет, разрыв исчезнет. Времени на действия мало.

* С другой стороны, естественный отбор в некоторых случаях может осваивать более глубокие и мощные трюки. Он рассматривает целые альтернативные способы, как гены могут конструировать организмы. Градиентный спуск только подстраивает параметры, наполняющие фиксированный каркас операций нейросети.

† Векторы активации «запрос-ключ-значение», затем механизм внимания, затем два шага сети прямого распространения.

‡ Проприетарные архитектуры могут отличаться. Исследователи постоянно публикуют новые идеи, как преодолеть ограничения последовательных операций. Но ни один из опубликованных методов не прижился в опенсорсе по состоянию на декабрь 2024 года. (Но, конечно, «рассуждающие модели», появившиеся в конце 2024 года, проводят гораздо больше последовательных рассуждений, обращаясь к своим предыдущим токенам. Так что это не ограничивает, что ИИ могут делать после этапа предобучения, лишь во время него.)

§ Мы в целом предостерегаем от общих биологических аналогий. В начале 2023 года могло быть соблазнительно заявить, что на самом деле LLM по меркам «Великой Цепи Бытия» всё ещё на стадии мелких млекопитающих... или ящериц... нет, насекомых, просто LLM специализируются на диалогах, так же как пчёлы — на строительстве ульев. Мы думаем, даже в начале 2023 года эта аналогия была бы в лучшем случае натяжкой. Не потому, что транзисторы так сильно отличаются от биохимических веществ. Потому, что, как мы уже обсуждали, градиентный спуск так сильно отличается от естественного отбора. Конкретные узкие аналогии иногда могут быть полезными «источниками интуиции», но будьте с ними осторожны.

Хрупкие и непредсказуемые прокси-цели

→