Путь к хотению

Почему хотеть — эффективно? Почему так выигрывают? Почему оптимизация «чёрного ящика» естественным отбором снова и снова натыкается на этот приём?

Мы считаем «желаниеподобное» поведение ключевым для успешного направления событий в мире. Это относится не только к разумным сущностям, вроде людей и ИИ, но и к гораздо более глупым, вроде амёб и термостатов. Давайте для лучшего понимания рассмотрим некоторые из самых примитивных механизмов, демонстрирующих простейшую форму «желаниеподобного поведения».

Начнём с камней. Камни не демонстрируют поведения, которое мы бы тут назвали «желаниеподобным». Физик в непринуждённой беседе может сказать, что, катясь с холма, камень «хочет» быть ближе к центру Земли под действием силы тяжести. Но такая тенденция (падать в гравитационном поле) — не то, что мы имеем в виду под «желаниеподобным» поведением.

Вот если объект катится с горы, постоянно натыкается на ущелья и каждый раз меняет курс, чтобы не застрять в них и добраться до самого низа, тогда мы скажем, что он ведёт себя, будто «хочет» оказаться на меньшей высоте. Это желаниеподобное поведение подразумевает некое устойчивое и динамичное направление к определённой цели. Камни так не умеют.

Один из простейших механизмов, поведение которого мы назвали бы «желаниеподобным» — скромный термостат. Домашний термостат измеряет температуру, включает обогрев, если она опускается ниже 21°C, а кондиционер — если поднимается выше 23°C. Так (если всё работает исправно) термостат ограничивает реальность диапазоном возможных исходов, где температура в доме остаётся между 21°С и 23°С.

Простейшему термостату не нужно в явном виде, численно, представлять температуру в доме сейчас. Биметаллический термометр — это две тонкие полоски из разных металлов, сваренные вместе так, что при нагревании они изгибаются из-за разного расширения. Можно взять такой и сделать, чтобы полоски замыкали выключатель обогревателя при 21°C, а кондиционера — при 23°C.

В итоге термостат поддерживает узкий диапазон температур в довольно широком спектре условий. Это очень простое поведение, немного похожее на то, что мы называем «хотеть».

В биохимии есть масса процессов, работающих по принципу термостата. Они встречаются везде, где клетке или организму выгодно поддерживать некий параметр в определённом диапазоне.^* Но это лишь первый шаг на пути к полноценному направлению событий.

Простые устройства, вроде термостата, лишены некоторых ключевых компонентов планирования. В термостате нет ни предсказания вероятных последствий, ни поиска среди возможных действий тех, что ведут к «предпочтительным» результатам, ни обучения при наблюдении за развитием событий.^†

Если термометр застрянет на отметке 20°C, термостат не удивится, что непрерывная работа обогревателя, кажется, вовсе не двигает столбик термометра вверх. Термостат будет просто держать обогреватель включённым.

Перейдём на ступеньку повыше термостатов — к животным.

Поведение некоторых животных лишь чуточку более продвинуто. Известна история об осах-сфексах, или золотых роющих осах, описанная энтомологом Жаном-Анри Фабром в 1915 году. Оса убивает сверчка и тащит его ко входу в свою норку, чтобы накормить потомство. Она заходит внутрь — проверить, всё ли в порядке. Потом выходит и затаскивает сверчка внутрь.

Пока оса проверяла норку, Фабр отодвигал сверчка на несколько сантиметров от гнезда. Когда оса выходила... она снова подтаскивала сверчка ко входу, повторно заходила в норку, повторно её осматривала, а затем выходила за сверчком.

Если Фабр снова отодвигал сверчка, оса делала всё то же самое ещё раз.

В первоначальном отчёте Фабр писал, что смог повторить это сорок раз.

Впрочем, позже Фабр экспериментировал с другой колонией того же вида, и тогда оса, казалось, после двух-трёх повторений что-то сообразила. Выйдя в следующий раз, она немедленно затащила сверчка в норку, пропустив этап проверки.^‡

С человеческой точки зрения оса, повторяющая действие сорок раз, ведёт себя, будто она «заранее запрограммирована», слепо исполняет сценарий, подчиняется набору правил «если-то». И наоборот, сообразившая оса, на четвёртый раз затащившая сверчка внутрь, кажется более целеустремлённой. Как будто она совершает действия с целью достичь результата, а не просто следует сценарию.

В чём же ключевое различие?

Мы бы сказали: оса, нарушившая шаблон, ведёт себя, будто умеет учиться на прошлом опыте.

Она ведёт себя, будто способна обобщить «Моя стратегия в прошлый раз провалилась» до «Если я продолжу следовать этой стратегии, то, скорее всего, она опять провалится».

Она изобретает новое поведение, решающее проблему, с которой она столкнулась.

Разумеется, мы не можем расшифровать нейроны в мозгу осы (как не можем расшифровать параметры в LLM) и точно узнать, что происходило у неё в голове. Может, нарушившие шаблон осы следовали правилам «если-то» более высокого уровня — вроде «пытаться пропускать шаги сценария при столкновении с такими-то сложностями». Может, осе помог относительно простой и жёсткий набор рефлексов, лишь чуточку более гибкий, чем у провалившей этот тест колонии. Уж вряд ли между двумя группами ос одного и того же вида большой когнитивный разрыв.

А может, осы-сфексы достаточно умны, чтобы учиться на опыте, когда они правильно используют свой мозг. Мы не нашли, сколько у них нейронов, но сфексы крупнее медоносных пчёл, а у тех миллион. Современному программисту ИИ или нейробиологу, привыкшему к мозгу млекопитающих, это покажется не таким уж большим числом. Но, вообще-то, миллион — это очень много.

Может, сфексы универсальнее, чем кажутся. Не исключено, что нам стоит думать о провалившей тест колонии как об относительно гибко мыслящих существах, поддавшихся чему-то вроде зависимости или когнитивного сбоя в одной весьма специфической ситуации.

В любом случае, по сравнению с термостатами, осы обладают большей способностью справляться с широким набором задач. Особенно когда их поведение переходит от неуклонного следования рецепту ближе к обучению на опыте.

Движение в этом направлении даёт понять, почему эволюция всё время создаёт животных, которые ведут себя, будто чего-то хотят. Использование более общих стратегий часто помогало животным выживать и размножаться. Такие стратегии работают для более широкого круга препятствий.

Была когда-то философская концепция естественной иерархии животных: рептилии выше насекомых, млекопитающие выше рептилий, а на вершине (конечно же) люди. Одним из признаков более высокого статуса была способность адаптироваться не только в ходе эволюции, но и в течение одной жизни — видеть, моделировать и предсказывать мир, отказываться от провальных рецептов и изобретать новые стратегии для победы.

Эта идея Великой Цепи Бытия была несколько грубовата. Сейчас более изощрённые взгляды осуждают её наивность.

Но там было и зерно истины размером с шар для сноса зданий. Если сравнить строящих плотины бобров с плетущими паутину пауками, познавательные процессы бобров наверняка поуниверсальнее. Хотя бы потому, что их мозг гораздо больше. Там больше места для сообразительности.

У паука может быть пятьдесят тысяч нейронов. Они должны обеспечивать всё его поведение. Многие шаги инструкции по плетению паутины, вероятно, если и не буквально «а затем поверни здесь налево», то уж сопоставимы с алгоритмами сфексов.

Бобёр, возможно, способен (мы не специалисты по бобрам, только предполагаем, но это очевидная догадка) воспринимать течь в плотине как своего рода дисгармонию, которую надо устранить любыми работающими способами. У бобра есть целая теменная кора (часть головного мозга млекопитающих, обрабатывающая информацию о расположении объектов в пространстве). Потенциально он с её помощью может визуализировать эффекты добавления куда-то новых веток или камней.

Наверное, в мозгу бобра достаточно места для целей вроде «построить большую конструкцию» или «не дать воде протечь», и достаточно мощности, чтобы рассматривать высокоуровневые планы и принимать подцели вроде «добавить веток сюда». Дальше такие подцели передаются в моторную кору, она двигает мышцы и тело бобра, и он переносит ветки.

Если первые выбранные ветки оказываются гнилыми и ломаются, мозг бобра, вероятно, может учесть это наблюдение, сделать вывод о ветках такого цвета и текстуры, и ожидать, что такие же ветки сломаются и в будущем, так что надо поискать другие.

Думается, любой настоящий специалист по бобрам вскочил бы и закричал на нас, что это сильно преуменьшает самые разумные вещи, на которые те способны. Может, какой-нибудь энтомолог тоже вскочит и заявит, что и его любимое насекомое при строительстве норы умеет не хуже. Нам нужно было выбрать достаточно простой пример, чтобы его можно было изобразить в одном разделе. Возможно, все они в пределах возможностей одного миллиона нейронов.

Более общая идея: переход от простых рефлексов к более сложным мыслительным операциям (обновление модели мира на основе опыта в реальном времени; использование этой модели для предсказания последствий действий; воображение желаемого результата; поиск разноуровневых стратегий, которые, по прогнозам, дадут этот воображаемый результат) — реальное мощное преимущество при решении задач.

Мы затрагивали это в Главе 3. Пусть водитель просто запоминает последовательности правых и левых поворотов, чтобы добраться из точки А в точку Б. Он использует правила «если-то», вроде «резко налево у заправки». Он будет обобщать опыт гораздо медленнее, чем другой водитель, изучающий карту улиц и способный прокладывать собственные маршруты между новыми точками. Зазубренные планы обобщаются гораздо медленнее, чем их сведение к обучаемой модели мира, механизму поиска планов и оценщику результатов.

Это не чёткое бинарное «или — или». Разница между «зазубриванием» и «обновлением и планированием» важна и когда разрыв преодолевается постепенно. Если бы ниже уровня человека разницы не было, если бы мозг мыши был не более гибким, чем мозг паука, он того же размера и остался бы, сэкономив на этом энергию.

Немного воображения и планирования даёт эволюционное преимущество задолго до человеческого уровня. Им не нужно быть идеальными. Они могут быть полезны уже на уровне термостата. И по мере того, как в разуме закрепляется всё больше таких полезных механизмов, поведение становится всё более похожим на результат хотения.

* Распространённость механизмов вроде термостата — одна из причин, почему людям так сложно разобраться в биохимии. Если учёный наблюдает за влиянием холодной погоды на дом с термостатом, то реальная причинно-следственная связь такова: из-за холода дом быстрее охлаждается, и термостат чаще включает обогреватель. Но домо-биолог, записывая данные, обнаруживает, что холодная погода не оказывает видимого статистического эффекта на температуру дома. Скорее, дома в более холодную погоду... потребляют больше природного газа?

† Есть внешний оптимизатор — инженер, создавший термостат. У него в уме было предсказание, что произойдёт, когда термостат автоматически включит обогреватель при 70 °F. Но сам термостат не в курсе.

‡ Версия этой истории распространилась среди специалистов-компьютерщиков до появления современного интернета. Она была основана на пересказе одного инженера. Он опустил оговорку Фабра, что колонии ос одного и того же вида отличались по своей способности менять поведение. См. «История о сфексе: как когнитивные науки продолжали повторять старый и сомнительный анекдот».

Умные ИИ замечают ложь и возможности.

→