Путь к хотению
Почему хотеть — эффективно? Почему так выигрывают? Почему оптимизация «чёрного ящика» естественным отбором снова и снова натыкается на этот приём?
Мы считаем «желаниеподобное» поведение ключевым для успешного направления событий в мире. Это относится не только к разумным сущностям, вроде людей и ИИ, но и к гораздо более глупым, вроде амёб и термостатов. Давайте для лучшего понимания рассмотрим некоторые из самых примитивных механизмов, демонстрирующих простейшую форму «желаниеподобного поведения».
Начнём с камней. Камни не демонстрируют поведения, которое мы бы тут назвали «желаниеподобным». Физик в непринуждённой беседе может сказать, что, катясь с холма, камень «хочет» быть ближе к центру Земли под действием силы тяжести. Но такая тенденция (падать в гравитационном поле) — не то, что мы имеем в виду под «желаниеподобным» поведением.
Вот если объект катится с горы, постоянно натыкается на ущелья и каждый раз меняет курс, чтобы не застрять в них и добраться до самого низа, тогда мы скажем, что он ведёт себя, будто «хочет» оказаться на меньшей высоте. Это желаниеподобное поведение подразумевает некое устойчивое и динамичное направление к определённой цели. Камни так не умеют.
Один из простейших механизмов, поведение которого мы назвали бы «желаниеподобным» — скромный термостат. Домашний термостат измеряет температуру, включает обогрев, если она опускается ниже 21°C, а кондиционер — если поднимается выше 23°C. Так (если всё работает исправно) термостат ограничивает реальность диапазоном возможных исходов, где температура в доме остаётся между 21°С и 23°С.
Простейшему термостату не нужно в явном виде, численно, представлять температуру в доме сейчас. Биметаллический термометр — это две тонкие полоски из разных металлов, сваренные вместе так, что при нагревании они изгибаются из-за разного расширения. Можно взять такой и сделать, чтобы полоски замыкали выключатель обогревателя при 21°C, а кондиционера — при 23°C.
В итоге термостат поддерживает узкий диапазон температур в довольно широком спектре условий. Это очень простое поведение, немного похожее на то, что мы называем «хотеть».
В биохимии есть масса процессов, работающих по принципу термостата. Они встречаются везде, где клетке или организму выгодно поддерживать некий параметр в определённом диапазоне.* Но это лишь первый шаг на пути к полноценному направлению событий.
Простые устройства, вроде термостата, лишены некоторых ключевых компонентов планирования. В термостате нет ни предсказания вероятных последствий, ни поиска среди возможных действий тех, что ведут к «предпочтительным» результатам, ни обучения при наблюдении за развитием событий.†
Если термометр застрянет на отметке 20°C, термостат не удивится, что непрерывная работа обогревателя, кажется, вовсе не двигает столбик термометра вверх. Термостат будет просто держать обогреватель включённым.
Перейдём на ступеньку повыше термостатов — к животным.
Поведение некоторых животных лишь чуточку более продвинуто. Известна история об осах-сфексах, или золотых роющих осах, описанная энтомологом Жаном-Анри Фабром в 1915 году. Оса убивает сверчка и тащит его ко входу в свою норку, чтобы накормить потомство. Она заходит внутрь — проверить, всё ли в порядке. Потом выходит и затаскивает сверчка внутрь.
Пока оса проверяла норку, Фабр отодвигал сверчка на несколько сантиметров от гнезда. Когда оса выходила... она снова подтаскивала сверчка ко входу, повторно заходила в норку, повторно её осматривала, а затем выходила за сверчком.
Если Фабр снова отодвигал сверчка, оса делала всё то же самое ещё раз.
В первоначальном отчёте Фабр писал, что смог повторить это сорок раз.
Впрочем, позже Фабр экспериментировал с другой колонией того же вида, и тогда оса, казалось, после двух-трёх повторений что-то сообразила. Выйдя в следующий раз, она немедленно затащила сверчка в норку, пропустив этап проверки.‡
С человеческой точки зрения оса, повторяющая действие сорок раз, ведёт себя, будто она «заранее запрограммирована», слепо исполняет сценарий, подчиняется набору правил «если-то». И наоборот, сообразившая оса, на четвёртый раз затащившая сверчка внутрь, кажется более целеустремлённой. Как будто она совершает действия с целью достичь результата, а не просто следует сценарию.
В чём же ключевое различие?
Мы бы сказали: оса, нарушившая шаблон, ведёт себя, будто умеет учиться на прошлом опыте.
Она ведёт себя, будто способна обобщить «Моя стратегия в прошлый раз провалилась» до «Если я продолжу следовать этой стратегии, то, скорее всего, она опять провалится».
Она изобретает новое поведение, решающее проблему, с которой она столкнулась.
Разумеется, мы не можем расшифровать нейроны в мозгу осы (как не можем расшифровать параметры в LLM) и точно узнать, что происходило у неё в голове. Может, нарушившие шаблон осы следовали правилам «если-то» более высокого уровня — вроде «пытаться пропускать шаги сценария при столкновении с такими-то сложностями». Может, осе помог относительно простой и жёсткий набор рефлексов, лишь чуточку более гибкий, чем у провалившей этот тест колонии. Уж вряд ли между двумя группами ос одного и того же вида большой когнитивный разрыв.
А может, осы-сфексы достаточно умны, чтобы учиться на опыте, когда они правильно используют свой мозг. Мы не нашли, сколько у них нейронов, но сфексы крупнее медоносных пчёл, а у тех миллион. Современному программисту ИИ или нейробиологу, привыкшему к мозгу млекопитающих, это покажется не таким уж большим числом. Но, вообще-то, миллион — это очень много.
Может, сфексы универсальнее, чем кажутся. Не исключено, что нам стоит думать о провалившей тест колонии как об относительно гибко мыслящих существах, поддавшихся чему-то вроде зависимости или когнитивного сбоя в одной весьма специфической ситуации.
В любом случае, по сравнению с термостатами, осы обладают большей способностью справляться с широким набором задач. Особенно когда их поведение переходит от неуклонного следования рецепту ближе к обучению на опыте.
Движение в этом направлении даёт понять, почему эволюция всё время создаёт животных, которые ведут себя, будто чего-то хотят. Использование более общих стратегий часто помогало животным выживать и размножаться. Такие стратегии работают для более широкого круга препятствий.
Была когда-то философская концепция естественной иерархии животных: рептилии выше насекомых, млекопитающие выше рептилий, а на вершине (конечно же) люди. Одним из признаков более высокого статуса была способность адаптироваться не только в ходе эволюции, но и в течение одной жизни — видеть, моделировать и предсказывать мир, отказываться от провальных рецептов и изобретать новые стратегии для победы.
Эта идея Великой Цепи Бытия была несколько грубовата. Сейчас более изощрённые взгляды осуждают её наивность.
Но там было и зерно истины размером с шар для сноса зданий. Если сравнить строящих плотины бобров с плетущими паутину пауками, познавательные процессы бобров наверняка поуниверсальнее. Хотя бы потому, что их мозг гораздо больше. Там больше места для сообразительности.
У паука может быть пятьдесят тысяч нейронов. Они должны обеспечивать всё его поведение. Многие шаги инструкции по плетению паутины, вероятно, если и не буквально «а затем поверни здесь налево», то уж сопоставимы с алгоритмами сфексов.
Бобёр, возможно, способен (мы не специалисты по бобрам, только предполагаем, но это очевидная догадка) воспринимать течь в плотине как своего рода дисгармонию, которую надо устранить любыми работающими способами. У бобра есть целая теменная кора (часть головного мозга млекопитающих, обрабатывающая информацию о расположении объектов в пространстве). Потенциально он с её помощью может визуализировать эффекты добавления куда-то новых веток или камней.
Наверное, в мозгу бобра достаточно места для целей вроде «построить большую конструкцию» или «не дать воде протечь», и достаточно мощности, чтобы рассматривать высокоуровневые планы и принимать подцели вроде «добавить веток сюда». Дальше такие подцели передаются в моторную кору, она двигает мышцы и тело бобра, и он переносит ветки.
Если первые выбранные ветки оказываются гнилыми и ломаются, мозг бобра, вероятно, может учесть это наблюдение, сделать вывод о ветках такого цвета и текстуры, и ожидать, что такие же ветки сломаются и в будущем, так что надо поискать другие.
Думается, любой настоящий специалист по бобрам вскочил бы и закричал на нас, что это сильно преуменьшает самые разумные вещи, на которые те способны. Может, какой-нибудь энтомолог тоже вскочит и заявит, что и его любимое насекомое при строительстве норы умеет не хуже. Нам нужно было выбрать достаточно простой пример, чтобы его можно было изобразить в одном разделе. Возможно, все они в пределах возможностей одного миллиона нейронов.
Более общая идея: переход от простых рефлексов к более сложным мыслительным операциям (обновление модели мира на основе опыта в реальном времени; использование этой модели для предсказания последствий действий; воображение желаемого результата; поиск разноуровневых стратегий, которые, по прогнозам, дадут этот воображаемый результат) — реальное мощное преимущество при решении задач.
Мы затрагивали это в Главе 3. Пусть водитель просто запоминает последовательности правых и левых поворотов, чтобы добраться из точки А в точку Б. Он использует правила «если-то», вроде «резко налево у заправки». Он будет обобщать опыт гораздо медленнее, чем другой водитель, изучающий карту улиц и способный прокладывать собственные маршруты между новыми точками. Зазубренные планы обобщаются гораздо медленнее, чем их сведение к обучаемой модели мира, механизму поиска планов и оценщику результатов.
Это не чёткое бинарное «или — или». Разница между «зазубриванием» и «обновлением и планированием» важна и когда разрыв преодолевается постепенно. Если бы ниже уровня человека разницы не было, если бы мозг мыши был не более гибким, чем мозг паука, он того же размера и остался бы, сэкономив на этом энергию.
Немного воображения и планирования даёт эволюционное преимущество задолго до человеческого уровня. Им не нужно быть идеальными. Они могут быть полезны уже на уровне термостата. И по мере того, как в разуме закрепляется всё больше таких полезных механизмов, поведение становится всё более похожим на результат хотения.
* Распространённость механизмов вроде термостата — одна из причин, почему людям так сложно разобраться в биохимии. Если учёный наблюдает за влиянием холодной погоды на дом с термостатом, то реальная причинно-следственная связь такова: из-за холода дом быстрее охлаждается, и термостат чаще включает обогреватель. Но домо-биолог, записывая данные, обнаруживает, что холодная погода не оказывает видимого статистического эффекта на температуру дома. Скорее, дома в более холодную погоду... потребляют больше природного газа?
† Есть внешний оптимизатор — инженер, создавший термостат. У него в уме было предсказание, что произойдёт, когда термостат автоматически включит обогреватель при 70 °F. Но сам термостат не в курсе.
‡ Версия этой истории распространилась среди специалистов-компьютерщиков до появления современного интернета. Она была основана на пересказе одного инженера. Он опустил оговорку Фабра, что колонии ос одного и того же вида отличались по своей способности менять поведение. См. «История о сфексе: как когнитивные науки продолжали повторять старый и сомнительный анекдот».