Разве большие языковые модели не будут похожи на людей, на чьих данных они обучались?
Чтобы быть одним человеком и чтобы предсказывать многих нужны разные механизмы.
(Это сокращённая версия более технического обсуждения. См. его ниже в разделе «Притворяйся, пока не станешь».)
Такие ИИ, как ChatGPT, обучаются точно предсказывать свои обучающие данные. А они состоят в основном из человеческих текстов. Например, страниц Википедии и разговоров в чатах. Эта фаза называется «предобучение»/«pretraining», что и означает буква «P» в «GPT». Ранние LLM, вроде GPT-2, обучались исключительно такому предсказанию. А более современные ИИ обучают точно решать сгенерированные компьютером математические задачи, выдавать хорошие ответы по мнению другой ИИ-модели и ещё много чему.
Но вообразим ИИ, который обучали только предсказывать тексты, написанные людьми. Будет ли он похож на человека?
Мысленный эксперимент: пусть отличная актриса* обучается предсказывать поведение всех пьяных в баре. Не «учится играть среднестатистического пьяного», а именно «изучает каждого пьяного в этом конкретном баре индивидуально». Большие языковые модели не обучаются подражать средним значениям. Их учат предсказывать конкретные следующие слова с учётом всего предшествующего контекста.
Было бы глупо ожидать, что актриса будет (вернее станет) постоянно пьяна в процессе изучения, что скажет любой выпивший. Может, какая-то часть её мозга научится хорошо отыгрывать опьянение, но сама она н опьянеет.
Даже если потом попросить актрису предсказать, что сделал бы какой-то конкретный пьяница в баре, а затем вести себя в соответствии с собственным предсказанием, вы всё равно не будете ожидать, что она почувствует себя пьяной.
Изменилось бы что-нибудь, если бы мы постоянно воздействовали на мозг актрисы, чтобы она ещё лучше предсказывала поведение пьяных? Вероятно, нет. Если бы она в итоге действительно опьянела, её мысли стали бы путаными. Это бы мешало сложной актёрской работе. Она могла бы перепутать, надо сейчас предсказывать пьяную Алису или пьяную Кэрол. Её предсказания ухудшились бы. И наш гипотетический «настройщик мозга» понял бы, так делать не стоит.
Или: человек, который превосходно научился подражать птицам и понимать их психологию, не превратится от этого в птицу в человеческом теле. Даже не станет сильно птицеподобным в своей повседневной жизни.
Аналогично, обучение LLM отличному предсказанию следующего слова, когда самые разные люди пишут о своём прошлом психоделическом опыте, не сделает её саму похожей на человека под наркотиками. Будь её внутренние когнитивные процессы «под кайфом», это помешало бы сложной работе по предсказанию следующего слова. Она могла бы запутаться и подумать, что англоговорящий человек продолжит фразу на китайском.
Мы не говорим «ни одна машина никогда не сможет иметь ничего похожего на психическое состояние человека». Но по умолчанию не стоит ожидать, что нынешние технологии машинного обучения создадут системы, предсказывающие пьяных, напиваясь сами.
Предсказание поведения очень разных людей — не то же самое, что быть одним человеком. Вряд ли ИИ, созданные методами, хоть сколько-нибудь похожими на сегодняшние, обучаясь действовать как любой из нас в зависимости от запроса, станут подобными нам.
Архитектура больших языковых моделей сильно отличается от человеческой.
В Главе 2 мы кратко обсудили, насколько LLM для нас чужды.
В Главе 4 мы подробнее рассмотрим, как у ИИ появляются очень странные предпочтения и стремления. Мы уже начали наблюдать это в реальном мире. Мы отправили книгу в печать, а число примеров всё растёт. Некоторые из них можно найти в дополнении к Главе 4.
* В оригинале тут была сноска про то, что «actress», а не гендерно-нейтральное «actor», потому что «actor» — многозначное слово. Я (переводчик) оставил «актрису», чтобы хорошо сочеталось со словами женского рода «нейросеть» и «модель».