Разве галлюцинации не показывают, что современные ИИ слабы?
Галлюцинации демонстрируют как неспособность, так и несогласованность.
Современные LLM (на момент написания этого текста в середине 2025 года) склонны «галлюцинировать» — уверенным тоном давать ненастоящие ответы. Например, если попросить составить юридическую справку, они иногда могут придумать несуществующие судебные дела в качестве прецедентов.
Если вспомнить, как обучают ИИ, это логично. ИИ выдаёт слова, очень похожие на те, что использовал бы настоящий юрист. А он бы включил в неё реальные судебные дела. Например, живой юрист мог бы написать что-то вроде:
Применяя критерий соразмерности по делу Грэма, суд постановил, что государство слабо заинтересовано в аресте подозреваемого за незначительное правонарушение. См. Джонс против Пармли, 465 F.3d 46 (2-й округ, 2006) (присяжные сочли избиение мирных протестующих ногами и кулаками в нарушение местного постановления чрезмерным); Томас против Роуча, 165 F.3d 137 (2-й округ, 1999) (словесные угрозы — слишком незначительное преступление, чтобы государство было сильно заинтересовано в аресте).
Настоящий юрист никогда не напишет в справке: «Извините, я не знаю подходящих прецедентов». Поэтому, когда ИИ пытается звучать как юрист, но на самом деле не знает прецедентов, лучшее, что он может сделать, — выдумать их. Это самое близкое, чего он может добиться. Градиентный спуск регулярно подкрепляет импульсы и инстинкты внутри ИИ, которые в подобной ситуации производят уверенно звучащий текст.
Галлюцинации сохраняются даже если попросить ИИ говорить «я не знаю», когда он действительно не знает. Тогда ИИ как бы отыгрывает роль юриста, который, если бы не знал прецедента, так бы и сказал. Но это не имеет значения, если ИИ (в основном) отыгрывает роль юриста, который знает прецедент. У персонажа, которого играет ИИ, просто не появляется возможности сказать «я не знаю». ИИ может сгенерировать такой текст:
В рамках критерия соразмерности по делу Грэма суды последовательно признавали, что государственный интерес в осуществлении арестов за мелкие нарушения минимален. См. Карсон против Хэддонфилда, 115 F.3d 64 (8-й округ, 2005) (когда полицейские использовали перцовый баллончик против пешеходов, переходивших дорогу в неположенном месте и не оказывавших сопротивления, применение силы было признано чрезмерным); Уолберг против Джонса, 212 F.3d 146 (2-й округ, 2012) (постановление, что обвинение в нарушении общественного порядка недостаточно для оправдания применения мер физического сдерживания).
Это самый близкий к реальному тексту результат, которого может достичь ИИ. Фраза «я не знаю прецедента», с точки зрения предсказания текста, дальше от оригинала*. Она была бы гораздо меньше похожа на первый абзац выше, даже если бы больше соответствовала желанию пользователя.
Это — пример различия между тем, что ИИ реально пытается делать (например, звучать как уверенный юрист), и тем, что от него хотят пользователи (например, составить полезную юридическую справку). Эти две цели могут иногда совпадать (например, когда ИИ пытается звучать дружелюбно, а человек хочет приятного собеседника). Но если ИИ станут умнее, последствия тех различий, что сейчас кажутся небольшими, будут огромны. Мы подробнее обсудим это в Главе 4.†
Неясно, насколько сложно будет избавиться от галлюцинаций и как это расширит возможности ИИ.
Откуда бы они ни брались, галлюцинации действительно ограничивают практическое применение LLM. Полёт на Луну требует длинных цепочек рассуждений с очень низким уровнем ошибок. То, что ИИ просто выдумывает факты (и либо не всегда замечает, либо ему не всегда есть до этого дело), — очень мешает надёжности. А для серьёзных научных и технологических прорывов она нужна.
Но есть и другая сторона медали. Может, галлюцинации и другие проблемы с надёжностью будут тормозить развитие ИИ ещё долгие годы. А может, надёжность — последний недостающий элемент. Может, стоит кому-то прийти в голову, как эти проблемы решить, ИИ перейдёт некий критический порог. Мы не знаем.
Мы не знаем, легко ли будет решить проблему галлюцинаций в рамках текущей парадигмы. Возможно, одного хитрого трюка хватит, чтобы рассуждения моделей стали куда надёжнее. Но не исключено, что для этого потребуется новая идея уровня архитектуры «трансформер», давшей начало LLM.
Отметим, что устранение галлюцинаций было бы весьма прибыльным. Над этим много кто работает. Можно посчитать, что, скорее всего, они довольно быстро наткнутся на какую-нибудь умную идею. Или подумать, что, наверное, эта проблема особенно коварна и, вероятно, останется надолго. Несколько лет уже остаётся.
Для нашей аргументации это не очень важно. Важно то, что в конечном счёте будут созданы более надёжные ИИ — будь то слегка изменённые LLM или совершенно новая прорывная архитектура.
См. также наше обсуждение того, как эта область хорошо справляется с преодолением препятствий.
* Мы не утверждаем, что ИИ галлюцинирует из-за внутренней мотивации генерировать максимально похожий на слова реального юриста текст. Скорее, ИИ, обученный предсказывать текст, получает гораздо большее подкрепление за результат, похожий на то, что написал бы юрист. Поэтому выдуманные цитаты получают большее подкрепление, чем «Я не знаю». Какие именно механизмы сформировались внутри ИИ под действием таких стимулов, остаётся только гадать.
Может, у ИИ есть буквальная мотивация точно подражать людям. Может, у него шестнадцать мотивов, которые в этом контексте приводят к подражанию. А может, такое поведение порождается механизмом, который и вовсе не стоит называть «мотивацией». Это ещё не думая, нет ли у ИИ нескольких подражательных стремлений, которые иногда конфликтуют. Тут есть, что домысливать и о чём спорить. Но ясно: в результате обучения на предсказании текста ИИ каким-то образом получил эту нежелательную склонность.
† Современные ИИ обучают не только предсказанию текста. В теории, другие этапы могли бы устранить галлюцинации. На практике же обучение системы удовлетворению пользователя не решает проблему. Вместо этого ИИ начинают льстить людям, порой доводя их до психоза. А галлюцинировать не перестают. (Нам кажется, из этого можно извлечь какой-то урок.)