Почему языковые модели дописывают в саммари то, чего в разговоре не было

Клиент пожаловался на цену. Менеджер выслушал, задал уточняющие вопросы и договорился о следующем звонке. После разговора модель сгенерировала саммари и написала: «Менеджер предложил скидку 10%». Скидки в разговоре не было. Но саммари выглядит логично, читается гладко, и руководитель, который не слушал запись, принимает его за факт. Такие дописки — не редкость и не сбой. Это штатное поведение языковых моделей, подтверждённое исследованиями на десятках тысяч документов. Разбираем, откуда берутся галлюцинации в саммари, насколько они распространены и что с этим делать, если бизнес-решения принимаются на основе сгенерированных текстов.

Масштаб проблемы на коротких текстах

По данным Vectara Hallucination Leaderboard — открытого бенчмарка, который оценивает склонность языковых моделей к галлюцинациям при саммаризации (7 700 документов, обновление февраля 2026), — GPT-4o при обобщении текстов добавляет информацию, которой нет в оригинале, примерно в 10% случаев. У моделей послабее показатель доходит до 20–25%.

Стоит уточнить, что речь идёт о коротких документах, содержание которых полностью помещается в контекстное окно модели. То есть у модели нет технических ограничений: она «видит» весь текст целиком, ничего не обрезает и не пропускает. И всё равно в каждом десятом саммари появляется что-то, чего в исходнике не было.

Бенчмарк Vectara использует модель оценки HHEM-2.3, которая автоматически сравнивает саммари с исходным документом и определяет, содержит ли итоговый текст утверждения, не подтверждённые оригиналом. Это не экспертная оценка «на глаз» — это воспроизводимая метрика, применённая к тысячам пар «документ — саммари» по единой методологии.

Для бизнес-контекста 10% — это существенная цифра. Если компания обрабатывает тысячу разговоров в месяц и для каждого генерирует автоматическое саммари, статистически в каждом десятом итоговом тексте будет содержаться утверждение, которого в разговоре не звучало. Руководитель, который читает саммари вместо прослушивания записей, может принять решение на основе фантомного факта — и даже не узнать об этом.

Что происходит на длинных текстах

На коротких документах 10% — уже заметно. На длинных ситуация значительно хуже.

Исследователи из NAACL 2025 — одной из ведущих конференций по обработке естественного языка — протестировали пять языковых моделей на задаче обобщения нескольких документов одновременно. Результат: до 75% содержания сгенерированных саммари не подтверждается исходниками.

Три четверти текста, который модель выдаёт как обобщение, — это не пересказ, а генерация. Модель берёт фрагменты из разных частей исходных документов, комбинирует их по своей логике, достраивает связи, которых в оригинале не было, и создаёт связный, убедительный текст. Читатель видит гладкое изложение. Но если сверить его с первоисточниками абзац за абзацем, обнаруживается, что значительная часть утверждений — продукт модели, а не отражение реальных данных.

Разница между коротким и длинным текстом объясняется механикой работы модели. На коротком документе содержание компактно, взаимосвязи очевидны, и у модели меньше пространства для «творчества». Когда исходников несколько и общий объём растёт, модели приходится выбирать, что включить в саммари, а что опустить. И на этом этапе выбора начинаются искажения: модель достраивает переходы, обобщает разрозненные тезисы, приписывает одному источнику утверждения из другого.

Для речевой аналитики этот эффект особенно релевантен. Разговор с клиентом — это по определению длинный, нелинейный текст с отступлениями, повторами, эмоциональными вставками. Именно тот формат, на котором модели галлюцинируют чаще всего.

Механизм галлюцинации

Чтобы понять, почему модели дописывают несуществующие факты, нужно вернуться к принципу их работы.

Языковая модель обучена предсказывать следующее слово на основе контекста. Она не «знает», что произошло в разговоре. Она видит последовательность слов и выбирает статистически наиболее вероятное продолжение. Когда модель формирует саммари, она не извлекает факты из текста — она генерирует новый текст, опираясь на вероятностные закономерности.

Именно поэтому галлюцинации так часто выглядят правдоподобно. Модель «знает», что после жалобы клиента на цену менеджеры часто предлагают скидку — потому что в обучающих данных тысячи разговоров заканчивались именно так. И когда она строит саммари конкретного разговора, в котором клиент упомянул цену, но скидки не было, вероятностная логика подсказывает: «скидка здесь уместна». Модель дописывает её — не из злого умысла, а потому что для неё разницы между «так бывает часто» и «так было в этом разговоре» не существует.

Это фундаментальное свойство архитектуры, а не баг. Модель не может отличить факт от правдоподобной гипотезы, потому что и то и другое для неё — последовательность токенов с определённой вероятностью. Саммари разговора и художественный рассказ по мотивам разговора генерируются одним и тем же механизмом. Разница — только в промпте, который направляет генерацию, но не гарантирует фактическую точность.

Отсюда вытекает неудобный вывод: чем «логичнее» и «связнее» выглядит автоматическое саммари, тем труднее отличить реальные факты от дописанных. Хорошо написанная галлюцинация опаснее плохо написанной — потому что у читателя нет оснований её заподозрить.

Галлюцинации в медицинских транскрипциях

Проблема не ограничивается саммари. Она затрагивает и более базовый этап — расшифровку аудио в текст.

Расследование AP и журнала Science, представленное на конференции ACM FAccT 2024, задокументировало случаи с системой OpenAI Whisper — моделью автоматического распознавания речи, которой пользуются около 30 000 врачей для расшифровки записей приёмов.

Исследователи проверили 13 140 аудиосегментов и обнаружили галлюцинации в 187 из них — около 1,4%. Система вставляла в транскрипции несуществующие лекарства, процедуры и демографические данные пациентов. При этом 40% этих вставок содержали потенциально вредную информацию — то есть не просто безобидные неточности, а данные, которые могли повлиять на медицинские решения.

1,4% звучит как малая величина — до тех пор, пока не пересчитаешь её в масштабе. Если клиника обрабатывает тысячу записей приёмов в месяц, статистически в четырнадцати из них могут оказаться несуществующие названия препаратов или процедур. Врач, который полагается на автоматическую расшифровку без проверки, рискует принять решение на основе текста, в котором часть данных придумана алгоритмом.

Этот пример важен, потому что показывает: галлюцинации возникают не только при обобщении, но и при распознавании. Модель может вставить в расшифровку слово, которого не было в аудиозаписи, — и сделать это так гладко, что при чтении текста вставка не вызовет подозрений. Ошибка выявляется только при прямом сравнении расшифровки с аудио.

Два слоя, которые нельзя смешивать

Когда мы в imot.io работаем с текстами разговоров, мы сознательно разделяем два слоя: расшифровку звонка в текст и аналитику по этому тексту. Разделение — принципиальное, и данные о галлюцинациях объясняют, почему.

Расшифровка — это фундамент. Если в фундаменте ошибка, всё, что построено поверх, наследует её. Точность расшифровки критична именно потому, что аналитика опирается на текст как на факт. Если в тексте написано «менеджер предложил скидку», аналитическая система обработает это как событие, которое действительно произошло.

Аналитический слой в imot.io устроен иначе, чем генеративное саммари. Мы не просим модель «пересказать разговор своими словами» — потому что именно в этот момент начинаются дописки и интерпретации. Вместо этого аналитика строится поверх текста через правила, теги и чек-листы, которые настраивает человек.

Тег — это разметка конкретного фрагмента разговора по заданному критерию. Если в разговоре прозвучало слово «скидка» в контексте предложения от менеджера — тег «скидка предложена» появится. Если слова не было — тег не появится. Система не додумывает, не достраивает вероятностные связи и не генерирует текст «по мотивам».

Чек-лист работает по той же логике: он проверяет, выполнены ли конкретные пункты скрипта — приветствие, выяснение потребности, предложение записи, работа с возражением. Каждый пункт либо зафиксирован в тексте, либо нет. Третьего варианта — «модель решила, что пункт скорее всего был выполнен» — не существует.

Это принципиальное архитектурное решение. Генеративная модель оптимизирована на то, чтобы текст звучал правдоподобно. Система тегов и правил оптимизирована на то, чтобы разметка соответствовала реальности. Задачи разные, и смешивать их — значит жертвовать точностью ради удобства.

Почему правдоподобие опаснее очевидной ошибки

Галлюцинации модели обладают одним свойством, которое делает их особенно коварными: они неотличимы от правды при обычном чтении.

Если бы модель генерировала бессмыслицу — случайные слова, нарушенную грамматику, очевидно абсурдные утверждения, — проблема решалась бы тривиально. Любой читатель заметил бы ошибку и перепроверил. Сложность в том, что галлюцинации языковых моделей по определению правдоподобны. Модель обучена генерировать текст, который выглядит и читается как реальный — именно в этом её основная функция.

Вспомним данные Vectara: GPT-4o добавляет несуществующую информацию примерно в 10% саммари. Но эти 10% не маркированы. Они не выделены курсивом, не помечены как «предположение» или «неподтверждённый факт». Они выглядят точно так же, как оставшиеся 90% текста, где информация соответствует оригиналу. Руководитель, который читает десять саммари подряд, не знает, в каком из них дописан лишний факт. И у него нет инструмента, чтобы это определить, — кроме сравнения каждого саммари с полной записью разговора.

В медицинском контексте эта проблема документирована: из 187 галлюцинаций системы Whisper, обнаруженных исследователями, 40% содержали потенциально вредную информацию. Несуществующие названия лекарств, приписанные процедуры, ложные демографические данные пациентов. Каждая из этих вставок была грамматически корректной, контекстуально уместной и при беглом чтении — незаметной.

В бизнес-контексте последствия другие, но механизм тот же. Дописанная скидка в саммари разговора может привести к тому, что руководитель решит: менеджер раздаёт скидки налево и направо. Дописанное возражение клиента — к тому, что маркетинг скорректирует позиционирование на основе фантомной обратной связи. Дописанное обещание — к тому, что клиент не получит того, чего «ожидал по итогам звонка», хотя разговор шёл совсем о другом.

Что из этого следует для аналитики разговоров

Данные о галлюцинациях не означают, что языковые модели бесполезны. Они означают, что саммари, сгенерированное моделью без верификации, — это не запись факта. Это интерпретация, в которой правдоподобие замещает точность.

Для бизнеса, который принимает решения на основе анализа разговоров, это различие критично. Когда руководитель смотрит на отчёт и видит, что в 30% звонков менеджеры не предлагают допродажу, ему важно знать: эти 30% — результат проверки текста по конкретному критерию или результат генерации, где модель решила, что допродажи «скорее всего не было»?

В первом случае метрика отражает реальность. Во втором — она отражает вероятностную оценку модели, в которой каждое десятое утверждение может быть дописано.

Итоги

GPT-4o при саммаризации текстов добавляет информацию, которой нет в оригинале, примерно в 10% случаев. У моделей послабее показатель доходит до 20–25%. Данные — Vectara Hallucination Leaderboard, 7 700 документов, обновление февраля 2026.
На задачах обобщения нескольких документов до 75% содержания саммари не подтверждается исходниками. Это данные NAACL 2025 — пять языковых моделей в задаче мультидокументного обобщения.
Галлюцинации возникают и на этапе распознавания речи: система Whisper вставляла в транскрипции несуществующие лекарства, процедуры и демографические данные. Из 13 140 проверенных аудиосегментов — 187 с галлюцинациями, 40% из них содержали потенциально вредную информацию.
Механизм галлюцинаций — фундаментальное свойство архитектуры: модель предсказывает следующее слово на основе вероятности, не отличая факт от правдоподобной гипотезы.
Аналитика через теги и чек-листы работает по другому принципу: она размечает то, что реально сказано, и не генерирует текст «по мотивам» разговора. Если факта в разговоре не было — он не появится в разметке.
Саммари разговора, сгенерированное моделью без верификации, — это интерпретация, а не запись. Решения, принятые на основе таких текстов, могут опираться на факты, которых в разговоре не звучало.

Если вы хотите разобраться, насколько точны данные, на которых строится ваша аналитика звонков, — мы можем провести аудит выборки разговоров и показать разницу между генеративным саммари и разметкой по правилам.

Источники

Vectara Hallucination Leaderboard (обновление февраля 2026). Hallucination Leaderboard — GitHub. Бенчмарк на 7 700+ документах с использованием модели оценки HHEM-2.3. Доля галлюцинаций для GPT-4o — около 10%, для моделей послабее — до 20–25%.

Jingyi Sun et al. (NAACL 2025). From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization. Исследование пяти языковых моделей в задаче мультидокументного обобщения. До 75% содержания сгенерированных саммари не подтверждается исходниками.

AP / Science (ACM FAccT 2024). AI Transcription Tools Hallucinate Too. Расследование системы OpenAI Whisper: 13 140 проверенных аудиосегментов, галлюцинации в 187 из них (~1,4%), 40% вставок содержали потенциально вредную информацию. Система используется около 30 000 врачами.