Медиа imot.io
Механизмы диалога Метод

95% точности распознавания речи — это 5 ошибок на каждые 100 слов

Точность распознавания речи 95% звучит как отличный результат. Пока не посчитаешь. 95% — это 5 неправильных слов на каждые 100. В среднем деловом звонке длиной 7–8 минут набирается около 1000 слов. При точности 95% система допускает 50 ошибок на один разговор. Если качество связи плохое или собеседник говорит с акцентом, цифра растёт.

Для расшифровки совещания или конспекта встречи 50 ошибок — терпимо. Контекст подскажет, что имелось в виду. Для аналитики, которая строится на ключевых словах, тегах и чек-листах, те же 50 ошибок превращаются в совсем другую историю. Если система перепутала «согласен» и «не согласен», пропустила название продукта или исказила возражение клиента — аналитический слой поверх транскрипции начинает работать с искажённой реальностью.

Что стоит за цифрой 95%

Точность распознавания речи измеряют метрикой WER — долей ошибочно распознанных слов от общего числа. Если система распознала 95 слов из 100 правильно, доля ошибок составляет 5%. Метрика простая, понятная и обманчивая.

Обманчивость в том, что 95% — это лабораторный результат. Системы распознавания тестируют на чистых записях: один голос, профессиональный микрофон, подготовленный текст, отсутствие фонового шума. В таких условиях лучшие модели 2025 года действительно показывают доли ошибок ниже 5%. Canary Qwen 2.5B на платформе Hugging Face показывает 5,63%, коммерческие модели AssemblyAI Universal-2 и Deepgram Nova-3 — ещё ниже.

Маркетинговые материалы производителей публикуют именно эти цифры. Клиенты ожидают, что система будет работать так же на их телефонных линиях. А дальше начинается реальность.

Лаборатория и реальная телефония — разница в разы

По данным Deepgram, при переходе от лабораторных тестов к реальным условиям точность падает в 2,8–5,7 раза. Система, которая показывает 3% ошибок на аудиокнигах, на телефонных переговорах может давать 15–20%. Если добавить фоновый шум, перебивания, сжатие звука в VoIP-каналах — доля ошибок уходит ещё выше.

Деградация объясняется физикой звука и условиями записи. Телефонная линия передаёт сигнал с частотой дискретизации 8 кГц — вдвое ниже, чем стандартная студийная запись. Кодеки VoIP-телефонии дополнительно сжимают аудио, теряя нюансы произношения. Собеседники говорят одновременно, и система не всегда корректно разделяет реплики. Акценты, диалектизмы, профессиональный жаргон — всё это слои, каждый из которых добавляет ошибки.

Разрыв между лабораторным и реальным результатом документирован не только Deepgram. Систематический обзор 29 исследований, опубликованный в BMC Medical Informatics and Decision Making в 2025 году, зафиксировал диапазон: в контролируемых условиях доля ошибок составляет 8–9%, в реальной клинической среде — до 50%. Медицинский контекст экстремален, но тенденция универсальна: чем дальше от студии, тем хуже точность.

Для контакт-центров и отделов продаж это означает конкретную вещь. Цифра «95% точности», указанная в спецификации системы распознавания, описывает её потенциал в идеальных условиях. В условиях реальных переговоров, где звонки проходят через телефонные линии среднего качества, точность может составлять 80–85%. А при плохой связи, множественных участниках или специализированной терминологии — ещё ниже.

Почему не все ошибки одинаковы

Доля ошибок считает все слова одинаковыми. Ошибка в предлоге «на» вместо «по» и ошибка в ключевом слове «отказ» вместо «заказ» получают одинаковый вес. С точки зрения статистики — одна и та же единица ошибки. С точки зрения аналитики — принципиально разные последствия.

Deepgram в 2025 году ввёл дополнительную метрику — долю смысловых ошибок. Она оценивает не совпадение отдельных слов, а сохранение смысла фразы. Два транскрипта могут иметь одинаковую долю ошибок по словам, но совершенно разную степень сохранения смысла.

Пример, который хорошо иллюстрирует разницу. Если система заменила «подумаю» на «подумают» — формально это ошибка, но смысл сохранился: человек выражает намерение обдумать предложение. А если «не буду» превратилось в «буду» — смысл перевёрнут. Клиент отказался, а в транскрипции — согласился. И если поверх этого текста работает тег, который классифицирует результат звонка, он получит неверный сигнал.

В собственных тестах Deepgram обнаружил, что системы с приемлемой долей ошибок около 14% демонстрировали долю смысловых ошибок выше 20%. Формально точность в рамках допустимого, а на практике — каждая пятая фраза передана с искажённым смыслом. Для аналитики, которая строится поверх текста, эта разница между словесной и смысловой точностью критична.

Как ошибки распознавания разрушают аналитику

Транскрипция — фундамент. Всё, что строится поверх неё, наследует её ошибки. И здесь важно понимать, как именно ошибки распознавания влияют на конкретные аналитические задачи.

Первая задача — классификация по ключевым словам. Если аналитика ищет в тексте звонка упоминание конкретного продукта, возражения «дорого» или фразу «перезвоните позже», она зависит от того, распознала ли система эти слова правильно. По данным Deepgram, стандартные модели могут пропускать до трети ключевых терминов до оптимизации. Система уверенно распознаёт общую лексику — «да», «нет», «хорошо» — но теряет специализированные слова, которые несут основную аналитическую нагрузку.

Вторая задача — разметка по чек-листам. Чек-лист проверяет, выполнил ли менеджер определённые шаги: поприветствовал, выявил потребность, предложил следующий шаг. Проверка строится на наличии или отсутствии конкретных фраз и конструкций в тексте. Если система распознавания пропустила фразу или исказила её, чек-лист покажет невыполнение пункта, которое на самом деле было выполнено. Или наоборот — зафиксирует выполнение того, чего не было.

Третья задача — определение тематики и намерений. По данным Dialpad, при низкой точности распознавания качество последующей аналитики — классификации тем, определения намерений, поиска ключевых слов — падает на 15–30%. Это не теоретическая оценка, а наблюдение из практики компании, которая обрабатывает миллиарды минут деловых разговоров.

Результат — каскадная деградация. Каждый слой аналитики, построенный поверх неточной транскрипции, добавляет собственную погрешность. Транскрипция ошибается в 10% слов. Классификатор тем, работающий на этом тексте, ошибается ещё в 15–20% случаев. Чек-лист, проверяющий выполнение скрипта, даёт ложные срабатывания. В итоге руководитель смотрит на дашборд, где конверсия, темы обращений и соблюдение скрипта искажены — и принимает решения на основе данных, которые не отражают реальность.

Ключевые слова — самое уязвимое место

Отдельного внимания заслуживает проблема с ключевыми словами. В деловых разговорах основная аналитическая ценность сосредоточена в относительно небольшом наборе слов и фраз: названия продуктов, суммы, возражения, конкретные формулировки из скрипта. Эти слова составляют малую долю от общего объёма речи, но несут критическую информацию.

И именно эти слова распознаются хуже всего. Общая лексика — предлоги, союзы, местоимения — занимает большую часть речи и распознаётся с высокой точностью. Она же «разбавляет» статистику: система может распознать 95% слов правильно, но при этом пропустить половину названий продуктов и треть ключевых возражений.

AssemblyAI в 2025 году отдельно отчиталась об улучшении распознавания редких слов — имён, брендов, локаций — на 24% в новой модели Universal-2. Сам факт того, что улучшение распознавания редких слов подаётся как отдельное достижение, показывает масштаб проблемы: до этого улучшения система теряла значительную часть именно тех слов, которые нужны аналитике.

Для систем, которые строят разметку звонков по ключевым словам, это означает практическую вещь. Тег «клиент упомянул конкурента» сработает, только если система распознала название конкурента. Тег «менеджер предложил скидку» сработает, только если слово «скидка» попало в транскрипцию. Каждое пропущенное ключевое слово — это звонок, который уходит мимо выборки. Не потому, что событие не произошло, а потому, что фундамент — транскрипция — его не зафиксировал.

Доля ошибок и доля смысловых ошибок — две разные метрики

Индустрия постепенно осознаёт, что одной метрики недостаточно. Доля ошибок по словам показывает, сколько слов распознано неправильно. Доля смысловых ошибок показывает, сколько фраз потеряли смысл. Для разных задач критична разная метрика.

Если задача — создать читаемый конспект встречи, достаточно, чтобы общий смысл сохранился. Отдельные искажённые слова не мешают: человек прочитает текст и восстановит контекст. Здесь доля ошибок 5–10% — рабочий уровень.

Если задача — автоматически разметить звонки по темам и выполнению чек-листа, требования другие. Здесь важно не общее впечатление от текста, а наличие или отсутствие конкретных слов и фраз. Ошибка в одном слове может перенаправить звонок в неправильную категорию. Доля ошибок 5% может оказаться приемлемой, а может — разрушительной, в зависимости от того, какие именно слова попали в эти 5%.

Если задача — мониторинг комплаенса (звучали ли обязательные формулировки, не было ли нарушений), допустимость ошибок ещё ниже. Пропущенная фраза «запись ведётся» или «вы соглашаетесь с условиями» — не статистическая погрешность, а комплаенс-риск.

Отсюда практический вывод: при выборе и настройке системы распознавания речи важно оценивать не только общую долю ошибок, но и точность на конкретных словах и фразах, которые критичны для аналитики. Общая метрика может выглядеть прилично, а аналитика — работать на искажённых данных.

Как с этим работать на практике

Когда мы в imot.io работаем с текстом разговоров, мы видим эту разницу между общей точностью и точностью на ключевых словах каждый день. Аналитика строится поверх транскрипции: теги, чек-листы, разметка по этапам диалога. Если в тексте пропущено ключевое слово — тег не сработает, и звонок уйдёт мимо выборки.

Практика показала несколько вещей, которые стоит учитывать.

Первое — качество входного сигнала определяет качество аналитики. Телефония с кодеком G.711 даёт лучший результат, чем сжатый VoIP-канал. Шумоподавление на стороне АТС снижает количество артефактов. Иногда простая замена гарнитуры у оператора контакт-центра заметно повышает точность распознавания — и, как следствие, точность всех тегов, построенных поверх текста.

Второе — настройка словарей и буст ключевых слов. Современные системы распознавания позволяют указать список приоритетных терминов: названия продуктов, услуг, типовые возражения. По данным Deepgram, такая настройка может дать прирост точности на ключевых словах в 5–15 процентных пунктов. Разница между системой «из коробки» и системой, настроенной под конкретный бизнес, может быть значительной.

Третье — построение тегов и чек-листов с учётом погрешности распознавания. Тег, который ищет одно конкретное слово, уязвимее тега, который ищет группу синонимов или конструкцию из нескольких слов. Чем шире контекст, на который опирается правило разметки, тем устойчивее оно к единичным ошибкам распознавания. Мы размечаем звонки по структуре диалога — была ли выявлена потребность, прозвучало ли предложение следующего шага, отработано ли возражение — и используем контекстные правила, а не одиночные ключевые слова.

Четвёртое — калибровка и регулярная проверка. Точность распознавания — не статичная величина. Она меняется при смене провайдера телефонии, обновлении модели распознавания, изменении скрипта продаж. Периодическая сверка транскрипции с реальным аудио на выборке из 50–100 звонков позволяет отслеживать, не просел ли фундамент, на котором стоит вся аналитика.

Итоги

  1. Точность 95% означает 50 ошибок на стандартный деловой звонок из 1000 слов. Это не «почти идеально», а отправная точка для работы с качеством распознавания.
  2. Лабораторные показатели и реальная телефония — разные вещи. При переходе от чистых записей к реальным условиям точность падает в 2,8–5,7 раза. Система с 3% ошибок на аудиокнигах может давать 15–20% на телефонных переговорах.
  3. Общая доля ошибок маскирует проблему с ключевыми словами. Система может распознавать 95% слов правильно, но при этом пропускать до трети терминов, на которых строится аналитика.
  4. Доля смысловых ошибок — отдельная метрика, которая показывает, сохранился ли смысл фразы. Два транскрипта с одинаковой долей ошибок по словам могут давать принципиально разный результат для аналитики.
  5. Каждый аналитический слой поверх неточной транскрипции наследует её ошибки и добавляет собственные. Классификация тем, чек-листы, разметка по этапам — всё это работает настолько точно, насколько точен фундамент.
  6. Практические меры: улучшение качества входного сигнала, настройка словарей ключевых слов, построение устойчивых правил разметки и регулярная калибровка — снижают влияние ошибок распознавания на аналитику.
Если вы строите аналитику поверх текстов разговоров и хотите понять, как качество распознавания влияет на ваши теги и чек-листы, — напишите нам. Покажем на реальных звонках, где фундамент держит, а где проседает.
Источники

AssemblyAI (2025). How accurate is speech-to-text in 2025? Обзор точности систем распознавания речи, бенчмарки и реальные условия. https://www.assemblyai.com/blog/how-accurate-speech-to-text

AssemblyAI (2025). Beyond Word Error Rate: Universal-2 Delivers Accuracy Where It Matters. Улучшение распознавания редких слов на 24%. https://www.assemblyai.com/blog/universal-2-delivers-accuracy-where-it-matters

Deepgram (2025). Speech Recognition Accuracy: Production Metrics & Optimization 2025. Деградация точности от лабораторных условий к реальным: 2,8–5,7x. https://deepgram.com/learn/speech-recognition-accuracy-production-metrics

Deepgram (2025). Semantic Error Rate: The Next ASR Accuracy Metric for Platform Builders. Доля смысловых ошибок как альтернативная метрика. https://deepgram.com/learn/semantic-error-rate-asr-accuracy-metric

Dialpad (2025). What Is Word Error Rate (WER) in AI Transcription? Влияние доли ошибок на качество аналитики: деградация 15–30%. https://www.dialpad.com/blog/what-is-word-error-rate/

BMC Medical Informatics and Decision Making (2025). Систематический обзор 29 исследований точности распознавания речи. WER от 8,7% до 50%+. https://pmc.ncbi.nlm.nih.gov/articles/PMC12220090/