95% точности распознавания речи звучит отлично, пока ошибка не в медкарте

Системы распознавания речи достигли точности 92-95% на уровне слов. Маркетинговые материалы производителей подают эту цифру как достижение, и формально она действительно впечатляет. Однако когда исследователи из JAMA Network Open проверили, как эта точность выглядит в реальных клинических документах, результат оказался тревожным: в 217 записях, созданных через диктовку, 7 из 100 слов содержали ошибку, а почти 16% этих ошибок затрагивали клиническую информацию — диагнозы, названия препаратов, локализацию.

Для протокола совещания или делового письма 5-8% ошибок — рабочий уровень. Контекст подскажет, что имелось в виду. Для медицинской карты, по которой другой врач через неделю будет назначать лечение, те же 5-8% превращаются в совсем другую историю.

Что стоит за цифрой 95%

Точность распознавания речи измеряют метрикой WER — доля ошибочно распознанных слов от общего числа. Если система распознала 95 слов из 100 правильно, WER составляет 5%. Метрика простая, понятная и при этом обманчивая.

Обман заключается в том, что WER считает все слова одинаковыми. Ошибка в предлоге «на» вместо «по» и ошибка в названии препарата «верапамил» вместо «рапамун» получают одинаковый вес. С точки зрения статистики — одна и та же единица ошибки. С точки зрения пациента — принципиально разные последствия.

Свежий систематический обзор 29 исследований, опубликованный в BMC Medical Informatics and Decision Making в 2025 году, подтверждает эту асимметрию количественно. В контролируемых условиях — врач диктует в тихом кабинете, фоновых шумов нет, говорит один человек — уровень ошибок действительно можно удержать на 8-9%. Это близко к маркетинговым обещаниям и формально выглядит приемлемо.

Но медицина редко работает в контролируемых условиях. В реальной клинической среде — разговор с пациентом, шум коридора, несколько голосов в кабинете, терминология вперемешку с бытовой речью — показатель WER доходит до 50%. Половина слов распознана неправильно. И это уже не статистическая погрешность, а системная проблема, которая ставит под вопрос саму идею автоматической документации без промежуточного контроля.

Характер ошибок важнее их количества

Общая статистика маскирует важную деталь: ошибки распознавания речи в медицине не случайны. Они следуют определённым паттернам, и некоторые из этих паттернов особенно опасны.

В исследовании JAMA Network Open, которое провели Zhou и соавторы в 2018 году, среди 217 клинических записей зафиксированы характерные примеры. Система превратила «17-летнюю девушку» в «70-летнего» — демографическая ошибка, которая меняет весь контекст лечения. «Паховое образование» записала как «наросшее образование» — потеря локализации, критичной для хирурга. Вместо иммуносупрессанта рапамуна подставила верапамил — кардиологический препарат с совершенно другим профилем действия и другими противопоказаниями.

Каждая из этих ошибок по отдельности выглядит как досадная опечатка. Вместе они складываются в паттерн: система путает фонетически похожие слова, не учитывая медицинский контекст. Для неё «рапамун» и «верапамил» — два набора звуков с высокой степенью совпадения. Для врача — два препарата из разных фармакологических групп.

Goss и соавторы в 2016 году обнаружили похожую картину в записях приёмного отделения. Из 100 обследованных документов 71% содержали ошибки распознавания, а в 15% случаев ошибки были потенциально опасны. Например, антибиотик гентамицин превратился в клиндамицин — препарат того же класса, но с другим спектром действия и другой схемой дозирования. Температура «12,9» вместо «102,9» (в шкале Фаренгейта) — разница между комнатной температурой и лихорадкой.

Приёмное отделение — один из самых сложных сценариев для распознавания речи: шум, стресс, быстрая речь, множество специализированных терминов, часто несколько разговоров одновременно. Но именно там скорость документирования критически важна, и именно там соблазн автоматизировать процесс особенно велик.

Разрыв между лабораторной и клинической точностью

Систематический обзор в BMC Medical Informatics, охвативший 29 исследований за несколько лет, зафиксировал разрыв, который заслуживает отдельного внимания. Между лабораторной точностью (тихий кабинет, один голос, подготовленный текст) и клинической (реальная практика) лежит пропасть.

Лабораторный WER: 8-9%. Клинический WER: до 50% и выше.

Эта разница объясняется несколькими факторами. Во-первых, фоновый шум. Медицинская среда — не студия звукозаписи. В кабинете работает оборудование, за стеной идёт приём, в коридоре разговаривают. Во-вторых, наложение голосов. Врач разговаривает с пациентом, одновременно комментируя результаты для записи, — и система не всегда разделяет реплики корректно. В-третьих, медицинская терминология. Языковые модели обучены на общих текстах и справляются с разговорной речью значительно лучше, чем с латинскими названиями препаратов и анатомических структур.

Производители систем распознавания, как правило, публикуют лабораторные показатели. Клиенты ожидают, что в их клинике система будет работать так же. Разочарование наступает после внедрения, когда выясняется, что реальная точность далека от обещанной.

Это не вина технологии и не признак её незрелости. Распознавание речи за последние десять лет прошло огромный путь. Но ожидать от системы одинаковой точности в тихом кабинете и в шумном приёмном отделении — значит игнорировать физику звука и принципы работы нейронных сетей.

Почему стандартная метрика точности не подходит для медицины

Проблема с WER глубже, чем кажется на первый взгляд. Метрика создавалась для оценки систем распознавания речи в задачах общего назначения — от диктовки писем до голосового управления устройствами. В этих контекстах все слова действительно приблизительно равноценны: ошибка в любом из них одинаково снижает качество распознавания.

В медицине ценность слов распределена неравномерно. Служебные слова, предлоги, союзы составляют значительную часть текста и почти не несут клинической нагрузки. Названия препаратов, дозировки, анатомические структуры составляют малую часть текста, но несут критическую информацию. WER не различает эти категории.

Исследователи из JAMA Network Open предложили дополнительную классификацию ошибок по клинической значимости. Их категоризация показала, что 16% всех ошибок распознавания затрагивали именно клинически значимую информацию. При общем WER в 7% это означает, что примерно одно клинически значимое слово из каждых 100 распознаётся неправильно. Один неверный препарат, одна неверная дозировка, одна неверная локализация на каждые 100 слов документа.

Для медицинских документов нужна не одна метрика, а две: общий WER для понимания качества транскрипции в целом и отдельный показатель ошибок в клинически значимых терминах. Вторая метрика в индустрии пока не стандартизирована — и это само по себе показательно.

Два слоя работы с медицинскими разговорами

Когда мы в imot.io работаем с медицинскими клиниками, мы разделяем два принципиально разных процесса.

Первый — расшифровка разговора в текст. Это тот самый слой, о котором говорят все исследования выше. Качество транскрипции действительно критично, и именно здесь сосредоточены риски, описанные в JAMA и BMC Medical Informatics. Транскрипция — фундамент, и если фундамент содержит ошибки, всё, что строится поверх него, наследует эти ошибки.

Второй слой — аналитика. И здесь важно понимать, как именно она устроена. Мы не пытаемся интерпретировать аудио, не анализируем интонацию или скорость речи. Аналитика строится поверх текста: теги, чек-листы, правила разметки. Система проверяет конкретные вещи по тексту диалога: предложил ли администратор запись, озвучил ли доступное время, отработал ли возражение по цене, спросил ли об источнике обращения.

Это работа с тем, что реально прозвучало в диалоге, — без додумывания и без подмены слов.

Разница между транскрипцией и аналитикой принципиальна для понимания рисков. Транскрипция создаёт текстовый документ, который потенциально ложится в медкарту или используется для принятия клинических решений. Здесь каждая ошибка в названии препарата или дозировке — потенциальная угроза. Аналитика работает со структурой диалога: состоялся ли определённый элемент разговора, выполнил ли сотрудник пункт чек-листа, прозвучала ли определённая тема. Здесь единичная ошибка в распознавании слова, как правило, не меняет результат, потому что теги строятся на контексте, а не на отдельных словах.

В работе с клиниками мы видим типичную картину: администратор берёт трубку, пациент спрашивает о приёме у конкретного специалиста, администратор либо предлагает удобное время и записывает, либо теряет пациента на одном из этапов. Аналитика по тексту позволяет увидеть, на каком именно этапе происходит потеря и как часто — по конкретным администраторам, дням недели, типам обращений. Это задача, которая не требует безупречной расшифровки каждого слова, но требует надёжного определения структуры разговора.

Парадокс 95%

Ситуация с точностью распознавания речи в медицине содержит парадокс, который стоит зафиксировать.

95% точности — это одновременно технический прорыв и недостаточный стандарт. Прорыв — потому что ещё десять лет назад показатели были значительно хуже, а коммерческие системы не справлялись даже с бытовой речью. Недостаточный стандарт — потому что медицина предъявляет к точности требования, которые выше, чем в любой другой отрасли.

Систематический обзор BMC Medical Informatics подчёркивает: для медицинского применения нужна не просто высокая точность по метрике WER, а отдельная валидация по клинически значимым терминам, в реальных условиях, с реальным шумовым фоном. Текущих стандартов оценки для этого недостаточно.

Для компаний, которые внедряют технологии распознавания речи в медицинские процессы, из этого следует практический вывод: транскрипция — это инструмент, а не готовый результат. Между расшифровкой разговора и записью в медкарту должен стоять человек, который проверяет текст. Между расшифровкой и аналитикой должна стоять система правил, которая работает со структурой диалога, а не с отдельными словами.

Технология будет улучшаться. Модели станут точнее, контекстное понимание медицинской терминологии — глубже. Но пока разрыв между лабораторной и клинической точностью остаётся значительным, рассчитывать на полную автоматизацию документирования без промежуточного контроля — преждевременно.

Итоги

Метрика WER (доля ошибочно распознанных слов) не учитывает разницу между ошибкой в предлоге и ошибкой в названии препарата. Для медицины нужна отдельная оценка ошибок в клинически значимых терминах.
В контролируемых условиях точность распознавания составляет 91-92%. В реальной клинической среде — с шумом, несколькими голосами и специализированной терминологией — WER доходит до 50%.
Характер ошибок опаснее их количества: системы путают фонетически похожие препараты (рапамун и верапамил, гентамицин и клиндамицин), искажают возраст пациентов и локализацию.
Транскрипция и аналитика — два разных процесса. Транскрипция создаёт текст, аналитика работает с его структурой. Ошибка в отдельном слове критична для медкарты, но не обязательно влияет на определение структуры диалога.
Между расшифровкой разговора и клиническим документом должен стоять этап верификации. Полная автоматизация медицинской документации без промежуточного контроля пока преждевременна.
Для задач аналитики качества коммуникаций (выполнение чек-листа, отработка возражений, предложение записи) работа ведётся по тексту диалога с помощью тегов и правил разметки — без интерпретации аудиохарактеристик.

Если вы работаете с медицинскими коммуникациями и хотите понять, как аналитика текста может дополнить существующие процессы контроля качества, — напишите нам. Покажем, как это устроено на реальных данных.

Источники

Zhou L. et al. (2018). Analysis of Errors in Dictated Clinical Documents Assisted by Speech Recognition Software and Professional Transcriptionists. JAMA Network Open, 1(3). 217 клинических записей. https://pmc.ncbi.nlm.nih.gov/articles/PMC6203313/

Goss F.R. et al. (2016). A clinician survey of using speech recognition for clinical documentation in the electronic health record. International Journal of Medical Informatics, 93. 100 записей приёмного отделения, 71% документов с ошибками. https://pmc.ncbi.nlm.nih.gov/articles/PMC7263796/

BMC Medical Informatics and Decision Making (2025). Систематический обзор 29 исследований точности распознавания речи в клинической практике. WER от 8,7% до 50%+. https://pmc.ncbi.nlm.nih.gov/articles/PMC12220090/