Механизмы диалога Метод

Почему транскрибация звонков без аналитики не меняет бизнес-результат

Крупный банк внедрил систему транскрибации звонков. Каждый разговор с клиентом превращался в текст, сохранялся, был доступен для поиска. Технически всё работало. А потом выяснилось, что 63% кодов причин обращений были присвоены неверно. Операторы ошибались в классификации, маркетинг принимал решения на основе данных, которые не отражали реальность, а руководство считало, что «аналитика работает», потому что текст звонков хранился в системе. Этот случай описал McKinsey в совместном исследовании с CEO Call Journey (январь 2022), и он хорошо иллюстрирует одну из самых распространённых ошибок на рынке. Компании покупают распознавание речи, получают текст и искренне верят, что получили аналитику. Но текст звонка без разметки, тегов и правил обработки — это файл. Не инструмент управления.

67% провалов и что за ними стоит

Цифра звучит резко, но она документирована. McKinsey в сентябре 2022 года опубликовал обзор рынка речевой аналитики совместно с CEO австралийской компании Call Journey, специализирующейся на анализе разговоров. По их оценке, 67% решений в области речевой аналитики терпят неудачу. При этом провалы делятся на две категории, и технология — лишь одна из них.

Первая категория — технологические ограничения. Сюда относятся низкое качество распознавания, ошибки в расшифровке, неспособность справиться с акцентами, шумом, многоголосием. Проблемы понятные и решаемые: рынок распознавания речи зрелый, модели становятся точнее, а стоимость обработки падает.

Вторая категория — организационная. И именно она отвечает за большинство неудач. Компания покупает систему, настраивает распознавание, начинает получать транскрипции — и на этом останавливается. Текст лежит в базе. Никто не знает, какие вопросы к нему задавать, какие паттерны искать, какие метрики строить. Распознавание работает, а решения всё так же принимаются «на ощущениях». Потому что между текстом разговора и бизнес-решением нет промежуточного слоя — аналитики.

Случай банка, описанный McKinsey, относится именно ко второй категории. Транскрибация в банке была. Записи хранились. Операторы вручную присваивали каждому звонку код причины обращения. Но никто не проверял правильность кодов, потому что не было инструмента, который бы сопоставлял код с содержанием разговора. Результат: две трети обращений маркировались неверно. Отдел маркетинга строил стратегии привлечения на основе искажённой картины — продвигал продукты, которые клиенты не просили, и не замечал продукты, на которые был реальный спрос.

Фундамент стоял. Дома на нём не было.

Что может транскрибация и где заканчиваются её возможности

Транскрибация отвечает на один вопрос: «Что было сказано?» И отвечает на него хорошо. Текст разговора — полезная вещь. Его можно искать по ключевым словам, хранить для юридических целей, передавать коллегам, перечитывать спустя месяц. Всё это лучше, чем аудиозапись, которую нужно прослушивать целиком.

Но текст — это сырой материал. Он не объясняет, почему клиент ушёл. Не показывает, на каком этапе менеджер потерял инициативу. Не помогает сравнить одного сотрудника с другим по конкретным навыкам. Не подсвечивает, какие формулировки отличают успешные разговоры от провальных.

Допустим, компания распознала 10 000 звонков за месяц. В базе теперь лежит 10 000 текстовых файлов. Каждый — это 3-7 минут разговора, 500-1500 слов. Суммарно — миллионы слов. Кто будет их читать? Даже если выделить отдел контроля качества, физически прослушать или прочитать больше 3-5% от общего объёма невозможно. А 3-5% — это выборка настолько скромная, что статистически значимые выводы из неё не следуют.

Получается парадокс: компания вложилась в систему, которая фиксирует 100% разговоров, но по-прежнему принимает решения на основе 3-5% от них. Объём данных вырос, а глубина понимания — нет.

Транскрибация решает задачу фиксации, но не решает задачу понимания. Она превращает аудио в текст. Аналитика превращает текст в данные, на основе которых можно действовать.

Что именно делает аналитика поверх текста

Аналитика работает не с текстом как таковым, а с тем, что в нём происходит. Она отвечает на вопросы, которые транскрибация даже не формулирует.

Первый слой — классификация. Каждый разговор автоматически размечается по темам, продуктам, причинам обращения. Не вручную, как в примере банка из исследования McKinsey, а по правилам: если в разговоре встречается определённый набор слов и фраз, звонку присваивается тег. Если не встречается — другой тег. Классификация по правилам воспроизводима, проверяема и масштабируема на десятки тысяч звонков без участия оператора.

Второй слой — контроль структуры. У разговора есть этапы: приветствие, выявление потребности, презентация, работа с возражениями, закрытие. Аналитика проверяет, какие из этих этапов выполнены, а какие пропущены. Не по субъективной оценке супервайзера, а по факту: упоминалась ли фраза, задавался ли вопрос, звучало ли предложение. Это чек-лист, применённый ко всему объёму звонков одновременно.

Третий слой — сравнение. Когда разговоры размечены по структуре и результату, появляется возможность сопоставить паттерны. Какие этапы чаще пропускают менеджеры с низкой конверсией? Какие формулировки используют те, кто закрывает сделки? В каких звонках появляется возражение «дорого» и как на него реагируют разные сотрудники? Эти вопросы невозможно задать тексту. Но можно задать размеченным данным.

Четвёртый слой — отклонения. Аналитика подсвечивает не среднее, а аномальное. Менеджер, который три дня подряд пропускает этап выявления потребности. Продукт, по которому резко выросло количество возражений. Смена, в которую конверсия падает вдвое по сравнению с утренней. Отклонения — это сигналы, на которые бизнес может реагировать оперативно, а не через месяц в отчёте.

Результаты такого подхода McKinsey оценивает конкретными цифрами. По данным того же обзора сентября 2022 года, контакт-центры, которые выстроили полноценную аналитику поверх транскрибации, сокращают время обработки обращения до 40% и увеличивают конверсию из сервисного звонка в продажу почти вдвое.

Рынок растёт — и растёт в сторону аналитики, а не транскрибации

Транскрибация как отдельный продукт становится коммодити. Распознавание речи встроено в телефонии, CRM-системы, даже мессенджеры. Стоимость распознавания одной минуты записи за последние годы упала в разы. Сам по себе «текст звонка» перестал быть конкурентным преимуществом.

Рынок двигается в сторону того, что происходит после транскрибации. По данным SNS Insider (ноябрь 2025), сегмент решений для анализа разговоров оценивается в 22,9 млрд долларов и растёт примерно на 10% в год. Аналитики прогнозируют удвоение рынка к 2032 году.

Рост объясняется прагматикой. Компании убедились, что текст без контекста не сдвигает метрики. Нужен инструмент, который превращает текст в управляемые данные: классификации, чек-листы, сравнения, триггеры. Именно этот слой — между расшифровкой и решением — определяет, окупится ли вложение в речевую аналитику или останется статьёй расходов.

При этом важно понимать, что сама по себе технология — лишь часть уравнения. Возвращаясь к данным McKinsey о 67% неудач: даже самый точный инструмент не даст результата, если в компании не определены вопросы, на которые аналитика должна отвечать, если некому читать отчёты и если нет процесса, который превращает наблюдения в действия. Аналитика работает, когда за ней стоит цель, ответственные люди и понятный цикл «увидели проблему — приняли решение — проверили результат».

Как это выглядит на практике

Когда мы в imot.io работаем с текстами разговоров, разница между транскрибацией и аналитикой заметна сразу.

Транскрибация покажет, что менеджер сказал: «Давайте я вам скину предложение». Фраза зафиксирована, текст сохранён. Формально — всё в порядке, менеджер предложил следующий шаг.

А разметка по тегам покажет другое. Перед этой фразой не было ни одного уточняющего вопроса. Менеджер не спросил, какую задачу клиент решает. Не выяснил бюджет. Не уточнил, с чем клиент сравнивает. Предложение уйдёт клиенту — но мимо его реальной потребности, потому что потребность никто не выявил.

По тексту диалога видно, какие этапы разговора выполняются, а какие систематически пропускаются. Мы размечаем звонки по чек-листам и тегам, которые настраиваются под конкретный бизнес-процесс. Результат — количественная картина по всему объёму звонков, а не впечатление от трёх прослушанных записей.

Типичная ситуация, которую мы наблюдаем у клиентов: руководитель уверен, что менеджеры следуют скрипту, потому что раз в неделю прослушивает 5 звонков и видит нормальную картину. После подключения аналитики ко всему объёму оказывается, что этап выявления потребности пропускается в 40-60% разговоров. Не потому, что менеджеры ленивые, — потому что под давлением потока они переходят к предложению слишком рано. Выборочное прослушивание этого не ловит, а сплошная аналитика по тексту — ловит.

Итоги

Несколько выводов, которые следуют из данных McKinsey и наблюдений с рынка.

Транскрибация — это фундамент. Необходимый, но недостаточный. Текст звонка полезен для хранения и поиска, но сам по себе не отвечает на вопрос «что делать» и не сдвигает ни одну бизнес-метрику.

Аналитика начинается там, где текст размечается по правилам. Классификация, чек-листы, сравнение паттернов, выявление отклонений — это слой, который превращает файл в данные для решений.

67% неудач на рынке речевой аналитики связаны не только с технологией, но и с организацией. Если в компании нет цели, нет ответственных и нет процесса работы с данными, инструмент сам по себе ничего не изменит.

Рынок это понимает. Сегмент аналитики разговоров растёт на 10% в год и оценивается в 22,9 млрд долларов — потому что бизнес инвестирует не в распознавание речи, а в извлечение смысла из разговоров.

Если компания уже получает текст звонков, но не видит в нём ответов на вопросы о конверсии, качестве и причинах отказов — скорее всего, между текстом и решением отсутствует аналитический слой. Именно он определяет, станет ли транскрибация инвестицией или останется архивом.

Если хотите увидеть, как аналитика работает на ваших разговорах, — запишитесь на демо. Покажем на реальных звонках, какие паттерны видны по тексту и какие метрики можно отслеживать.

Источники

McKinsey & Company (сентябрь 2022). The hidden value of voice conversations. https://www.mckinsey.com/capabilities/operations/our-insights/the-hidden-value-of-voice-conversations-part-1-trends-and-technologies

McKinsey & Company (январь 2022). From speech to insights: the value of the human voice. https://www.mckinsey.com/capabilities/operations/our-insights/from-speech-to-insights-the-value-of-the-human-voice

SNS Insider (ноябрь 2025). Conversation Intelligence Software Market Valued at USD 22.89 Billion. https://www.globenewswire.com/news-release/2025/11/07/3183759/0/en/Conversation-Intelligence-Software-Market-Valued-at-USD-22-89-Billion-in-2024-Anticipated-to-Hit-USD-49-52-Billion-by-2032-Research-by-SNS-Insider.html