Система распознование речи

Задача

Все большую популярность применение распознавания речи находит в различных сферах бизнеса, например, врач в поликлинике может проговаривать диагнозы, которые тут же будут внесены в электронную карточку. Или другой пример. Наверняка каждый хоть раз в жизни мечтал с помощью голоса выключить свет или открыть окно. В последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нём может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека. 

Решение

Распознавание речи (speech-to-text — stt) — это процесс преобразования речи в текст.

Сервис позволяет распознавать речь на языках:

  • русский;
  • английский;
  • турецкий.

Способы распознавания

Есть три способа распознавания:

  1. Распознавание коротких аудио. Подходит для распознавания одноканального аудио небольшого размера.

  2. Потоковый режим для распознавания коротких аудио. Позволяет в рамках одного соединения отправлять аудиофрагменты и получать результаты, в том числе промежуточные результаты распознавания.

  3. Распознавание длинных аудио. Позволяет распознавать длинные многоканальные аудиозаписи, но скорость ответа может быть ниже.

    Сейчас вы можете распознавать длинные аудио только на русском языке.

Процесс распознавания

Распознавание аудио происходит в три этапа:

  1. Выделяются слова. Обычно существует несколько гипотез распознанного слова.
  2. Гипотезы проверяются с помощью языковой модели. Модель проверяет, насколько согласуется новое слово со словами, распознанными ранее.
  3. Обрабатывается распознанный текст — числительные преобразуются в цифры, расставляются некоторые знаки препинания (например, дефисы) и т. д. Этот преобразованный текст и является финальным результатом распознавания, который отправляется в теле ответа.

Точность распознавания

Чтобы повысить точность распознавания, уточните языковую модель, которую должен использовать сервис. Модель должна соответствовать тематике речи.

Еще на точность распознавания влияют:

  • качество исходного звука;
  • качество кодирования аудио;
  • разборчивость и темп речи;
  • сложность фраз и их длина.