Санкт-Петербург: (+7 812) 325-88-48, Москва: (+7 495) 623-55-05
Распознавание речи
Распознавание речи — это общее название широкой области речевых технологий, за которым кроется целый ряд достаточно обособленных направлений, каждое из которых ориентировано на решение конкретных прикладных задач и требует отдельной проработки.
Технологии:
Система распознавания речи состоит, как правило, из трех основных компонентов: акустические модели, языковая модель и декодер.

Акустическая модель
Позволяет оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Современные акустические модели для так называемого пофонемного распознавания основаны на использовании скрытых Марковских моделей (Hidden Markov Models — HMM).
Идея заключается в том, что для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи. Для того, чтобы акустические модели учитывали произнесение звуков людьми разного пола, возраста, с разным тембром и акцентом, акустические модели «тренируются» на специально подобранных и отсегментированных речевых базах большого объема, включающих речь сотен различных людей. В результате, несколько тысяч моделей фонем в разных фонетических контекстах являются основой дикторонезависимого пофонемного распознавания речи на определенном языке.
Модели языка
Использования чисто акустической информации недостаточно для осуществления качественного распознавания речи. Например, в реальных условиях (при наличии посторонних шумов и искажений речевого сигнала) ни одни, даже самые точные, акустические модели не смогут отличить слово «крюк» от слова «трюк».
В такой ситуации важна информация о контексте (теме разговора) и, что еще более важно, о тех словах, которые уже были распознаны ранее. Например, если ранее было распознано слово «железный», то в этой ситуации гораздо вероятнее ожидать произнесения слова «крюк», чем «трюк». Подобная оценка и осуществляется языковой моделью.
Модели языка бывают двух основных видов: на основании грамматик и статистические.
Декодер
Программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения, определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.
На первый взгляд декодер — наименее нагруженный в научном плане компонент системы распознавания. Однако, быстрый и надежный декодер является главным фактором успеха любой прикладной системы распознавания. Создание такого декодера — сложнейшая техническая задача, требующая высочайшей квалификации разработчиков.
Различные системы распознавания речи:
Распознавание голосовых команд предусматривает, что пользователь произносит отдельные команды из заранее предопределенного списка.
Такие системы используются для организации управления голосом отдельными компьютерными программами или устройствами.
- VoiceNavigator
- Voice Digger
- PhoneCom
