Распознавание речи

Общее название широкой области речевых технологий, за которым кроется целый ряд достаточно обособленных направлений, каждое из которых ориентировано на решение конкретных прикладных задач и требует отдельной проработки.

Распознавание речи — это общее название широкой области речевых технологий, за которым кроется целый ряд достаточно обособленных направлений, каждое из которых ориентировано на решение конкретных прикладных задач и требует отдельной проработки.

Технологии:

Система распознавания речи состоит, как правило, из трех основных компонентов: акустические модели, языковая модель и декодер.

Технологии распознавания

Акустическая модель

Позволяет оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Современные акустические модели для так называемого пофонемного распознавания основаны на использовании скрытых Марковских моделей (Hidden Markov Models — HMM).

Идея заключается в том, что для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи. Для того, чтобы акустические модели учитывали произнесение звуков людьми разного пола, возраста, с разным тембром и акцентом, акустические модели «тренируются» на специально подобранных и отсегментированных речевых базах большого объема, включающих речь сотен различных людей. В результате, несколько тысяч моделей фонем в разных фонетических контекстах являются основой дикторонезависимого пофонемного распознавания речи на определенном языке.

Модели языка

Использования чисто акустической информации недостаточно для осуществления качественного распознавания речи. Например, в реальных условиях (при наличии посторонних шумов и искажений речевого сигнала) ни одни, даже самые точные, акустические модели не смогут отличить слово «крюк» от слова «трюк».

В такой ситуации важна информация о контексте (теме разговора) и, что еще более важно, о тех словах, которые уже были распознаны ранее. Например, если ранее было распознано слово «железный», то в этой ситуации гораздо вероятнее ожидать произнесения слова «крюк», чем «трюк». Подобная оценка и осуществляется языковой моделью.

Модели языка бывают двух основных видов: на основании грамматик и статистические.

Декодер

Программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения, определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.

На первый взгляд декодер — наименее нагруженный в научном плане компонент системы распознавания. Однако, быстрый и надежный декодер является главным фактором успеха любой прикладной системы распознавания. Создание такого декодера — сложнейшая техническая задача, требующая высочайшей квалификации разработчиков.

Различные системы распознавания речи:

Распознавание голосовых команд предусматривает, что пользователь произносит отдельные команды из заранее предопределенного списка.

Такие системы используются для организации управления голосом отдельными компьютерными программами или устройствами.