Разработка технологии преобразования русской речи в транскрипционное представление с метаданными для автоматического распознавания речевых команд в робототехнике и промышленности

Номер Соглашения о предоставлении субсидии: 14.579.21.0057
Приоритетное направление: Информационно-телекоммуникационные системы
Критическая технология: Технологии информационных, управляющих, навигационных систем
Период выполнения: 23.09.2014 – 31.12.2016
Исполнитель: ООО «ЦРТ-инновации»
Индустриальный партнер: ООО «ЦРТ»
Ключевые слова: АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ, РЕЧЕВАЯ КОМАНДА, ФОНЕТИЧЕСКИЙ АЛГОРИТМ, ФОНЕМА, ГОЛОСОВОЕ УПРАВЛЕНИЕ

Цель прикладного научного исследования и экспериментальной разработки

Разработка нового метода и новых фонетических алгоритмов автоматического распознавания речевых команд в области создания новых технологий работы с мультимедийной информацией, обеспечивающих существенное ослабление актуальной проблемы ложных тревог в условиях действия внешних акустических помех. Создание технологии автоматического распознавания речевых команд с повышенной точностью и надежностью голосового способа управления робототехникой и с использованием типового набора программно-аппаратных средств.

1 этап

По результатам выполнения 1 этапа прикладных научных исследований определены следующие направления исследований:

  1. Разработка фонетического алгоритма автоматического распознавания речевых команд для систем голосового управления робототехникой повышенной точности и надежности.
  2. Разработка корректного алгоритма сегментации на участки речь-шум-пауза, предназначенного для автоматического обнаружения участков с речевым сигналом в условиях действия внешних акустических помех.
  3. Разработка алгоритма поиска ключевых слов, реализующего защиту системы от проблемы ложных тревог в условиях действия внешних акустических помех;
  4. Разработка алгоритма эффективной настройки на голос диктора и окружающую шумовую обстановку на ограниченном по длительности материале.

Все работы проводятся во взаимодействии и под контролем индустриального партнера – ООО «ЦРТ».

2 этап

Научным коллективом ООО «ЦРТ-инновации» были разработаны:

  1. Метод автоматического распознавания речевых команд на основе глубоких нейронных сетей, обеспечивающий возможность фонетического декодирования и распознавания речевых команд с использованием информационной метрики Кульбака-Лейблера и возможность программной реализации в автономном режиме без обращения к удаленному серверу.
  2. Алгоритм построения контекстно зависимой гибридной акустической модели на основе глубоких нейронных сетей, обеспечивающий повышенную точность и надежность автоматического распознавания речевых команд.
  3. Алгоритм адаптивной настройки на голос диктора - субъекта голосового управления, обеспечивающий адаптацию к голосу диктора.
  4. Алгоритм автоматического формирования словаря команд в сеть разпознавания, обеспечивающий возможность автоматического преобразования словаря команд по текстовому файлу.
  5. Алгоритм определения речевой активности диктора на основе нейросетевого классификатора, обеспечивающий выполнение анализа фонетического строя внешних акустических помех и защиту от внешних акустических помех.
  6. Алгоритм поиска ключевых слов, обеспечивающий поиск заданной активационной фразы, за которой следует речевая команда, и защиту от внешних акустических помех для решения проблем ложных тревог.

Разработанные метод и алгоритмы будут реализованы в виде программных модулей в составе экспериментального образца программного комплекса в ходе 3 этапа работ.

Все работы проводятся во взаимодействии и под контролем индустриального партнера – ООО «ЦРТ».

3 этап

На сегодняшний день созданный «ЦРТ-инновации» экспериментальный образец программного комплекса автоматического распознавания речевых команд функционирует без подключения к сети Интернет в операционных системах Windows и Android. Лежащие в основе работы программного комплекса алгоритмы были апробированы на международном конкурсе CHiME 2015 и в коммерческих задачах.

Все работы проводятся во взаимодействии и под контролем индустриального партнера – ООО «ЦРТ».

4 этап

Научным коллективом компании ООО «ЦРТ-инновации» успешно проведены экспериментальные исследования разработанного на предыдущих этапах программного комплекса автоматического распознавания речевых команд.

Результаты экспериментальных исследований показали, что реализованные в составе программного комплекса алгоритмы, соответствуют требованиям ТЗ и согласуются с результатами аналогичных работ, определяющих мировой уровень.

Все работы проводятся во взаимодействии и под контролем индустриального партнера - ООО «ЦРТ».

5 этап

Основной целью настоящего этапа прикладных научных исследований (ПНИ) были обобщение и оценка результатов исследований, полученных в ходе работ по проекту.
Для достижения поставленной цели были проведены следующие работы:

  • - патентные исследования;
  • - разработка технических требований и предложений по разработке, производству и эксплуатации продукции с учетом технологических возможностей и особенностей индустриального партнера —организации реального сектора экономики;
  • - разработка проекта технического задания на проведение опытно-конструкторской работы (ОКР);
  • - оценка полноты решения задачи и достижения поставленных целей ПНИ.

Завершены работы по 5 этапу и по проекту в целом.

Результаты проекта:

Разработаны новые метод и алгоритмы автоматического распознавания речевых команд. Разработан программный комплекс автоматического распознавания речевых команд.

Для обеспечения повышенной точности и надежности автоматического распознавания речевых команд были разработаны следующие алгоритмы: новый алгоритм, реализующий возможность построения контекстно зависимой гибридной акустической модели на основе глубоких нейронных сетей; новый алгоритм определения речевой активности на основе нейросетевого классификатора, анализирующего фонетический строй внешних акустических помех; алгоритм поиска ключевых слов, обеспечивающий поиск заданной активационной фразы и защиту от внешних акустических помех для решения проблем ложных тревог; новый алгоритм адаптивной настройки на голос диктора - субъекта голосового управления, основанный на комбинации GMM-моделей, адаптированных к диктору для получения дикторозависимых GMM-derived-признаков и акустических моделей на основе глубоких нейронных сетей, обученных в режиме адаптации к диктору.

Результаты экспериментальных исследований показали, что реализованные алгоритмы соответствуют требованиям ТЗ и согласуются с результатами аналогичных работ, определяющих мировой уровень.

Результаты работ были представлены на конференциях:
ВУЗПРОМЭКСПО-2016
AIST-2016
INTERSPEECH-2016
SPECOM-2016.

Проект, реализованный в рамках соглашения, готов к переходу в стадию опытно-конструкторских работ.

Карта сайта

Продукты

Партнёрам

Новости

Контакты