Разработка системы хранения и обработки аудио- и видеоматериалов с автоматической индексацией речевого контента для обеспечения эффективного быстрого поиска и фильтрации файлов по содержащейся в них речевой информации

Номер Соглашения о предоставлении субсидии: 14.579.21.0121
Приоритетное направление: Информационно-телекоммуникационные системы
Критическая технология: Технологии информационных, управляющих, навигационных систем
Период выполнения: 27.10.2015 – 31.12.2017
Исполнитель: ООО «ЦРТ-инновации»
Индустриальный партнер: ООО «ЦРТ»
Ключевые слова: Распознавание речи, индексация(индексирование) речевого контента, большие данные, полнотекстовое индексирование, информационный поиск, поиск ключевых слов, обработанный индекс (инвертированный индекс), кластеризация, тематическая категоризация, идентификация диктора
Цель прикладного научного исследования и экспериментальной разработки:
Обеспечение возможности быстрого и эффективного поиска необходимой информации по содержанию, тематике и голосу диктора (авторству) в речевом контенте, содержащемся в больших массивах аудио- и видеоматериалов, за счет внедрения автоматических средств, представляющих собой новую технологию индексации речи. Поиск информации по построенному речевому индексу по точности и скорости должен быть сравним с текстовыми поисковыми системами, работающими в сети Internet (google, yandex и т.д).
1 этап
Выбраны направления исследований, наиболее эффективные для разработки методов автоматической индексации речевого контента с целью поиска и фильтрации файлов по содержащейся в них речевой информации.
Разработаны следующие группы методов:
- - Методы построения сетевого индекса речи.
- - Методы поиска ключевых слов и фраз по сетевому индексу.
- - Методы построения глобального обратного индекса (ГОИ) массива речевых данных.
- - Методы поиска ключевых слов и фраз по глобальному обратному индексу с вероятностным ранжированием результата.
- - Методы поиска не словарных (out-of-vocabulary, OOV) слов.
- - Методы поиска и фильтрации речевых данных по тематике содержащейся в них речевой информации.
- - Методы поиска и фильтрации речевых данных по голосу диктора, которому принадлежит произнесение (авторству).
Разработанные методы совмещают в себе наиболее успешные современные подходы к решению задач организации эффективного текстового поиска, выявленные в ходе проведенного аналитического обзора, но при этом учитывают специфику работы с речевыми данными, прошедшими процесс автоматического распознавания речи:
- Разработанные методы ориентированы на создание сетевого индекса речи, а не только текста, с сохранением всех (а не части) гипотез декодера речи, возникающих в процессе распознавания, что позволит значительно повысить качество поиска.
При этом сетевой индекс представлен в компактном формате.
- - Разработана новая гибридная технология поиска не известных системе распознавания (не словарных, OOV) слов с использованием двух подходов: приближение не словарных слов к словарным на фонетическом уровне и второй проход распознавания по графу с подсловными единицами (sub-words-units).
- - Методы построения глобального обратного индекса (ГОИ) массива речевых данных.
- - Предлагается поиск по различным параметрам речи (содержание, авторство, тематика) одновременно.
- - Обеспечивается мгновенная скорость поиска по обратному глобальному индексу речи (ГОИ), как это происходит в текстовых поисковиках.
2 этап
Разработаны и реализованы в виде программных модулей алгоритмы сетевой индексации аудио контента и поиска релевантной речевой информации, реализующие методы автоматической индексации речевого контента для обеспечения эффективного быстрого поиска и фильтрации файлов по содержащейся в них речевой информации:
- - Алгоритмы построения сетевого индекса речи.
- - Алгоритмы поиска ключевых слов и фраз по сетевому индексу.
- - Алгоритмы построения глобального обратного индекса массива речевых данных.
- - Алгоритмы поиска ключевых слов и фраз по глобальному обратному индексу с вероятностным ранжированием результата.
- - Алгоритмы поиска несловарных (out-of-vocabulary, OOV) слов.
- - Алгоритмы поиска и фильтрации речевых данных по тематике содержащейся в них информации.
- - Алгоритмы поиска и фильтрации речевых данных по голосу диктора, которому принадлежит произнесение (авторству).
На основе разработанных алгоритмов реализован экспериментальный образец программного комплекса (ЭО ПК) системы хранения и обработки архивов аудио- и видеоисточников с индексацией содержащегося в них речевого контента.
Разработанный ЭО ПК предназначен для организации возможности быстрого поиска релевантной информации, связанной с содержанием, тематикой и/или идентификацией голоса диктора (авторством) речевого материала, а также для последующего структурирования и систематизации массивов аудио- и видеоданных на основе извлеченной речевой информации. Методы, использованные для разработки алгоритмов, обладают научной новизной, ранее исследовались только на фундаментальном уровне за рубежом и впервые реализованы на прикладном уровне для русского языка.
Комплексное решение по хранению и обработке аудио и видео данных с индексированным поиском речевой информации разработано впервые в мире.
Результаты исследования востребованы современным обществом и бизнесом для решения широкого спектра задач, связанных с необходимостью быстрого и эффективного поиска релевантной речевой информации в больших массивах неструктурированных аудио- и видеоданных.
Все работы проводятся во взаимодействии и под контролем индустриального партнера - ООО «ЦРТ».
3 этап
Научным коллективом компании ООО «ЦРТ-инновации» успешно проведены экспериментальные исследования разработанного на предыдущем этапе экспериментального образца программного комплекса системы хранения и обработки аудио- и видеоматериалов с автоматической индексацией речевого контента.
Результаты экспериментальных исследований показали, что реализованные в составе экспериментального образца программного комплекса алгоритмы, соответствуют требованиям ТЗ.
Выполнены обобщение и оценка результатов исследований, полученных в ходе работ по проекту. Для достижения поставленной цели были проведены следующие работы:
- - дополнительные патентные исследования;
- - дополнительные маркетинговые исследования;
- - обобщение и оценка результатов исследований;
- - разработка рекомендаций по использованию результатов проведенных ПНИЭР;
- - разработка технических характеристик перспективного ПК в целях проведения ОКР;
- - разработка технико-экономического обоснования разработки продукции, технических требований и предложений по разработке, производству и эксплуатации продукции.
Завершены работы по 3 этапу и по проекту в целом.
Все работы проводились во взаимодействии и под контролем индустриального партнера - ООО «ЦРТ».
Проект, реализованный в рамках соглашения, готов к переходу в стадию опытно-конструкторских работ.