Разработка системы хранения и обработки аудио- и видеоматериалов с автоматической индексацией речевого контента для обеспечения эффективного быстрого поиска и фильтрации файлов по содержащейся в них речевой информации

Номер Соглашения о предоставлении субсидии: 14.579.21.0121
Приоритетное направление: Информационно-телекоммуникационные системы
Критическая технология: Технологии информационных, управляющих, навигационных систем
Период выполнения: 27.10.2015 – 31.12.2017
Исполнитель: ООО «ЦРТ-инновации»
Индустриальный партнер: ООО «ЦРТ»
Ключевые слова: Распознавание речи, индексация(индексирование) речевого контента, большие данные, полнотекстовое индексирование, информационный поиск, поиск ключевых слов, обработанный индекс (инвертированный индекс), кластеризация, тематическая категоризация, идентификация диктора

Цель прикладного научного исследования и экспериментальной разработки:

Обеспечение возможности быстрого и эффективного поиска необходимой информации по содержанию, тематике и голосу диктора (авторству) в речевом контенте, содержащемся в больших массивах аудио- и видеоматериалов, за счет внедрения автоматических средств, представляющих собой новую технологию индексации речи. Поиск информации по построенному речевому индексу по точности и скорости должен быть сравним с текстовыми поисковыми системами, работающими в сети Internet (google, yandex и т.д).

1 этап

Выбраны направления исследований, наиболее эффективные для разработки методов автоматической индексации речевого контента с целью поиска и фильтрации файлов по содержащейся в них речевой информации.

Разработаны следующие группы методов:

  • - Методы построения сетевого индекса речи.
  • - Методы поиска ключевых слов и фраз по сетевому индексу.
  • - Методы построения глобального обратного индекса (ГОИ) массива речевых данных.
  • - Методы поиска ключевых слов и фраз по глобальному обратному индексу с вероятностным ранжированием результата.
  • - Методы поиска не словарных (out-of-vocabulary, OOV) слов.
  • - Методы поиска и фильтрации речевых данных по тематике содержащейся в них речевой информации.
  • - Методы поиска и фильтрации речевых данных по голосу диктора, которому принадлежит произнесение (авторству).

Разработанные методы совмещают в себе наиболее успешные современные подходы к решению задач организации эффективного текстового поиска, выявленные в ходе проведенного аналитического обзора, но при этом учитывают специфику работы с речевыми данными, прошедшими процесс автоматического распознавания речи:

  • Разработанные методы ориентированы на создание сетевого индекса речи, а не только текста, с сохранением всех (а не части) гипотез декодера речи, возникающих в процессе распознавания, что позволит значительно повысить качество поиска.

При этом сетевой индекс представлен в компактном формате.

  • - Разработана новая гибридная технология поиска не известных системе распознавания (не словарных, OOV) слов с использованием двух подходов: приближение не словарных слов к словарным на фонетическом уровне и второй проход распознавания по графу с подсловными единицами (sub-words-units).
  • - Методы построения глобального обратного индекса (ГОИ) массива речевых данных.
  • - Предлагается поиск по различным параметрам речи (содержание, авторство, тематика) одновременно.
  • - Обеспечивается мгновенная скорость поиска по обратному глобальному индексу речи (ГОИ), как это происходит в текстовых поисковиках.

2 этап

Разработаны и реализованы в виде программных модулей алгоритмы сетевой индексации аудио контента и поиска релевантной речевой информации, реализующие методы автоматической индексации речевого контента для обеспечения эффективного быстрого поиска и фильтрации файлов по содержащейся в них речевой информации:

На основе разработанных алгоритмов реализован экспериментальный образец программного комплекса (ЭО ПК) системы хранения и обработки архивов аудио- и видеоисточников с индексацией содержащегося в них речевого контента.

Разработанный ЭО ПК предназначен для организации возможности быстрого поиска релевантной информации, связанной с содержанием, тематикой и/или идентификацией голоса диктора (авторством) речевого материала, а также для последующего структурирования и систематизации массивов аудио- и видеоданных на основе извлеченной речевой информации. Методы, использованные для разработки алгоритмов, обладают научной новизной, ранее исследовались только на фундаментальном уровне за рубежом и впервые реализованы на прикладном уровне для русского языка.

Комплексное решение по хранению и обработке аудио и видео данных с индексированным поиском речевой информации разработано впервые в мире.

Результаты исследования востребованы современным обществом и бизнесом для решения широкого спектра задач, связанных с необходимостью быстрого и эффективного поиска релевантной речевой информации в больших массивах неструктурированных аудио- и видеоданных.

Все работы проводятся во взаимодействии и под контролем индустриального партнера - ООО «ЦРТ».

3 этап

Научным коллективом компании ООО «ЦРТ-инновации» успешно проведены экспериментальные исследования разработанного на предыдущем этапе экспериментального образца программного комплекса системы хранения и обработки аудио- и видеоматериалов с автоматической индексацией речевого контента.

Результаты экспериментальных исследований показали, что реализованные в составе экспериментального образца программного комплекса алгоритмы, соответствуют требованиям ТЗ.

Выполнены обобщение и оценка результатов исследований, полученных в ходе работ по проекту. Для достижения поставленной цели были проведены следующие работы:

  • - дополнительные патентные исследования;
  • - дополнительные маркетинговые исследования;
  • - обобщение и оценка результатов исследований;
  • - разработка рекомендаций по использованию результатов проведенных ПНИЭР;
  • - разработка технических характеристик перспективного ПК в целях проведения ОКР;
  • - разработка технико-экономического обоснования разработки продукции, технических требований и предложений по разработке, производству и эксплуатации продукции.

Завершены работы по 3 этапу и по проекту в целом.
Все работы проводились во взаимодействии и под контролем индустриального партнера - ООО «ЦРТ».

Проект, реализованный в рамках соглашения, готов к переходу в стадию опытно-конструкторских работ.

Карта сайта

Продукты

Партнёрам

Новости

Контакты