Voice Digger
Назначение системы
- Поиск ключевых слов и словосочетаний в фонограммах записей спонтанной слитной речи
- Предоставление простого удобного интерфейса пользователя для обработки результатов поиска.
Система Voice Digger позволяет обнаруживать фонограммы, в которых содержатся специфические слова и словосочетания, в т.ч. характерные для людей, участвующих в противоправной деятельности.

Целевые группы
| Решаемые задачи
|
Преимущества системы
Высокая скорость работы
Система в автоматическом режиме «прослушивает» фонограммы, находит и помечает фрагменты аудиозаписей, в которых найдена интересующая информация, со скоростью во много раз быстрее человека. Оператору остаётся только отслушать найденные фрагменты.
Надёжность поиска
Точность поиска определяется только размером словаря, по которому осуществляется поиск. Так, для словаря из 5 слов надежность поиска составляет не менее 95%, для словаря из 100 слов - не менее 81%. Чувствительность поиска легко настраивается. В зависимости от поставленных целей, порог чувствительности поиска может быть снижен или, напротив, поднят до необходимого уровня.
Масштабируемая архитектура
Система может быть развернута для решения задач любой сложности - от локального однопоточного приложения Voice Digger Swift на обычном компьютере до многопроцессорного комплекса с клиент-серверной архитектурой Voice Digger.
Многозадачность
Система позволяет производить поиск одновременно в нескольких группах фонограмм, искать разные слова и словосочетания. Клиент-серверная архитектура обеспечивает одновременную работу с системой нескольких операторов.
Автоматизация
Система позволяет автоматизировать процессы получения фонограмм и выдачи результатов поиска в систематизированном виде для последующей обработки оператором.
Универсальность
Система позволяет обрабатывать фонограммы, сделанные любой системой записи, использует только локальные ресурсы и не требует подключения к Интернету или облачным серверам.
Принцип действия
Поисковое задание может быть сформировано оператором вручную или создано средствами внешней информационной системы. В задании на поиск указываются нужные фонограммы аудиозаписей и перечень слов или словосочетаний, подлежащих поиску в них.
Система Voice Digger поддерживает два различных способа поиска: индексированный поиск по результатам полнотекстового распознавания и акустический поиск по моделям HMM (Hidden Marks Models, скрытым Марковским моделям), которые могут применяться как раздельно, так в сочетании друг с другом для повышения точности распознавания.
Индексированный поиск по результатам полнотекстового распознавания для повторно обрабатываемых фонограмм осуществляется гораздо быстрее, чем акустический поиск, но его точность ограничена объёмом словаря применяемой языковой модели. Если слово отсутствует в словаре, либо по каким-либо причинам было распознано ошибочно, то система не сможет обнаружить искомое.
Поиск по акустическим моделям более точен, но занимает больше времени. Для каждого источника информации система позволяет подобрать оптимальные параметры поиска.
Получив поисковое задание, система осуществляет обработку указанных фонограмм записей, выдавая результаты поиска сразу после обнаружения заданных слов и фрагментов, что позволяет оператору приступить к обработке результатов, не дожидаясь окончания выполнения задания.
В ходе постобработки результатов оператор может двойным нажатием клавиши запустить прослушивание короткого (1-2 сек) фрагмента, содержащего, по мнению системы, искомое слово, и отметить правильность/ошибку поиска. Постобработка оператором позволяет довести точность обнаружения до 100%.
Результаты поиска и результаты постобработки могут быть выгружены в ручном или автоматическом режимах для сохранения и/или передачи во внешнюю информационную систему.
В случае поступления в работу нескольких поисковых заданий, система автоматически перераспределит нагрузку на доступные вычислительные мощности.
Характеристики системы
Время обработки единичного поискового запроса (до 10 слов в запросе), не более* | 0,25 RT/K |
Время обработки единичного поискового запроса (до 100 слов в запросе), не более* | 0,65 RT/K |
Вероятность ложного срабатывания при наличии слова в языковой модели, не более | Новостные каналы - 10% Спонтанная речь в GSM канале - 15% |
Поддерживаемые языки ** | Русский, казахский, английский, арабский (египетский диалект) |
- * RT – суммарная длительность всех обрабатываемых фонограмм
- К – количество физических ядер всех процессоров, используемых для обработки фонограмм (без учёта Hyper-Threading)
- K (Voice Digger) = суммарному количеству ядер процессоров в вычислительном кластере
- K (Voice Digger Swift) = 1
- ** возможна поддержка любого языка мира на заказ
Для поддержки языка требуется предоставить фонограммы речи с текстовой расшифровкой по интересующей тематике длительностью, примерно, 50 часов. Срок выполнения работ по поддержке нового языка составляет около 3 месяцев.
Сравнение версий Voice Digger
№пп | Возможности | Voice Digger Swift | Voice Digger |
---|---|---|---|
Возможности по поиску ключевых слов в массивах фонограмм | |||
1 | Поиск ключевых слов или словосочетаний в массиве фонограмм | + | |
2 | Количество слов в одном поисковом задании | до 100 слов | |
3 | Количество одновременных поисковых заданий | 1 | не ограничено |
4 | Количество рабочих мест оператора | 1 | не ограничено |
Функциональные возможности | |||
5 | Архитектура системы | Настольное приложение | Клиент-серверная архитектура |
6 | Максимальное количество ядер процессора, задействованных в обработке поискового запроса | 1 | не граничено |
7 | Работа на серверной ферме | - | + |
Запуск поисковых заданий и получение отчетов по результату поиска | |||
8 | Возможность ручного формирования поисковых заданий | + | + |
9 | Возможность автоматического формирования поисковых заданий | - | + |
10 | Возможность ручной выгрузки отчётов по результатам поиска | + | + |
11 | Поддержка автоматической выгрузки отчётов по результатам поиска для обработки сторонними системами | - | + |
12 | Возможность сохранения отчета о результатах поиска в файл формата *.xml и *.csv | + | + |
13 | Сохранение результатов поиска и фонограмм в базе данных | - | + |
14 | Экспорт результатов поиска в файл субтитров (*.srt) | + | + |
15 | Ручной подбор параметров поиска | + | + |
16 | Автоматический подбор параметров поиска | + | - |
Возможности по интеграции | |||
17 | Возможность интеграции с внешними звуковыми редакторами (обработчиками) | - | + |
18 | Возможность интеграции с внешними информационными системами | - | + |
Минимальные технические требования к серверу Voice Digger
Процессор, не хуже | Intel Core i5 |
Объём ОЗУ, не менее | 4 Gb |
Объём HDD, не менее | 250 Gb |
Количество свободных USB портов (тип А), не менее | 1 |
Операционная система |
|
СУБД | Microsoft SQL Server 2008 R2/2012 Express Edition |