Разработка методов лингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной русской речи

Номер Соглашения о предоставлении субсидии: 14.579.21.0008.
Приоритетное направление: информационно-телекоммуникационные системы.
Критическая технология: технологии информационных, управляющих и навигационных систем.
Период выполнения: 05.06.2014 – 31.12.2016 гг.
Исполнитель: ООО «ЦРТ-инновации»
Индустриальный партнер: ООО «ЦРТ»
Ключевые слова: СПОНТАННАЯ РЕЧЬ, РАСПОЗНАННАЯ РЕЧЬ, ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ, СЕМАНТИЧЕСКИЙ АНАЛИЗ, ЭКСТРАКЦИЯ ПРЕДЛОЖЕНИЙ, КЛАСТЕРИЗАЦИЯ, ТЕМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ, ТЕМАТИКА ВЫСКАЗЫВАНИЯ, ИЗВЛЕЧЕНИЕ КОЛЛОКАЦИЙ, ИМЕНОВАННЫЕ СУЩНОСТИ, АННОТИРОВАНИЕ, ДЕТЕКТИРОВАНИЕ ВЫБРОСОВ.

Цель прикладного научного исследования и экспериментальной разработки.

Целью выполнения настоящего прикладного научного исследования является разработка новых методов лингвистического и семантического анализа для интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной русской речи, обеспечивающих решение аналитических задач, связанных со структурированием, тематизацией и пониманием массивов речевых и текстовых данных.

1 этап

Научным коллективом компании ООО «ЦРТ-инновации» разработаны методы лингвистического и семантического анализа:

  1. Кластеризация массивов текстов распознанной речи.
  2. Определение тематики высказывания.
  3. Выявление ключевых (значащих) слов и семантических связей.
  4. Выделение связных контекстов.
  5. Аннотирование распознанных текстов.
  6. Поиск и детектирование нетипичных (аномальных) для данной выборки текстов.
  7. Визуализация результатов автоматического анализа текстов

Разработанные методы совмещают в себе наиболее успешные современные мировые подходы к решению задач интеллектуальной обработки текстов, выявленные в ходе проведенного исследования. Также методы учитывают специфику русского языка, наличие некоторого уровня ошибок автоматического распознавания речи и деформацию синтаксических и семантических связей, типичную для спонтанной речи.

Все работы проводятся во взаимодействии и под контролем индустриального партнера - ООО «ЦРТ».

2 этап

Научным коллективом компании ООО «ЦРТ-инновации» разработаны алгоритмы лингвистического и семантического анализа:

  1. Автоматическая кластеризация массивов текстов распознанной речи.
    Обеспечивают формирование многоуровневой иерархической структуры кластеров, отражающей семантические связи между тематиками кластеров, вложенность кластеров и близость кластеров друг к другу.
  2. Определение тематики высказывания.
    Надежность определения тематик переговоров возрастает благодаря использованию специального алгоритма учета диалоговой структуры речи и выделения информативных паттернов из диалогов.
  3. Автоматическое выявление ключевых (значащих) слов и семантических связей в тексте распознанной речи.
    Возвращают выявленные ключевые слова и семантические связи в виде структуры данных для дальнейшей визуализации смысловой составляющей текстов распознанной речи. Усиление алгоритмов производится за счет применения технологии извлечения коллокаций из текстов спонтанной речи.
  4. Выделение связных контекстов слов для именованных сущностей, содержащихся в тексте распознанной речи.
    Обеспечивают выделения связных контекстов, в которых употреблялся тот или иной объект, событие, название или имя, с возможностью последующей кластеризации этих контекстов. Реализация данной функциональности стала возможной благодаря использованию синтаксического парсинга.
  5. Автоматическое аннотирование распознанных текстов.
    Предназначены для автоматического формирования аннотаций как отдельных текстовых документов, являющихся результатами распознавания слитной речи, так и кластеров документов. Полученные в результате работы алгоритмов текстовые аннотации должны содержать информационную составляющую анализируемых текстов. Для решения поставленной задачи был разработан специальный алгоритм автоматической расстановки знаков препинания и экстракции предложений из результатов распознавания.
  6. Поиск и детектирование текстов распознанной речи, нетипичных (аномальных) для данной выборки по типу высказываний, содержащихся в исходной фонограмме.
    Обеспечивают выявление непрофильной нагрузки, выявление кластеров непродуктивных разговоров операторов на бытовые темы, отслеживание появления новых, не актуальных ранее, тематик разговоров.
  7. Визуализация результатов автоматического анализа текстов.
    Обеспечивают графическое представление результатов, полученных в процессе работы алгоритмов лингвистического и семантического анализа, для облегчения восприятия информации и дальнейшего экспертного анализа.

В состав каждой из разрабатываемых групп алгоритмов включены специальные алгоритмы предобработки исходных данных (текстов распознанной речи), применение которых значительно повысит функциональность разрабатываемых целевых алгоритмов и упростит их реализацию.

Разработанные алгоритмы будут реализованы в виде программных модулей в составе экспериментального образца программного комплекса в ходе 3 этапа работ.

Все работы проводятся во взаимодействии и под контролем индустриального партнера - ООО «ЦРТ».

3 этап

Разработан экспериментальный образец программного комплекса интеллеткуального анализа текста, обладающий интерактивным графическим интерфейсом.

Активное взаимодействие пользователя с системой позволяет:

  • -выбирать удобный режим исследования;
  • -изменять параметры системы и интерфейса.

Ожидаемые социально-экономические эффекты от внедрения результатов исследовательской работы:

Для крупных контактных центров и служб поддержки пользователей:

  1. Расширение возможностей контроля и оценки качества работы операторов.
  2. Повышение эффективности работы за счет анализа удовлетворенности клиентов.
  3. Повышение прибыли за счет анализа эффективности маркетинговых кампаний.
  4. Повышение прибыли за счет выявления лучших практик продаж.
  5. Снижение затрат за счет выявления непрофильной нагрузки.
  6. Повышение качества обслуживания в контактных центрах.

Для служб корпоративной и государственной безопасности:

  1. Повышение эффективности контроля потенциальных угроз, в т.ч. контроля над утечками важной или секретной информации.
  2. Усиление профилактики и предупреждения инцидентов и преступлений за счет выявления разговоров по новым и нехарактерным темам.
  3. Повышение эффективности выявления экстремистских высказываний.
  4. Возможность эффективного анализа реакции граждан на общественно значимые события.
  5. Возможность выявления событий, вызвавших общественный резонанс.

Все работы проводятся во взаимодействии и под контролем индустриального партнера - ООО «ЦРТ».

4 этап

Научным коллективом компании ООО «ЦРТ-инновации» успешно проведены экспериментальные исследования разработанного на предыдущих этапах программного комплекса интеллектуального анализа текста.

Результаты экспериментальных исследований показали, что реализованные в составе программного комплекса алгоритмы, соответствуют требованиям ТЗ и согласуются с результатами аналогичных работ, определяющих мировой уровень.

Все работы проводятся во взаимодействии и под контролем индустриального партнера - ООО «ЦРТ».

5 этап

Основной целью данного этапа ПНИ были обобщение и оценка результатов исследований, полученных в ходе работ по проекту.Для достижения поставленной цели были проведены следующие работы:

  • - дополнительные патентные исследования;
  • - обобщение и оценка результатов исследований;
  • - разработка методики проведения исследований, направленных на оптимизацию алгоритмов интеллектуальной обработки текстов, полученных в результате автоматического распознавания звучащей спонтанной речи в условиях билингвального диалога на примере русского и казахского языков, с использованием результатов проекта;
  • - разработка технических характеристик перспективного программного комплекса;
  • - разработка рекомендаций по использованию результатов проведенных ПНИ;
  • - разработка технических требований в виде проекта технического задания на проведение ОКР;
  • - разработка технико-экономического обоснования разработки продукции, технических требований и предложений по разработке, производству и эксплуатации продукции.

Для успешной реализации цели по внедрению результатов ПНИ в отдельные отрасли промышленности были разработаны предложения и рекомендации по использованию полученного научно-технического задела.

Завершены работы по 5 этапу и по проекту в целом.

Результаты проекта:

Разработан программный комплекс интеллектуальной обработки текстов, полученных в результате автоматического распознавания спонтанной звучащей русской речи.
Особое внимание при разработке уделялось возможностям визуального отображения результатов анализа речи.

Программный комплекс снабжен интерактивным графическим интерфейсом, позволяющим пользователю активно взаимодействовать с системой — выбирать удобный режим исследования, изменять параметры системы, настраивать интерфейс визуализации.

При разработке алгоритмов были совмещены наиболее успешные современные подходы речевой аналитики с методами, учитывающими специфику русского языка и спонтанной диалоговой речи. Результаты экспериментальных исследований показали, что разработанные алгоритмы соответствуют требованиям ТЗ и согласуются с результатами аналогичных работ, определяющих мировой уровень.

Результаты работ были представлены на конференциях:
ВУЗПРОМЭКСПО-2016;
AIST-2016;
SPECOM-2016.

Проект, реализованный в рамках соглашения, готов к переходу в стадию опытно-конструкторских работ.

Карта сайта

Продукты

Партнёрам

Новости

Контакты