Кластерный анализ данных – новая технология для контакт-центров от «ЦРТ-инновации» (Группа ЦРТ) и Минобрнауки

12.10.2016

Компания «ЦРТ-инновации» совместно с Министерством образования и науки РФ разработала технологию кластерного анализа – автоматического структурирования и понимания  больших массивов речевых данных. Технология базируется на основных принципах работы с большими данными и использует для  реализации алгоритмов наиболее успешные современные методы машинного обучения.

Разработка будет применяться в крупных контакт-центрах и службах поддержки, где ежедневно накапливается большой объем записей телефонных переговоров «клиент-оператор» и часто возникает необходимость получить информацию о составе, структуре и содержании новой, незнакомой аналитику базы данных.

Полученная информация может быть использована для выявления наиболее частых поводов обращения абонентов в контакт-центр, обнаружения связи между этими обращениями, определения объемов кластеров таких обращений, перевода обслуживания по некоторым типам обращений в автоматический режим (IVR) и т.п.

«Достоинствами разработанной нами технологии являются возможность автоматической адаптации используемого алгоритма к новой предметной области (обучение системы на целевой выборке происходит без участия эксперта-аналитика, что делает данную систему экономически выгодной и более производительной) и наличие специально разработанных алгоритмов предобработки данных, позволяющих выделить наиболее информативные смысловые центры (так называемые «паттерны») диалогов «клиент-оператор» и исключить из рассмотрения неинформативные («мусорные») фрагменты диалогов, что значительно повышает надежность и результативность», - комментирует R&D директор Группы ЦРТ Кирилл Левин.

Технология кластерного анализа входит в состав предлагаемой «ЦРТ-инновации» универсальной методики, основанной на таких последовательных принципах извлечения информации (information retrieval) из неструктурированных массивов речевых данных и их интеллектуального анализа (data mining), как:

  • Кластеризация речевых данных, предполагающий разделение массива неструктурированных данных на кластеры, объединяемые общим критерием (темой). Полученные кластеры имеют озаглавленную иерархическую (древовидную) структуру, что позволяет решать реальные задачи аналитиков контакт-центров, так как такое представление данных в полной мере отражает связность, вложенность и относительный объем данных различных кластеров (тем).

Алгоритм основан на методе машинного обучения «без учителя» (unsupervised learning) с применением алгоритмов k-means и LDA на каждом шаге иерархической кластеризации.

  • Поиск и фильтрация «статистических выбросов» или «аномалий», то есть звукозаписей переговоров, нетипичных для данной выборки по какому-либо критерию (например, наличие бытовых разговоров (с родственниками или знакомыми) среди звукозаписей рабочих переговоров).

Алгоритм основан на методе машинного обучения «без учителя» (unsupervised learning), использующего метод one-class-svm.

  • Выявление наиболее значимых слов и фраз и последующее составление текстовых аннотаций, содержащих в себе информативную составляющую речи.
ID проекта RFMEFI57914X0008

Подписаться на новости:

подписаться

Поделиться:

Другие новости

Группа компаний ЦРТ создала голос на основе нейросетей для героя фильма «Сто лет тому вперед»

Видеокамеры добавят узнаваемости

Московские рентгенологи заполнили более 400 тысяч протоколов с помощью голосового помощника

Все новостиподписаться

Карта сайта

Продукты

Партнёрам