Ученые Группы ЦРТ третьи в решении самой сложной задачи распознавания речи

28.09.2018

На крупнейшей мировой конференции по речевым технологиям INTERSPEECH в Хайдерабаде представили результаты международного конкурса по распознаванию речи the 5th CHiME Speech Separation and Recognition Challenge (CHiME-5). Третье место в нем заняла система распознавания, которую создали ученые «ЦРТ-инновации» (Группа компаний ЦРТ).

«Как и у других научных челленджей, задача CHiME — обеспечить обмен опытом сильнейших команд со всего мира и продвинуть вперед решение глобальных задач в области распознавания речи. В этом году мы как раз решали самую сложную из них, — рассказывает директор НИД ЦРТ Кирилл Левин. — По итогам участники выступают на конференции с докладами по своим решениям. Так что это не только шанс поломать голову и похвастаться результатом, но и обменяться опытом с коллегами и вместе с ними приблизиться к решению задачи, над которой человечество бьется уже много лет».

Каждый год организаторы предлагают участникам разные задания. Распознавание речи с близко расположенных микрофонов, таких как гарнитура или телефон, уже показывает хорошие результаты — IT-гиганты отчитываются о достижении «человеческого» уровня точности. При этом распознавание с дальней и средней дистанции (больше 1 метра) пока дает гораздо больше ошибок. Поэтому в этом году конкурсанты решали  так называемую cocktail party problem — распознавание спонтанной речи нескольких дикторов в условиях частичного наложения речи и шума, то есть в типичной ситуации общения на вечеринке.

Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Для распознавания здесь сложны одновременная речь 2-4 человек, реверберация и интенсивный шум – звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех.
Цель участников — создать систему распознавания, которая «прослушает» записи и выдаст полную расшифровку с наименьшим количеством ошибок.  Команда Группы ЦРТ, занявшая третье место, смогла улучшить показатели базовой системы, предоставленной организаторами, и повысить точность распознавания с 26.7% до 44.5%. Для этого был создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных дикторов, определяющий моменты наложения речи, реализующий нейробимформинг (эффект направленного микрофона) и непосредственно распознающий речь.

«Когда мы научимся качественно распознавать речь разных дикторов, еще и перебиваемую шумами, речевые технологии выйдут на новый уровень. А голосовые ассистенты и умные колонки выйдут из разряда инновационных игрушек и станут нашими повседневными помощниками», — комментирует Кирилл Левин.

В этом году в конкурсе участвовали научные команды со всего мира, среди которых такие IT-гиганты, как ASUS, Hitachi, Lenovo, Toshiba, и крупные университеты-лидеры в области речевых технологий: Рейнско-Вестфальский технический университет Аахена, Университет Падерборна, Университет Джона Хопкинса и т.д. Победителем стала совместная команда китайской компании iFlytek, крупнейшего разработчика систем синтеза и распознавания китайской речи, и Научно-Технического университета Китайской академии наук.

Резидент Сколково ООО «ЦРТ-инновации» — научно-исследовательская компания, разработчик передовых решений на основе собственных технологий в области биометрии по лицу и голосу, распознавания речи, искусственного интеллекта, машинного обучения и анализа больших данных.
 

Подписаться на новости:

подписаться

Поделиться:

Другие новости

И красива, и умна: Александра, виртуальный ассистент метро Москвы, автоматизировала более 88% обращений и появилась в новых каналах

Синтез речи группы ЦРТ стал новой моделью потребления контента на медиаресурсах

Группа компаний ЦРТ внедряет речевую аналитику для повышения эффективности отдела продаж группы «Самолет»

Все новостиподписаться

Карта сайта

Продукты

Партнёрам