RSS-материал

Научные публикации

9 августа 2011

В работе рассмотрено применение технологии CUDA для задач голосовой биометрии, разработаны параллельные алгоритмы вычисления универсальной фоновой модели диктора (UBM — universal background model), исполняемые на многопроцессорных системах и на графических процессорах (GPU) видеокарт NVIDIA с поддержкой технологии CUDA.

9 августа 2011

В статье представлена реализация статистического анализатора текста TextAnalyser, описаны основные возможности его использования в сфере речевых технологий и приведены некоторые результаты статистической обработки в анализаторе большого текстового корпуса, в частности, ранжированные по частотности списки аллофонов русских фонем и наиболее частотных бифонемных сочетаний. Программа TextAnalyser и получаемые с ее помощью статистические данные могут быть полезны при разработке систем автоматического синтеза и распознавания речи.

9 августа 2011

The new effective speaker diarization system based on cooperation of the discriminative and the generative approaches is presented in this paper. The consequence exchange of results between the generative HMM or Variational Bayes speaker factors clustering and the discriminative clustering in eigenvoice space is organized.

9 августа 2011

The paper presents a semi-automatic speaker identification method based on a set of auditive characteristics analysis, their similarity and difference in compared phonograms. The proposed method is an attempt to formalize an aural impression of a speech and a voice in phonograms under consideration and compare them automatically. The set of characteristics and methods of comparison are described. The results of the identification reliability are presented; restrictions on the use of the method are discussed.

8 августа 2011

Universal background models (UBM) in the state-of-the-art speaker recognition systems are typically Gaussian mixture models (GMM). The most commonly used method for the parameter estimation of the UBM model is the maximum likelihood (ML) estimation. We propose to use the variational Bayesian analysis (VBA) instead of the ML method to estimate the parameters of the GMM. VBA helps in determining the optimal model complexity in order to avoid overfitting. Furthermore, we introduce the new criterion for fast model selection based on the values of mixture coefficients.

4 марта 2011

Приведено описание системы идентификации дикторов по голосу, разработанной для конкурса по оцениванию систем распознавания дикторов NIST SRE 2010.

1 апреля 2009

Материалы доклада ЦРТ на Форуме Call Center World 2009

Авторы: Илья Опарин, Кирилл Левин, PhD ООО