Санкт-Петербург: (+7 812) 325-88-48, Москва: (+7 495) 623-55-05
Синтез речи
Синтез речи — это технология, которая дает возможность прочитать текст (документ, письмо, смс) естественным человеческим голосом. Для того, чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне тембра, плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровкой сокращений, чисел, аббревиатур и специальных знаков.
Методы
Сегодня существует три основных направления синтеза: дифонный подход (дифон — это звук от середины одной фонемы до середины соседней фонемы), аллофонный подход (реализация фонемы в окружении контекста слева и справа) и технология Unit Selection (выбор звуковых элементов из речевой базы). Но каждый из них в отдельности имеет свои недостатки:
- Дифонный подход позволяет делать разборчивый, но неестественный по тембру речевой сигнал. В тембре синтезированной речи не узнается тембр диктора-донора.
- Аллофонный подход — естественность голоса несколько выше, чем в дифонном подходе за счет большего набора звуковых элементов. Однако, как и в дифонном синтезе голос получается довольно роботизированным, и в нем трудно узнать голос диктора-донора.
- Unit Selection — естественность тембра речи высока и в синтезированный голос сохраняет тембровую окраску голоса диктора-донора. Однако из-за ограничений на размер голосовой базы некоторые тексты (слова и их сочетания) произносятся с заметными искажениями вплоть до полного выпадения отдельных звуков.
Технология гибридного синтеза от ЦРТ
Специалистами компании «Центр речевых технологий» была разработана новая технология гибридного синтеза речи, объединившая в себе достоинства дифонного, аллофонного и Unit Selection подходов и исключившая их недостатки. Синтез речи VitalVoice использует сложные лингвистические алгоритмы анализа текста и обработки выходного сигнала, что позволяет достичь максимального приближения к реальной речи. Особое внимание уделяется интонации и паузации синтетической речи, ведь именно эти параметры во многом обеспечивают естественность голоса. Блок лингвистической обработки позволяет автоматически расшифровывать множество вариантов сокращений, используемых в текстах на русском языке. В большинстве случаев он без дополнительных тегов разметки (которые активно используются в большинстве других систем синтеза) справляется со всеми видами записей дат, чисел, адресов, аббревиатур. Синтезатор справляется и с чтением латиницы, которая часто встречается, например, в новостных текстах. В словаре VitalVoice содержится более 300 фразеологизмов, с помощью которых синтезатор понимает, что, например, выражение «ни пуха ни пера» — это единая смысловая конструкция с особой интонацией.

Синтез речи
Важным достижением специалистов Центра речевых технологий является уникальная автоматизированная технология создания голоса, включающая методику выбора диктора-донора, подготовку специальных текстов, процедуру записи фонограмм, проведение разметки. Разметка речи происходит на 9 уровнях, включающих в себя идеальную и реальную транскрипцию, орфографию, интонацию и паузацию, речевые особенности диктора и т.д. Данная технология позволяет в короткие сроки подготовить новый голос с минимальными ресурсами и при этом обеспечить высокое качество синтезированного голоса «на заказ».

Создание голоса
Синтез речи VitalVoice обладает целым рядом преимуществ таких как:
- Высокая естественность звучания при чтении произвольного текста
- Учет фонетических, морфологических и грамматических особенностей русского языка
- Технология клонирования естественной интонации и тембра голоса диктора-донора
- Правильная расстановка ударений
- Правильная расшифровка сокращений, чисел, аббревиатур и специальных знаков
- Простота использования и внедрения
- Поддержка стандартных протоколов обмена данными и языков разметки (MRCP, SAPI, SSML)
- 8 различных голосов синтеза
- Возможность создания уникального голоса «на заказ»
Существует два основных типа систем синтеза речи — тематически заданный и тематически открытый (универсальный).
Тематически заданный синтез
Применяется, например, в системах оповещения на вокзалах, автоматический прогноз погоды, информатор точного времени по телефону, компьютерные игры, а также в электронных приборах: часах, навигаторах и т.п. Такой синтез часто называют макрокомпилятивным, поскольку в основе такого синтеза лежит принцип сочетания предварительно записанных больших фрагментов речи, отдельных фраз, которые комбинируются в нужном порядке. Такие системы синтеза создаются для решения конкретных задач и отличаются высоким качеством синтеза. Для некоторых задач такой синтез является идеальным решением, например, говорящие часы, поскольку качество речи не отличается от живого голоса и в то же время, требуемые для такого синтеза ресурсы, минимальны. Для других задач, например, оповещение на вокзалах, в реализации синтеза могут встретиться трудности, вызванные некоторой вариативностью содержания объявлений. При большом разнообразии объявлений размер записываемого материала может стать значительным. Основное ограничение тематически ориентированного синтеза заключается в том, что синтезировать можно только заданные заранее сообщения со строго определенными вариациями.
Тематически открытый, универсальный синтез
Синтез речи по произвольному тексту, тема которого заранее не задана (открыта), — гораздо более масштабная и сложная задача. При условии, когда текст может быть любым, для решения задачи естественности звучания всевозможных комбинаций словосочетаний в разнообразных интонационных конструкциях нужно располагать обширной базой фонем для всех вариантов. Исследования показывают, что для получения удовлетворительного качества синтеза голосовая база диктора-донора должна содержать не менее 2 часов речи. Высокое качество синтеза возникает тогда, когда запись голоса диктора приближается к 10 часам.
Качественный синтез речи по произвольному тексту обязательно требует наличия сложного лингвистического процессора, который преобразует последовательность символов, составляющих текст в последовательность транскрипционных знаков, которая в свою очередь далее преобразуется в речевой сигнал. Лингвистический процессор играет роль искусственного интеллекта. Лингвистический процессор решает, где поставить ударение в словах, как расшифровать сокращения, как прочитать аббревиатуру, где поставить паузу и какой она будет длины и еще много других задач, которые далеко не каждый человек сможет правильно решить, читая текст.
С технологической точки зрения, системы синтеза речи разделяются на серверные решения, решения для ПК и мобильных устройств. Каждая из этих реализаций налагает на систему синтеза определенные условия, которые учитываются на уровне применяемых алгоритмов, состава голосовых и лингвистических баз.


