84.54K

Автоматический синтез речи

Автоматический синтез речи
Автоматический синтез речи – процесс генерации речевого
сигнала - технология, которая дает возможность прочитать
текст (документ, письмо, смс) голосом, приближенном к
естественному.
Задачи:
обеспечение естественности голоса на уровне тембра,
обеспечение плавности звучания и интонации,
правильная расстановка ударений,
расшифровка сокращений, чисел, аббревиатур и специальных
знаков

3.

Методы синтеза речи
1. Дифонный подход (дифон — это звук от
середины одной фонемы до середины соседней
фонемы)
2. Аллофонный подход (реализация фонемы в
окружении контекста слева и справа)
3. Unit Selection (выбор звуковых элементов из
речевой базы).

4.

Недостатки существующих
подходов
Дифонный подход позволяет делать разборчивый, но неестественный по тембру
речевой сигнал. В тембре синтезированной речи не узнается тембр дикторадонора.
Аллофонный подход — естественность голоса несколько выше, чем в дифонном
подходе за счет большего набора звуковых элементов. Однако, как и в дифонном
синтезе голос получается довольно роботизированным, и в нем трудно узнать
голос диктора-донора.
Unit Selection — естественность тембра речи высока и в синтезированный голос
сохраняет тембровую окраску голоса диктора-донора. Однако из-за ограничений
на размер голосовой базы некоторые тексты (слова и их сочетания) произносятся
с заметными искажениями вплоть до полного выпадения отдельных звуков.

5.

Ограничения, влияющие на выбор
метода синтеза:
1. Задача
Возможности синтезированной речи зависят от того, в какой
области она будет применяться. Когда необходимо произносить
ограниченное число фраз (и их произнесение линейно не
меняется),
необходимый
речевой
материал
просто
записывается на носитель. С другой стороны, если задача
состоит в стимулировании познавательного процесса при
чтении вслух, используется совершенно другой ряд методик.

6.

Ограничения, влияющие на
выбор метода синтеза:
2. Голосовой аппарат человека
Все системы синтеза речи должны производить на выходе какуюто речевую волну, но это не произвольный сигнал. Чтобы получить
речевую волну определенного качества, сигнал должен пройти
путь от источника в речевом тракте, который возбуждает действие
артикуляторных органов, которые действуют как изменяющиеся во
времени фильтры. Артикуляторные органы также накладывают
ограничения на скорость изменения сигнала. Они также имеют
функцию сглаживания: гладкого сцепления отдельных базовых
фонетических единиц в сложный речевой поток.

7.

Ограничения, влияющие на
выбор метода синтеза:
3. Структура языка
Ряд возможных звуковых сочетаний определяется природой
той или иной языковой структуры. Было обнаружено, что
единицы
и
структуры,
используемые
лингвистами
для
описания и объяснения языка, могут также использоваться для
характеристики и построения речевой волны. Таким образом,
при
построении
основные
выходной
речевой
волны
фонологические
законы,
правила
морфологические
и
фонотактические ограничения.
синтаксические
используются
ударения,
структуры,

8.

Ограничения, влияющие на
выбор метода синтеза:
4. Технология
Возможности успешно моделировать и создавать устройства для синтеза речи в
сильной степени зависят от состояния технико-технологической стороны дела.
Речевая наука сделала большой шаг вперед благодаря появлению различных
технологий, в том числе: рентгенография, кинематография, теория фильтров и
спектров,
а
главным
образом
-
цифровые
компьютеры.
С
приходом
интегральных сетевых технологий с постоянно возрастающими возможностями
стало возможно построение мощных, компактных, недорогих устройств,
действующих в реальном времени. Этот факт, вместе с основательными
знаниями алгоритмов синтеза речи, стимулировал дальнейшее развитие систем
синтеза речи и переход их в практическую жизнь, где они находят широкое
применение.

9.

Автоматическая обработка
письменного текста
Автоматическое индексирование
Индексирование
документа
это
процедура
отображения текста документа в определенную форму,
предназначенную для автоматической обработки
(индекс документа).
Ручное
индексирование
Автоматическое
индексирование

10.

Ручное индексирование
Процесс осуществляет информационный работник.
На основе анализа содержания документа специалист
отображает текст документа в набор ключевых слов
или дескрипторов.
Преимущество ручного индексирования состоит в
его
качестве,
недостатком
является
низкая
производительность
и,
следовательно,
высокая
стоимость. Кроме того, при ручном индексировании
вполне возможна ситуация, когда один и тот же
документ, обработанный различными специалистами,
может получить различные индексы.

11.

Автоматическое
индексирование
Индексирование
осуществляется
компьютерной
системой. Формально текст документа представляет собой
множество символов, разделенных пробелами. Эти
отрезки текста называют словоформами. Основная задача
автоматического
индексирования
состоит
в
распознавании
в
словоформе
соответствующего
словарного
слова.
С
этой
целью
используют
автоматический морфологический анализ текста.

12.

Морфологический анализ
текста
Анализ
структур
словоформ,
рассматриваемых
изолированно с целью определения принадлежности
словоформы слову.
Задачи (МА):
• выделение из текста словоформ;
• распознавание слов или их сочетаний;
• нормализация
словоформ
(приведение
слова
к
словарному виду);
• распознавание грамматических признаков словоформ
(часть речи, падеж и т.п.).

13.

Автоматические словари
1) словари, используемые 2)Информационнодля
распознавания
поисковые тезаурусы,
словоформ
и
их
которые
содержат
нормализации
(словарь
информацию
об
словоформ, словарь основ
отношениях
условной
слов, словарь окончаний,
эквивалентности,
словарь словосочетаний).
отношениях подчинения и
ассоциативных
отношениях
между
словами.

14.

Синтаксический анализ текста
Синтаксический анализ текста представляет собой
исследование структуры предложения текста с целью
установления синтаксических связей между членами
предложения.
В
ходе
синтаксического
анализа
используются результаты морфологического анализа.
Результаты синтаксического анализа текста обычно
представляются в виде дерева отношений между словами с
указанием их типов.

15.

Статистический анализ текста
В основе статистических методов анализа текста лежит идея
о возможности использования числовых параметров для
оценки
информативности
лексических
единиц,
составляющих текст.
При статистическом анализе текста рассчитывают различные
количественные оценки:
• число вхождений слова в документ;
• общее число вхождения слова в документы,
• относительная частота вхождения слова в документ и др.

16.

Статистический анализ текста
Статистические методы удобны тем, что позволяют
автоматически, посредством достаточно простых операций,
получить сведения о данной лексической единице в документе
или массиве документов.
B тоже время использование только статистических
методов при определении информативности слов не всегда
приводит к адекватным результатам. Например, удаление часто
встречающихся терминов уменьшает полноту, а удаление редко
встречающихся терминов снижает точность поиска. Поэтому
статистические методы не могут в полной мере оценить
информативность слов текста, а ручное индексирование по
качеству всегда будет превосходить автоматическое.

17.

Создание словников, конкордансов,
частотных словарей
Создание словника:
производится отбор терминов
устанавливается соотношение объёмов разделов и отдельных
статей
выделяется цикл статей
разрабатывается система ссылок
Издание
энциклопедии
обычно
начинается
с
составления
тематических словников по разным отраслям знаний, имеющих
рубрикацию от общих понятий до частных терминов. На основе
сводного тематического словника составляется общий алфавитный
словник всего издания.

18.

Создание словников, конкордансов,
частотных словарей
Создание конкорданса (словарей словосочетаний)
Состоит из:
Комментарии
определения слов
интертекстуальные ссылки – материалы, которые пока невозможно
получить автоматически
Конкордансеры - специальные программы составления конкордансов
по некоторому корпусу текстов. Они позволяют получать
частоту той или иной языковой единицы по произвольному корпусу
текстов, список контекстов, в которых данная единица
встретилась.

19.

Создание словников, конкордансов,
частотных словарей
Создание частотных словарей
строятся на основе корпусов текстов:
берется набор текстов, представительный для языка в целом, для некоторой
предметной области или данного автора
извлекаются словоформы, леммы и части речи (последние извлекаются в
случае, если корпус имеет морфологическую разметку).
Проблемы при создании частотных списков заключаются в:
Воспроизводимости (будут ли результаты идентичны на другом аналогичном
корпусе),
Всплесках частоты отдельных слов (частота слова в одном тексте может повлиять на
его позицию в частотном списке),
Сложности определения позиции менее частотных слов, что не дает возможности
ранжировать их рационально

20.

Создание словников, конкордансов,
частотных словарей
Программы для создания частотных словарей:
• BX Language acquisition;
• Open Office Calc;
• URS версия 1.1;
Все созданные человеком тексты построены по единым
правилам. Какой бы язык ни использовался, кто бы ни
писал - внутренняя структура текста останется
неизменной. Она описывается законами Зипфа (G.K. Zipf).

21.

Законы Зипфа
Первый закон Зипфа "ранг - частота".
Выбирается любое слово и подсчитывается, сколько раз оно встречается в тексте. Эта величина
называется частота вхождения слова. Измеряется частота каждого слова текста. Некоторые слова будут
иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только
одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый
номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1,
следующие за ними -- 2 и т.д. Вероятность встретить слово путем случайного выбора, будет равна
отношению частоты вхождения этого слова к общему числу слов в тексте.
Вероятность = Частота вхождения слова / Число слов.
Зипф обнаружил интересную закономерность. Оказывается, если умножить
вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина
(С) приблизительно постоянна!
С = (Частота вхождения слова х Ранг частоты) / Число слов.

22.

Законы Зипфа
Второй закон Зипфа "количество - частота".
• Факт, что разные слова входят в текст с одинаковой частотой, не рассматривался.
Рассматривая первый закон, Зипф установил, что частота и количество слов, входящих в текст с этой
частотой, тоже связаны между собой.
• Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) -количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех
без исключения созданных человеком текстов!
Как и в предыдущем случае, это утверждение верно в пределах одного языка.
Однако и межъязыковые различия невелики. На каком бы языке текст ни был
написан, форма кривой Зипфа останется неизменной. Могут немного
отличаться
лишь
коэффициенты,
отвечающие
за
наклон
кривой
(в
логарифмическом масштабе, за исключением нескольких начальных точек,
график - прямая линия).

English Русский Rules