Метод автоматической нормализации словосочетаний на основе обобщенных синтагм

1. Московский авиационный институт (национальный исследовательский университет) Метод автоматической нормализации словосочетаний

Метод автоматической нормализации
словосочетаний на основе
обобщенных синтагм
Студентка: Руснак В.И.

2. Определения

Нормализация словосочетаний - это процесс приведения
словосочетания к нормальной форме со строго определенным
порядком слов и их грамматической формой.
Синтагма - совокупность нескольких слов, объединённых по
принципу семантико-грамматической и фонетической
сочетаемости.
Обобщенная синтагма - ?
2

3. Актуальность

В большинстве современных подходов к анализу текстов не
используют информацию о порядке следования слов. Многие из них
могут быть усовершенствованы, в случае, если атомарными
элементами анализа станут не слова, а обобщения понятия
словосочетание, то есть синтагмы. Имеет большой спектр
приложений в NLP. Может быть успешно применено, например:
1. В задачах выделения именованных сущностей.
2. В задачах тематического моделирования для построения ядер
тем, для последующей регуляризации в методе LDA.
И во многих других задачах обработки текстов, требующих
большей точности, чем подходы, использующие bag of words.
3

4. Постановка задачи

?
4

5. Введение в метод

Задачу автоматической нормализации слов и словосочетаний необходимо
разбить на две подзадачи. Отдельно на подзадачу нормализации слов и на
подзадачу нормализации словосочетаний. Нормализация слов русского языка на
различных уровня обобщения достаточно хорошо исследована и решается путем
замены грамматических окончаний, а в некоторых случаях и трансформации
конечных буквосочетаний основ.
Другое дело – нормализация именных и глагольных словосочетаний. Здесь
наряду с задачей морфологического синтеза необходимо также решить задачу
анализа структуры текстового словосочетания - установить главные (опорные) и
зависимые слова словосочетания и определить синтаксические связи между
ними. На основании этой информации может быть принято решение о
синтаксической (перестановка слов нормализованного словосочетании) и
морфологической (трансформации основ слов и замены грамматических
окончаний опорных и зависимых слов. Эти процедуры также разработаны, но
реализация требуют больших вычислительных и временных ресурсов.
5

6. Описание метода

Концепция фразеологического концептуального анализа текстов, разработанная проф.
Г. Г. Белоноговым совместно с его учениками, в рамках которой проводилось данное
исследование, базируется на машинной грамматике, в основу которой положена система
флективных классов русских слов. Заложенное в теоретической концепции флективных классов
слов русского языка жесткое соответствие между формой представления слов и их
грамматической информацией позволило создать на этой основе новые классы – классы слов,
имеющие одинаковые наборы грамматических признаков, соответствующие их формам
представления в сходных контекстных окружениях.
При разработке этой синтаксической модели текстов авторы исходили из следующей
гипотезы: одинаковым последовательностям обобщенных символов классов слов (обобщенным
синтагмам) должны соответствовать одинаковые синтаксические структуры. При этом
предполагалось, что такая гипотеза верна для любых синтаксических моделей и может быть
полезна при решении как глобальных, так и частных задач синтаксического анализа.
Таким образом, синтаксическая модель языка будет выражена совокупностью устойчивых
синтаксических конструкций, имеющих частоту встречаемости более трех. При этом корпус
текстов, используемый для формирования синтаксической модели языка должен быть
значительного размера. Исследования проводились на корпусе текстов размером 1,5 млн
предложений. Полученный словарь обобщенных синтагм имеет объем 39865 словарных статей
6

7. Алгоритм формирования словаря обобщенных синтагм

В процессе исследований был разработан алгоритм, позволяющий автоматически
формировать словарь устойчивых синтаксических конструкций для синтаксической модели
языка. Далее приведем сам алгоритм:
1. Разделить текст на предложения и выполнить обработку каждого анализируемого
предложения процедурой морфологического анализа. Получить для каждого слова символ
флективного класса и грамматического окончания.
2. Провести синтаксический анализ предложения [3], провести назначение грамматической
информации и построить дерево зависимости предложения. Рассчитать вероятности
правильности получения информации.
3. Выявить последовательности слов, для которых вероятность правильного установления
грамматической информации равна 1.
4. Сформировать для этих последовательностей индексы обобщенных синтагм.
5. Сформировать из получившихся последовательностей подпоследовательности размером от
трех слов до длины исходной последовательности.
6. Добавить подпоследовательности индексов обобщенных синтагм, полученные на шаге 5, в
словарь устойчивых синтаксических конструкций. Пересчитать значения частот для этих
подпоследовательностей.
7. Исключить из словаря устойчивых синтаксических конструкций синтагмы с частотой менее
трех.
7

8. Примеры работы алгоритма

Исходное словосочетание
Нормализованное словосочетание
Соединенных Штатов
Советским Союзом
Вооруженных Сил
Ядерного оружия
Северной Кореи
Второй мировой войне
Международной службы по
мониторингу за применением
агробиотехнологий
межконтинентальную
баллистическую ракету
Соединенные Штаты
Советский Союз
Вооруженные Силы
Ядерное оружие
Северная Корея
Вторая мировая война
Международная служба по
мониторингу за применением
агробиотехнологий
Межконтинентальная
баллистическая ракета
8

9. Описание алгоритма нормализации

1. Выполняется обработка анализируемого словосочетания процедурой
морфологического словоизменительного анализа.
2.
3. Формируется синтагма на основе полученной на шаге 1
грамматической информации.
4. Выполняется поиск главного слова словосочетания в соответствии с
правилами языка.
5. Выполняется приведение главного слова к нормальной форме
6. В словаре обобщенных синтагм ищется синтагма, в которой главное
слово находится в нормальной форме, а остальные слова имеют
грамматическую информацию, которую путем словоизменения
можно привести к исходной.
7. Приведение слов словосочетания в соответствие с обобщённой
синтагмой при помощи процедур морфологического анализа.
9

10. Пример нормализации именных словосочетаний

Исходное предложение: Он основывается на использовании подготовленных
семантико-статистическими методами, устойчивых обобщенных синтагм,
которые представляют собой - контактно расположенные последовательности
символов обобщенных классов словоформ, включающие в себя набор
грамматических признаков.
Список выявленных именных словосочетаний: семантико-статистическими
методами; устойчивых обобщенных синтагм; контактно расположенные
последовательности символов обобщенных классов словоформ; набор
грамматических признаков
10

11. Пример нормализации именных словосочетаний

Нормализуемое словосочетание: контактно расположенные последовательности
символов обобщенных классов словоформ
Сформированная
для словосочетания последовательность грамматических
признаков
11

12. Пример нормализации именных словосочетаний

Главное слово: синтагм
Найденная для последовательность грамматических признаков , где главное слово
представлено в нормальной форме грамматических признаков
Часть речи
прилагательное
прилагательное
существительно
е
род
женский
женский
женский
число
единственное
единственное
единственное
падеж
именительный
именительный
именительный
лицо
-
-
-
Сформированное по данной синтагме словосочетание: устойчивая обобщенная
синтагма
12

13. Заключение

В работе приведена актуальная задача и метод её решения. С
помощью приведения словосочетаний к нормальной форме
создан объёмный словарь.
На основе построенного словаря проводится последующая
нормализация
словосочетаний
с
помощью
нахождения
словосочетаний с такими же признаками, что, в конечном счёте,
позволяет автоматизировать процесс.
13

English Русский Rules