Машинная морфология Автоматический морфологический анализ Виды автоматического морфологического анализа
Машинная морфология
Область применения
Стемминг
Функции машинной морфологии
Анализ: получение по словоформе всех её характеристик (род, число, падеж, время, лицо и пр.) и всех возможных омонимов.
Синтез новых слов: определение всех морфологических характеристик для незнакомых слов.
Автоматический морфологический анализ
Автоматический морфологический анализ
Общая схема обработки текста
Анализ отдельных слов
Существует три основных подхода к проведению морфологического анализа:
«четкая» морфология
Морфологический анализ на основе словаря Зализняка
Морфемный анализ
Морфемный анализ
«нечеткая» морфология
Рассмотрим эту задачу формальнее:
Нечеткий морфологический анализ
вероятностный подход
Замечания:
Виды автоматического морфологического анализа
Важен тип входного словаря
МА со словарём словоформ:
МА со словарём основ:
МА со словарём основ:
МА методом логического умножения (Варга)
МА методом логического умножения (Варга)
Независимый МА без словаря словоформ
Независимый МА без словаря словоформ
Ссылки:
388.00K
Category: lingvisticslingvistics

Машинная морфология. Автоматический морфологический анализ. Виды автоматического морфологического анализа

1. Машинная морфология Автоматический морфологический анализ Виды автоматического морфологического анализа

2. Машинная морфология

3. Область применения

• Машинная морфология необходима в
прикладных системах, ведущих поиск и
анализ информации на естественном
языке.
• При индексировании текстов и поиске
запросов поисковая машина должна
производить
лингвистическую
обработку слов.

4.

У каждого слова очень много различных форм, которые
называются словоформами.
Словоформы по смыслу являются одним и тем же
словом, но по форме могут очень сильно различаться
из-за окончаний, а также чередований букв в основе.
Таким образом, поисковику нужно отождествлять
между
собой
словоформы,
являющиеся
грамматическими формами одного и того же слова,
чтобы при поиске не пропускать вхождений искомого
слова.

5. Стемминг

• Естественным
решением
этой
проблемы
изменчивости слов является решение хранить только
основы слов.
• Для этого в ходе индексации web-страниц слова
приводятся к основам, и уже в таком виде
добавляются в индекс поисковой машины.
• Если все словоформы слова сводятся к его основе на
этапе создания индекса, то потом, при задании любой
словоформы слова в запросе, она также будет сведена
к основе и будут найдены все вхождения этой основы
в тексте.

6. Функции машинной морфологии

Нормализация: получение по любой форме слова
морфологического индекса, одинакового для всех
словоформ слова, используемого как для индексации,
так и для поиска.

7. Анализ: получение по словоформе всех её характеристик (род, число, падеж, время, лицо и пр.) и всех возможных омонимов.

8.

9. Синтез новых слов: определение всех морфологических характеристик для незнакомых слов.

10. Автоматический морфологический анализ

11. Автоматический морфологический анализ

• АМА – анализ отдельно взятой словоформы и
всех тех сведений, которые из нее можно
извлечь безотносительно к тому, относятся ли
эти сведения к морфологии или нет.
• АМА определяется двумя факторами:
1) тип ЕЯ, подвергаемого анализу
2) тип алгоритма автоматической
обработки текста

12. Общая схема обработки текста

13. Анализ отдельных слов

• Морфологический
анализы слов
и
морфемный
• Входной
параметр:
текстовое
представление исходного слова
• Цель
и
результат:
определение
морфологических характеристик слова
и его основная словоформа

14. Существует три основных подхода к проведению морфологического анализа:

1. «четкая» морфология – для русского
языка он основан на словаре Зализняка.
2.«нечеткая» морфология –
основывается на некоторой системе правил,
по заданному слову определяющих его
морфологические
характеристики.
3. вероятностный подход –
основан на
сочетаемости
слов
с
конкретными
морфологическими характеристиками.

15. «четкая» морфология

• Словарь Зализняка содержит основные словоформы слов
русского языка, для каждой из которых указан определенный
код.
• Известна система правил, с помощью которой можно построить
все формы данного слова, отталкиваясь от начальной
словоформы и соответствующего ей кода.
• Помимо построения каждой словоформы, система правил
автоматически ставит в соответствие ей морфологические
характеристики.
• При проведении четкого морфологического анализа необходимо
иметь словарь всех слов и всех словоформ языка.
• Этот словарь на входе принимает форму слова, а на выходе
выдает его морфологические характеристики.

16.

• При таком подходе для проведения
морфологического анализа заданного слова
необходимо просто найти его в словаре, где
уже
хранятся
точные,
«окончательно
известные»
значения
всех
его
морфологических характеристик.
• Для одного и того же входного слова могут
встретиться сразу несколько вариантов
значений его морфологических
характеристик.

17. Морфологический анализ на основе словаря Зализняка

http://www.aot.ru/docs/rusmorph.html

18.

• К сожалению, этот способ применим не
всегда: слова, поступающие на вход, могут
не входить в словарь всех словоформ.
• Такая ситуация может возникнуть из-за
ошибок ввода исходного текста, из-за
наличия в тексте имен собственных и т.д.
• В случае, когда метод не дает нужного
результата,
применяется
нечеткая
морфология.

19. Морфемный анализ

• Цель – разделение слова на приставки, корни,
суффиксы и окончания.
• В словаре морфем русского языка указано разделение
каждого слова на отдельные части, но не указаны
типы каждой из них — какая из них является
приставкой, какая корнем и т.д.
• Множество всех корней слов русского языка открыто,
но множество всех возможных приставок, суффиксов
и окончаний ограничено.
• Кроме того, известно, что в любом слове сначала идут
приставки, затем корни, далее суффиксы и
окончания.

20.

• Поэтому на основе словаря морфем русского языка
можно построить другой словарь, который будет
содержать не только разбиение каждого слова на
части, но и тип каждой из них. В таком случае, для
проведения морфемного анализа слова необходимо
обратиться к этому словарю.
• Морфемный анализ не ограничивается обращениями
к словарю. В ситуации, когда слово отсутствует в
словаре, возможно непосредственное проведение
анализа на основе стандартного строения слов
русского языка (приставка — корень — суффикс —
окончание) и множества всех приставок, суффиксов и
окончаний.

21. Морфемный анализ

22. «нечеткая» морфология

• Наличие тех или иных лексем может определять
морфологические характеристики слова: можно
построить систему правил, которая будет опираться
на наличие или отсутствие каких-либо частей и
выдавать одно или несколько предположений о
морфологических параметрах.
• Такой набор правил можно построить основываясь на
морфемном анализе слов, содержащихся в словаре
всех
словоформ,
и
их
морфологических
характеристик.

23. Рассмотрим эту задачу формальнее:

• Известны пары значений, состоящие из морфемного
строения слова и его морфологических характеристик.
• Это есть не что иное, как «вход» и «выход» системы
правил, которая по морфемному строению слова будет
определять его морфологические характеристики.
• Задачу построения такой системы правил можно решить с
помощью самообучающейся системы.
• Для ее реализации могут быть использованы деревья
решений, программирование на основе индуктивной
логики (ILP, Inductive Logic Programming) или другие
алгоритмы.

24. Нечеткий морфологический анализ

25.

• Данный подход состоит в:
формировании набора правил
вручную.
• Его реализация :
написание
экспертной
диагностирующего типа.
системы

26. вероятностный подход

• Одна и та же словоформа может принадлежать сразу к
нескольким грамматическим классам.
• Для каждой словоформы определяются все ее грамматические
классы, а также вероятность ее отношения к каждому из этих
классов. Это выполняется на основе некоторого набора
документов, где каждому слову предварительно поставлен в
соответствие грамматический класс.
• Затем вычисляются вероятности сочетаний определенных
грамматических классов для слов, стоящих рядом — для двоек,
троек, четверок и т.д. На основе этих чисел может проводиться
анализ слов, но для него необходимо уже не только само слово,
но и стоящие рядом с ним слова.

27. Замечания:

1. Вероятностный метод применим только для
тех языков, у которых четко фиксирован
порядок слов в предложении. Если же
порядок слов можно изменять, то все
возможные
сочетания
грамматических
классов будут практически равновероятны.
2. Если первые два способа анализа (четкая и
нечеткая морфология) на входе принимают
отдельные слова, то вероятностный способ,
напротив, на входе принимает либо все
предложение, либо, по крайней мере,
несколько стоящих рядом слов.

28. Виды автоматического морфологического анализа

29. Важен тип входного словаря

Учитывая связь морфологического анализа со
словарём можно выделить следующие виды
морфологического анализа:
МА со словарём словоформ
МА со словарём основ
МА методом логического умножения
Независимый МА без словаря словоформ

30. МА со словарём словоформ:

• Каждой словоформе приписывается
определённая информация.
• Отыскивается нужное слово,
извлекается информация о нем.

31.

+
1. простота и высокая скорость анализа;
универсальность по отношению по
2. отношению ко множеству всех
возможным словоформ русского языка

32.

1. Большие затраты труда на создание и
поддержание словаря;
2. Невозможность полного размещения
словаря в оперативной памяти при
анализе;
3. Высокая избыточность информации,
связанной с постоянными признаками
каждой словоформы (морфологическими,
синтаксическими, семантическими)

33. МА со словарём основ:

• каждое слово разделяется на основу и
аффикс (окончание, суффикс);
• словарь содержит только основы слов
вместе с ссылками на соответствующие
строки в таблице возможных аффиксов.

34. МА со словарём основ:

• При разбиении слова на основу и
аффикс – основа должна оставаться
неизменной во всех возможных
словоформах данного слова
• Суммарный объем словаря основ и
словаря аффиксов < объем полного
словаря всех словоформ

35.

Иногда используется комбинированный вариант
морфологического анализа (используется как
словарь словоформ, так и словарь основ):
+
Завершение анализа
Использование
словаря
словоформ
-
Использование
словаря основ

36.

+
1. время анализа одного слова может
быть выше, но объем словарей
позволяет загружать словари
целиком;
2. словари значительно легче
создавать, т.к. постоянные
параметры каждого слова вводятся
однократно, вместе с основой.

37.

1. отсутствие универсальности,
существует большое количество слов,
которые нельзя представить в виде
суммы неизменной основы и аффикса.
Например: сущ. «ГОД»
во мн.ч., ед. П – «ЛЕТ»
местоимение «Я»

38. МА методом логического умножения (Варга)

• Каждой морфеме сопоставляется
информация, полученная в результате
объединения информации о словоформах, в
которые входит данная морфема.
• Информация о словоформе получается как
пересечение или логическая конъюнкция (&)
информации о морфемах, входящих в данную
словоформу.

39. МА методом логического умножения (Варга)

• Тем самым функция, определенная на
множестве словоформ, заменяется на
функцию, определенную на множестве
морфем.
• Такой анализ производится при наличии
словаря основ и применяется к флективным
языкам, каждой букве соответствует булевый
вектор (есть 1, нет 0).

40. Независимый МА без словаря словоформ

• Максимальное использование информации о
флексиях во флективных языках.
• Выделяются грамматические морфемы: флексии,
предлоги, союзы, знаки препинания между словами все элементы. передающие связи слов во фразе.
• Группа флексий, характеризующаяся одинаковым
набором грамм. отношений. которые они могут
передавать, образует морфему.

41. Независимый МА без словаря словоформ

• Флексии, входящие в одну морфему, называются
алломорфами, т.е. морфемными синонимами.
• Задача алгоритма состоит в том, чтобы по взаимному
расположению алломорфов отнести каждую флексию
к ее морфеме.
• С этой целью строятся специальные словари:
словари флексий, словари слов, не несущих грамм.
информации. (наречий и т.п.).
• Способ имеет ограниченной применение.

42. Ссылки:

• Зализняк А.А. Грамматический словарь русского
языка. Словоизменение. 3-е изд. М. Русский язык,
1987.
• Гарант-Парк-Интернет. Технологии анализа и поиска
текстовой информации. http://research.metric.ru.
• Кузнецова А.И., Ефремова Т.Ф. Словарь морфем
русского языка. М. Русский язык, 1986.
• Тихонов А.Н. Морфемно-орфографический словарь:
Русская морфемика. М. Школа-Пресс, 1996 SRILM The SRI Language Modeling Toolkit.
http://www.speech.sri.com/projects/srilm.
English     Русский Rules