Тематическое моделирование. Формальные модели в лингвистике

1.

Формальные модели в лингвистике
Лекция 11. Тематическое моделирование
МАМАЕВ И.Д.,
ПРЕПОДАВАТЕЛЬ КАФЕДРЫ Р7

Тематическое моделирование
Тематическое моделирование — «способ построения модели текстовой коллекции,
отражающий переход от совокупности документов, совокупности слов в документах
коллекции к набору тем, характеризующих текстовую коллекцию». [Митрофанова 2013].
Тематические модели — модели со скрытыми переменными (факторами), задающими
тематику текстов. Для выявления этих скрытых переменных лучше всего применять
нечеткую кластеризацию — разбиение текстов на пересекающиеся классы.
В тематических моделях используется подход к обработке текстовых данных,
называемый bag-of-words: способ упорядочения слов внутри документов не имеет
значения.

3.

Темы, выделенные для корпуса
издательства Associated Press
А как же сочетания длиной 2 и более?

4.

Типы тематических моделей
В практических разработках последних лет широко используется ряд методов
тематического моделирования.
Среди алгебраических моделей текста, на которые опираются процедуры тематического
моделирования, наиболее распространены стандартная векторная модель текста VSM
(Vector Space Model) и латентно-семантический анализ LSA (Latent Semantic Analysis).
Среди вероятностных (генеративных) моделей наиболее всего применяются
вероятностный латентно-семантический анализ pLSA (probalilistic Latent Semantic
Analysis), латентное размещение Дирихле LDA (Latent Dirichlet Allocation).

5.

Vector Space Model
В VSM текст описывается матрицей совместной встречаемости «термы-термы» или
«термы-документы».
Словам или текстам ставятся в соответствие вектора в n-мерном пространстве.
Cравнение векторов (как правило, определение косинуса угла между векторами)
позволяет оценить, насколько слово характерно для некого документа, насколько
связаны слова между собой в документе, насколько близки документы.
Недостатки VSM связаны с неудобством использования d работе с текстами больших
объемов, с невозможностью учесть синонимические отношения между словами и их
многозначность.

6.

Latent Semantic Analysis
Модель LSA наследует основные характеристики VSM, однако в LSA для сокращения
размерности признакового пространства и для выявления наиболее значимых слов в
текстах используется сингулярное разложение матрицы совместной встречаемости
(Singular Value Decomposition, SVD).
В отличие от VSM, модель LSA пригодна для описания больших текстовых
коллекций и позволяет частично учесть контекстную синонимию, однако не
справляется с многозначностью.
Также в LSA сложно заранее задать ожидаемое число тем, приписать метку темы,
используя какое-либо ключевое слово из этой темы.

7.

Singular Value Decomposition

8.

pLSA и LDA
Модель pLSA являет собой вероятностную модификацию LSA. В pLSA порождение
документа, характеризующих его тем, ключевых слов в этой теме производится в
соответствии с методом Байеса. Модель pLSA отчасти учитывает многозначность слов
(т. е. в разных значениях многозначные слова могут представлять разные темы).
Основные недостатки pLSA связаны с риском переобучения модели, а также со
сложностью добавления новых документов в текстовую коллекцию.
Модель LDA сглаживает шероховатости, имеющиеся в предыдущих моделях. В модели
LDA, опирающейся на распределение Дирихле, каждая тема характеризуется
вероятностным распределением на множестве слов в текстовой коллекции, а документы
описываются семейством распределений тем. LDA позволяет описывать корпуса текстов
очень большого объема, в одну тему могут попадать слова разных частей речи, однако
данная модель не предусматривает установление связей между темами.

9.

Примеры
исследований
лингвистических
[Кирина 2022].
Корпус русского рассказа первой трети XX в. разрабатывается с целью сохранения
национального
литературного
наследия,
построения
модели
литературнохудожественной системы в рамках одного жанра и проведения различных пилотных
экспериментов [Martynenko, Sherstinova, 2020]. Аннотированный подкорпус, на базе
которого проводится данное исследование, включает в себя 310 рассказов, написанных
300 авторами, и содержит метаинформацию в соответствие со следующими
историческими периодами: период I (1900–1913): предреволюционные годы, Русскояпонская война; период II (1914–1922): Первая мировая война, Февральская и
Октябрьская
революции,
Гражданская
война;
период
III
(1923–1930):
послереволюционные годы с окончания Гражданской войны до 1930-х гг.

10.

11.

Примеры
исследований
лингвистических

12.

Примеры
исследований
лингвистических
Тема t_3 «ЗАКЛЮЧЕНИЕ В ТЮРЬМЕ И КАЗНЬ» объединяет тематически связанные
«Рассказ о семи повешенных» Л. Андреева и рассказы «Тюрьма» М. Горького и
«Баррикада» Г. Яблочкова. Стоит также отметить, что слово лагерь, несмотря
значительную связность других терм топика, здесь не указывает на лагерь, например,
военнопленных, а используется для обозначения больших групп людей, в том числе
массовых сборищ:
«Произвольно и несправедливо всё это... Разве можно делить людей только на два
лагеря?.. А например – я? Ведь, в сущности, я – не господин и не раб!» (М. Горький
«Тюрьма»)
…идут толпами, – что там уже толпа, – целый лагерь, с ночлегами и чуть ли даже не с
палатками (Ф. Сологуб «В толпе»).

13.

Примеры
исследований
лингвистических
[Mamaev, Mamaeva, Aksenova 2023].
Тематическое моделирование как инструмент изучения семантических сдвигов.
Семантический сдвиг в узком понимании — изменение лексического значения слова со
временем под влиянием нелингвистических факторов.
Семантический сдвиг в широком понимании — изменение тематического набора слов
рубрики со временем под влиянием нелингвистических факторов.
Корпус социальной сети «Лентач» с начала 2019 по начало 2022 гг.

14.

Примеры
исследований
лингвистических

15.

Примеры
исследований
лингвистических

English Русский Rules