Similar presentations:
Разные подходы к анализу и моделированию текстов. Влияние разницы подходов на итоговый текст
1.
Разные подходы к анализу и моделированию текстов.Влияние разницы подходов на итоговый текст.
АЛТУНИНА Е., БЕРЕЖНОВ Д., ВЕНЕДИКТОВА Е.
2.
Автоматический анализПри автоматическом анализе текст последовательно преобразуется в его лексемноморфологические, синтаксические и семантические представления, понятные
компьютеру.
Автоматический анализ подразделяется на несколько этапов:
1) Графематический анализ
2) Морфологический анализ
3) Синтаксический анализ
4) Семантический анализ
3.
Контент-анализКонтент-анализ — формализованный метод
изучения текстовой и графической информации,
заключающийся в переводе изучаемой
информации в количественные показатели и ее
статистической обработке. Характеризуется
большой строгостью, систематичностью.
4.
Нарративныйанализ
Нарративный анализ - это метод
обобщения прошлого опыта при помощи
соотнесения последовательности слов в
предложении и последовательности
реальных событий
5.
Дискурс-анализДискурс-анализ — это совокупность
методик и техник интерпретации
текстов или высказываний как
продуктов речевой деятельности,
осуществляемой в конкретных
общественно-политических
обстоятельствах и культурноисторических условиях.
6.
Тематическое моделированиеТематическое моделирование — это способ
построения модели корпуса текстов, отражающий
переход от совокупности документов,
совокупности слов в документах к набору тем,
характеризующих содержание данных документов.
7.
Векторная модель текстовВекторная модель текстов — это способ
представления коллекции документов в виде
векторов из общего для всей коллекции
векторного пространства.
8.
Латентно семантический анализ(ЛСА, LSA)
Латентно семантический анализ (ЛСА, LSA) — это статистический
метод обработки текстовой информации на естественном языке,
позволяющий определить взаимосвязь между коллекциями документов
и терминами, в них встречающимися.
9.
Вероятностный латентносемантический анализВероятностный латентно-семантический анализ — это статистический метод анализа
корреляций двух типов данных.
10.
Латентное размещение ДирихлеЛатентное размещение Дирихле — применяемая в
информационном поиске порождающая модель,
позволяющая объяснить результаты наблюдений с помощью
неявных (латентных) групп.
w - слово
t -тема
D - коллекция документов
N - длина документа в словах
K - кол-во символов тем в коллекции
⊝ - распределение тем в документе
Φ - распределение слов в теме
11.
Ссылки1. URL https://dspace.susu.ru/xmlui/bitstream/handle/0001.74/3143/3.pdf?sequen- О.В. Митина, А.С.
Евдокименко МЕТОДЫ АНАЛИЗА ТЕКСТА: МЕТОДОЛОГИЧЕСКИЕ ОСНОВАНИЯ И ПРОГРАММНАЯ
РЕАЛИЗАЦИЯ (дата обращения: 04.04.2020).
2. Лушков Н. А. Анализ методов тематического моделирования текстов на естественном языке // Молодой
ученый. — 2018. — №19. — С. 101-103. — URL https://moluch.ru/archive/205/50247/ (дата обращения:
04.04.2020).