866.89K
Category: informaticsinformatics

Разные подходы к анализу и моделированию текстов. Влияние разницы подходов на итоговый текст

1.

Разные подходы к анализу и моделированию текстов.
Влияние разницы подходов на итоговый текст.
АЛТУНИНА Е., БЕРЕЖНОВ Д., ВЕНЕДИКТОВА Е.

2.

Автоматический анализ
При автоматическом анализе текст последовательно преобразуется в его лексемноморфологические, синтаксические и семантические представления, понятные
компьютеру.
Автоматический анализ подразделяется на несколько этапов:
1) Графематический анализ
2) Морфологический анализ
3) Синтаксический анализ
4) Семантический анализ

3.

Контент-анализ
Контент-анализ — формализованный метод
изучения текстовой и графической информации,
заключающийся в переводе изучаемой
информации в количественные показатели и ее
статистической обработке. Характеризуется
большой строгостью, систематичностью.

4.

Нарративный
анализ
Нарративный анализ - это метод
обобщения прошлого опыта при помощи
соотнесения последовательности слов в
предложении и последовательности
реальных событий

5.

Дискурс-анализ
Дискурс-анализ — это совокупность
методик и техник интерпретации
текстов или высказываний как
продуктов речевой деятельности,
осуществляемой в конкретных
общественно-политических
обстоятельствах и культурноисторических условиях.

6.

Тематическое моделирование
Тематическое моделирование — это способ
построения модели корпуса текстов, отражающий
переход от совокупности документов,
совокупности слов в документах к набору тем,
характеризующих содержание данных документов.

7.

Векторная модель текстов
Векторная модель текстов — это способ
представления коллекции документов в виде
векторов из общего для всей коллекции
векторного пространства.

8.

Латентно семантический анализ
(ЛСА, LSA)
Латентно семантический анализ (ЛСА, LSA) — это статистический
метод обработки текстовой информации на естественном языке,
позволяющий определить взаимосвязь между коллекциями документов
и терминами, в них встречающимися.

9.

Вероятностный латентносемантический анализ
Вероятностный латентно-семантический анализ — это статистический метод анализа
корреляций двух типов данных.

10.

Латентное размещение Дирихле
Латентное размещение Дирихле — применяемая в
информационном поиске порождающая модель,
позволяющая объяснить результаты наблюдений с помощью
неявных (латентных) групп.
w - слово
t -тема
D - коллекция документов
N - длина документа в словах
K - кол-во символов тем в коллекции
⊝ - распределение тем в документе
Φ - распределение слов в теме

11.

Ссылки
1. URL https://dspace.susu.ru/xmlui/bitstream/handle/0001.74/3143/3.pdf?sequen- О.В. Митина, А.С.
Евдокименко МЕТОДЫ АНАЛИЗА ТЕКСТА: МЕТОДОЛОГИЧЕСКИЕ ОСНОВАНИЯ И ПРОГРАММНАЯ
РЕАЛИЗАЦИЯ (дата обращения: 04.04.2020).
2. Лушков Н. А. Анализ методов тематического моделирования текстов на естественном языке // Молодой
ученый. — 2018. — №19. — С. 101-103. — URL https://moluch.ru/archive/205/50247/ (дата обращения:
04.04.2020).
English     Русский Rules