DIGITAL HUMANITIES
Корпусная лингвистика
Корпусная лингвистика
Корпусная лингвистика
Корпусная лингвистика
Корпусная лингвистика
Корпусная лингвистика
Корпусная лингвистика
Сетевой анализ
Электронная картография
Стилометрия
12.12M
Category: softwaresoftware

Digital Humanities. Корпусная лингвистика

1. DIGITAL HUMANITIES

В некотором царстве, в некотором государстве…
Л.А. Горохова, ПГУ

2. Корпусная лингвистика

3. Корпусная лингвистика

4. Корпусная лингвистика

5. Корпусная лингвистика

6. Корпусная лингвистика

7. Корпусная лингвистика

AntConc
http://www.laurenceanthony.net/software/antconc/
●Поиск и подсчет различных элементов текста
●Анализ частотности и контекста употребления словоформ
●Употребительность словоформ и словосочетаний в разных
текстах
●Возможность подключения пользовательского списка лемм
Корпусная лингвистика

8.

AntConc
http://www.laurenceanthony.net/software/antconc/
File / Open Files / .txt
Tool Preferences / Word List / Word List Range / Use a stoplist below / Add words
from file / Open / english_stopwords.txt / Apply

9.

AntConc
http://www.laurenceanthony.net/software/antconc/
Tool Preferences / Word List / Lemma List / Load / AntBNC_lemmas_var_001.txt /
Apply

10.

AntConc
Word List / Start
Sort by Frequency – сортировка по частоте встречаемости в тексте;
Sort by Word – сортировка по алфавиту
Invert Order – в обратном порядке

11.

AntConc
Чтобы найти конкретное слово, наберите его в поле Search Term и нажмите
Search Only

12.

AntConc
Чтобы получить список всех случаев употребления слова,Ю т.е. конкорданс,
выберите вкладку Concordance / Start.
Сортировать результаты можно по правому или левому контексту (Level 1, Level 2
и Level 3)

13.

AntConc
Чтобы увидеть контекст, выделите пример в списке и откройте File View (или
откройте контекст двойным щелчком мыши)

14.

AntConc
Во вкладке Concordance Plot можно увидеть графики, отражающие употребление
слова в анализируемых текстах.

15.

AntConc
Tool Preferences / Keyword List /
Reference Corpus / Add Files /
Load (загружаем все файлы,
составляющие референтный
корпус).
После этого во вкладке
Keyword List / Start можно
увидеть список необычно часто
или редко встречающихся слов
по сравнению с референтным
корпусом

16.

AntConc
Global Settings / Wildcards –
список условных знаков для
более сложных запросов
(например, *ed – все слова,
оканчивающиеся на -ed)

17. Корпусная лингвистика

Voyant Tools
https://voyanttools.org/
облако слов в
соответствии с
частотностью их
употребления в
тексте
Можно
редактировать
список стоп-слов
Корпусная лингвистика

18.

Voyant Tools
Выделив слово в
облаке, справа
можно увидеть
график употребления
этого слова на
протяжении текста

19.

Voyant Tools
Выделив слово в облаке, можно увидеть конкорданс для этого слова (все
случаи его употребления) в тексте. Нажав на + слева от примера, можно
развернуть контекст.
Можно также выполнить более
сложный поиск по тексту с
помощью специальных знаков
(wildcards)
http://docs.voyant-tools.org/tools/
http://docs.voyant-tools.org/about/examplesgallery/

20. Сетевой анализ

21.

https://ancatmara.gitbooks.io/digital-literacy-for-sfl/content/seminar-11.html

22.

https://ancatmara.gitbooks.io/digital-literacy-for-sfl/content/seminar-11.html

23.

Сетевой анализ позволяет:
Вычислять значимость отдельных узлов по разным критериям (центральность,
betweenness centrality – центральность по посредничеству)
Анализировать пути распространения или передачи чего-либо (информации,
инфекции и т.д.)
Выявлять сообщества
“It’s pretty (and fashionable)”
Ondrej Tichy, Charles University

24.

А.С. Пушкин.
«Борис Годунов»:

25.

А.С. Грибоедов. «Горе от ума»:
Russian Drama Corpus
https://dracor.org/rus
https://shiny.dracor.org/

26.

Gephi
Программа для визуализации графов
https://gephi.org/
https://gephi.org/users/

27.

Gephi
Программа для
визуализации
графов

28.

Easy Linavis
Онлайн-сервис для визуализации графов художественных произведений на
основе простой сегментации
https://ezlinavis.dracor.org/

29. Электронная картография

30.

Электронная картография:
Анализ актуальных тем
https://phys.org/news/2018-04-brexit-debate-twitter-driven-economic.html

31.

Электронная картография:
Нанесение на карту значимых для исследователя объектов (места действия
произведения, достопримечательностей, топонимов арабского
происхождения и т.п.)

32.

Электронная картография:
Нанесение на карту значимых для исследователя объектов (места действия
произведения, достопримечательностей, топонимов арабского
происхождения и т.п.)
Топография террора
https://topos.memo.ru/

33.

Электронная картография:
Нанесение на карту значимых для исследователя объектов (места действия
произведения, достопримечательностей, топонимов арабского
происхождения и т.п.)
Artists in Paris
http://www.artistsinparis.org/

34.

Электронная картография:
Нанесение на карту значимых для исследователя объектов (места действия
произведения, достопримечательностей, топонимов арабского
происхождения и т.п.)
Geocoded Art
http://geocodedart.com/

35.

Электронная картография:
Нанесение на карту связей между объектами (например, между адресатами
писем)
Republic of Letters
http://ink.designhumanities.org/voltaire/

36.

Электронная картография: как сделать?
Carto
Mapbox
Геоинформационные пакеты (ArcGIS, QGIS)
Leaflet, ggmap, plotly (для R)
Folium, plotly (для Python)
Google My Maps
Yandex конструктор карт

37.

QGIS:

38. Стилометрия

39.

40.

41.

Стилометрия
это статистический анализ отклонений между литературными стилями
разных авторов или жанров (Oxford Dictionary)
В основе стилометрии лежит гипотеза о том, что у авторского стиля
есть как осознаваемая, так и не осознаваемая автором составляющая
(Encyclopaedia of Statistical Sciences)
Стилометрические исследования во всем их разнообразии имеют две
общие черты: тексты должны быть каким-то образом преобразованы в
числа, а числа — исследованы статистическими методами (M. Eder, M.
Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses)
Что можно посчитать?
• Слова (частотность)
• N-граммы (цепочки) символов'ая', 'овый', 'остью'
• Леммы (конь/я/ю/ем/ями/ям/ем)
• Части речи
• Синтаксические структуры(в стихах) метр
• общий размер словаря автора/текста
• длина предложения
• знаки препинания
• (в нередактированном тексте) ошибки и особенности пунктуации

42.

Зачем "измерять" текст?
• Споры об авторстве
• Сравнение жанров
• Сравнение мужских и женских текстов
• Сравнение оригиналов и переводов
• Исследования "стилома" человека (т.н. идиостиль); ранние и поздние
тексты
• Forensic linguistics, security and anonymity
Метод Delta
Фактически стандарт в стилометрии с 2002 года
Опирается на частотности слов (или символьных цепочек)
Основан на очень простой математике
Z-score
где
x – частотность слова в тексте
µ - общая частотность слова по корпусу
σ - стандартное отклонение частотности слова по корпусу

43.

Метод Delta
Фактически стандарт в стилометрии с 2002 года
Опирается на частотности слов (или символьных цепочек)
Основан на очень простой математике
Z-score
где
x – частотность слова в тексте
µ - общая частотность слова по корпусу
σ - стандартное отклонение частотности слова по корпусу

44.

Метод Delta
Фактически стандарт в стилометрии с 2002 года
Опирается на частотности слов (или символьных цепочек)
Основан на очень простой математике
Z-score
где
x – частотность слова в тексте
µ - общая частотность слова по корпусу
σ - стандартное отклонение частотности слова по корпусу
для каждого текста получается 100/300/500/1000 таких чисел, и "близость"
авторов можно измерить в 100/300/1000-мерном пространстве

45.

Метод Delta

46.

Стилометрия сегодня:
• Авторство
• Жанры
• Влияние редактора
• Датировка
• Эволюция стиля автора
• Пол, возраст автора
• Перевод и влияние переводчика

47.

Жанры: Шекспир

48.

Датировка: Л.Н. Толстой

49.

Французские романы: оригиналы и переводы на английский язык

50.

Французские романы: оригиналы и переводы на польский язык

51.

Практическое применение стилометрии:
Деанонимизация
разработка стилевых анонимизаторов
определение демографических параметров
определение родного языка по стилю языка неродного

52.

Stylo
Пакет в языке R для стилеметрии
в него встроена Delta
...и еще много других метрик близости
есть приятный графический интерфейс!
https://sites.google.com/site/computationalstylistics/stylo
https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVs
dGRvbWFpbnxjb21wdXRhdGlvbmFsc3R5bGlzdGljc3xneDpmM2U3O
GUzZTM2YjkyYzM
главные функции
stylo ()
classify ()
rolling.delta (), rolling.classify ()
oppose ()

53.

stylo ()
расчет и визуализация стилистической близости
Различные способы кластеризации (группировки) текстов по близости
Отображение многомерного "стилистического пространства" текстов на
плоскости (Principal Component Analysis MDS, tSNE)
списки самых частотных слов, таблицы частотности и т.д.
classify ()
text classification with stylometry features
main tool for actual authorship attribution
employs standard machine-learning algorithms
requires two sets of documents
training (primary_set)
test (secondary_set)
rolling.delta ()
dynamic changes in the text
text window of adjustable size
oppose ()
contrastive analysis
words significantly preferred/avoided
comparison studies (e.g. male vs female styles)
English     Русский Rules