Similar presentations:
Digital Humanities. Корпусная лингвистика
1. DIGITAL HUMANITIES
В некотором царстве, в некотором государстве…Л.А. Горохова, ПГУ
2. Корпусная лингвистика
3. Корпусная лингвистика
4. Корпусная лингвистика
5. Корпусная лингвистика
6. Корпусная лингвистика
7. Корпусная лингвистика
AntConchttp://www.laurenceanthony.net/software/antconc/
●Поиск и подсчет различных элементов текста
●Анализ частотности и контекста употребления словоформ
●Употребительность словоформ и словосочетаний в разных
текстах
●Возможность подключения пользовательского списка лемм
Корпусная лингвистика
8.
AntConchttp://www.laurenceanthony.net/software/antconc/
File / Open Files / .txt
Tool Preferences / Word List / Word List Range / Use a stoplist below / Add words
from file / Open / english_stopwords.txt / Apply
9.
AntConchttp://www.laurenceanthony.net/software/antconc/
Tool Preferences / Word List / Lemma List / Load / AntBNC_lemmas_var_001.txt /
Apply
10.
AntConcWord List / Start
Sort by Frequency – сортировка по частоте встречаемости в тексте;
Sort by Word – сортировка по алфавиту
Invert Order – в обратном порядке
11.
AntConcЧтобы найти конкретное слово, наберите его в поле Search Term и нажмите
Search Only
12.
AntConcЧтобы получить список всех случаев употребления слова,Ю т.е. конкорданс,
выберите вкладку Concordance / Start.
Сортировать результаты можно по правому или левому контексту (Level 1, Level 2
и Level 3)
13.
AntConcЧтобы увидеть контекст, выделите пример в списке и откройте File View (или
откройте контекст двойным щелчком мыши)
14.
AntConcВо вкладке Concordance Plot можно увидеть графики, отражающие употребление
слова в анализируемых текстах.
15.
AntConcTool Preferences / Keyword List /
Reference Corpus / Add Files /
Load (загружаем все файлы,
составляющие референтный
корпус).
После этого во вкладке
Keyword List / Start можно
увидеть список необычно часто
или редко встречающихся слов
по сравнению с референтным
корпусом
16.
AntConcGlobal Settings / Wildcards –
список условных знаков для
более сложных запросов
(например, *ed – все слова,
оканчивающиеся на -ed)
17. Корпусная лингвистика
Voyant Toolshttps://voyanttools.org/
облако слов в
соответствии с
частотностью их
употребления в
тексте
Можно
редактировать
список стоп-слов
Корпусная лингвистика
18.
Voyant ToolsВыделив слово в
облаке, справа
можно увидеть
график употребления
этого слова на
протяжении текста
19.
Voyant ToolsВыделив слово в облаке, можно увидеть конкорданс для этого слова (все
случаи его употребления) в тексте. Нажав на + слева от примера, можно
развернуть контекст.
Можно также выполнить более
сложный поиск по тексту с
помощью специальных знаков
(wildcards)
http://docs.voyant-tools.org/tools/
http://docs.voyant-tools.org/about/examplesgallery/
20. Сетевой анализ
21.
https://ancatmara.gitbooks.io/digital-literacy-for-sfl/content/seminar-11.html22.
https://ancatmara.gitbooks.io/digital-literacy-for-sfl/content/seminar-11.html23.
Сетевой анализ позволяет:Вычислять значимость отдельных узлов по разным критериям (центральность,
betweenness centrality – центральность по посредничеству)
Анализировать пути распространения или передачи чего-либо (информации,
инфекции и т.д.)
Выявлять сообщества
“It’s pretty (and fashionable)”
Ondrej Tichy, Charles University
24.
А.С. Пушкин.«Борис Годунов»:
25.
А.С. Грибоедов. «Горе от ума»:Russian Drama Corpus
https://dracor.org/rus
https://shiny.dracor.org/
26.
GephiПрограмма для визуализации графов
https://gephi.org/
https://gephi.org/users/
27.
GephiПрограмма для
визуализации
графов
28.
Easy LinavisОнлайн-сервис для визуализации графов художественных произведений на
основе простой сегментации
https://ezlinavis.dracor.org/
29. Электронная картография
30.
Электронная картография:Анализ актуальных тем
https://phys.org/news/2018-04-brexit-debate-twitter-driven-economic.html
31.
Электронная картография:Нанесение на карту значимых для исследователя объектов (места действия
произведения, достопримечательностей, топонимов арабского
происхождения и т.п.)
32.
Электронная картография:Нанесение на карту значимых для исследователя объектов (места действия
произведения, достопримечательностей, топонимов арабского
происхождения и т.п.)
Топография террора
https://topos.memo.ru/
33.
Электронная картография:Нанесение на карту значимых для исследователя объектов (места действия
произведения, достопримечательностей, топонимов арабского
происхождения и т.п.)
Artists in Paris
http://www.artistsinparis.org/
34.
Электронная картография:Нанесение на карту значимых для исследователя объектов (места действия
произведения, достопримечательностей, топонимов арабского
происхождения и т.п.)
Geocoded Art
http://geocodedart.com/
35.
Электронная картография:Нанесение на карту связей между объектами (например, между адресатами
писем)
Republic of Letters
http://ink.designhumanities.org/voltaire/
36.
Электронная картография: как сделать?Carto
Mapbox
Геоинформационные пакеты (ArcGIS, QGIS)
Leaflet, ggmap, plotly (для R)
Folium, plotly (для Python)
Google My Maps
Yandex конструктор карт
37.
QGIS:38. Стилометрия
39.
40.
41.
Стилометрияэто статистический анализ отклонений между литературными стилями
разных авторов или жанров (Oxford Dictionary)
В основе стилометрии лежит гипотеза о том, что у авторского стиля
есть как осознаваемая, так и не осознаваемая автором составляющая
(Encyclopaedia of Statistical Sciences)
Стилометрические исследования во всем их разнообразии имеют две
общие черты: тексты должны быть каким-то образом преобразованы в
числа, а числа — исследованы статистическими методами (M. Eder, M.
Kestemont, J. Rybicki. ‘Stylo’: a package for stylometric analyses)
Что можно посчитать?
• Слова (частотность)
• N-граммы (цепочки) символов'ая', 'овый', 'остью'
• Леммы (конь/я/ю/ем/ями/ям/ем)
• Части речи
• Синтаксические структуры(в стихах) метр
• общий размер словаря автора/текста
• длина предложения
• знаки препинания
• (в нередактированном тексте) ошибки и особенности пунктуации
42.
Зачем "измерять" текст?• Споры об авторстве
• Сравнение жанров
• Сравнение мужских и женских текстов
• Сравнение оригиналов и переводов
• Исследования "стилома" человека (т.н. идиостиль); ранние и поздние
тексты
• Forensic linguistics, security and anonymity
Метод Delta
Фактически стандарт в стилометрии с 2002 года
Опирается на частотности слов (или символьных цепочек)
Основан на очень простой математике
Z-score
где
x – частотность слова в тексте
µ - общая частотность слова по корпусу
σ - стандартное отклонение частотности слова по корпусу
43.
Метод DeltaФактически стандарт в стилометрии с 2002 года
Опирается на частотности слов (или символьных цепочек)
Основан на очень простой математике
Z-score
где
x – частотность слова в тексте
µ - общая частотность слова по корпусу
σ - стандартное отклонение частотности слова по корпусу
44.
Метод DeltaФактически стандарт в стилометрии с 2002 года
Опирается на частотности слов (или символьных цепочек)
Основан на очень простой математике
Z-score
где
x – частотность слова в тексте
µ - общая частотность слова по корпусу
σ - стандартное отклонение частотности слова по корпусу
для каждого текста получается 100/300/500/1000 таких чисел, и "близость"
авторов можно измерить в 100/300/1000-мерном пространстве
45.
Метод Delta46.
Стилометрия сегодня:• Авторство
• Жанры
• Влияние редактора
• Датировка
• Эволюция стиля автора
• Пол, возраст автора
• Перевод и влияние переводчика
47.
Жанры: Шекспир48.
Датировка: Л.Н. Толстой49.
Французские романы: оригиналы и переводы на английский язык50.
Французские романы: оригиналы и переводы на польский язык51.
Практическое применение стилометрии:Деанонимизация
разработка стилевых анонимизаторов
определение демографических параметров
определение родного языка по стилю языка неродного
52.
StyloПакет в языке R для стилеметрии
в него встроена Delta
...и еще много других метрик близости
есть приятный графический интерфейс!
https://sites.google.com/site/computationalstylistics/stylo
https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVs
dGRvbWFpbnxjb21wdXRhdGlvbmFsc3R5bGlzdGljc3xneDpmM2U3O
GUzZTM2YjkyYzM
главные функции
stylo ()
classify ()
rolling.delta (), rolling.classify ()
oppose ()
53.
stylo ()расчет и визуализация стилистической близости
Различные способы кластеризации (группировки) текстов по близости
Отображение многомерного "стилистического пространства" текстов на
плоскости (Principal Component Analysis MDS, tSNE)
списки самых частотных слов, таблицы частотности и т.д.
classify ()
text classification with stylometry features
main tool for actual authorship attribution
employs standard machine-learning algorithms
requires two sets of documents
training (primary_set)
test (secondary_set)
rolling.delta ()
dynamic changes in the text
text window of adjustable size
oppose ()
contrastive analysis
words significantly preferred/avoided
comparison studies (e.g. male vs female styles)