Similar presentations:
НКРЯ: постоянно пополняемый мега-ресурс. Часть 1. Простой поиск в НКРЯ
1. НКРЯ: постоянно пополняемый мега-ресурс. Часть 1. Простой поиск в НКРЯ. www.ruscorpora.ru
2.
Виды решаемыхлингвистических задач:
•поиск контекстов с заданными
лингвистическими
характеристиками,
•получение лингвистических
данных по размеченным
коллекциям текстов (корпусам
текстов),
•получение количественных
данных,
•поиск контекстов заданной
структуры,
•поиск вариантов заданной
структуры,
•получение KWIC
•…
3. Определения: корпус, корпус 1-го порядка
ЛИНГВИСТИЧЕСКИЙ КОРПУС ТЕКСТОВ – унифицированный,структурированный, представленный в электронном виде
филологически компетентный массив языковых данных,
отвечающий следующим формальным требованиям:
– объем не менее 100 млн. словоупотр.,
– наличие одного и более видов [выполненной по некоторому
стандарту] разметки [например: метаразметки; просодической,
семантической, морфологической, синтаксической], такой, что
интерпретируется корпус-менеджером для извлечения
фрагмента текста с заданными значениями разметки/разметок,
заданной длины.
КОРПУС ПЕРВОГО ПОРЯДКА – электронная текстовая
коллекция (объединение по признаку языка, жанра, времени
создания), интерпретируемая ~корпус-менеджером.
4. Структура корпуса
Размеченная коллекция текстов+
Корпус-менеджер
5. Определения: конкорданс
[англ. concordance - согласие, соответствие < лат. concordare - согласовываться, приводить ксогласию]
1. Расположенный в алфавитном порядке перечень всех встречающихся в
книге слов (или сходных по содержанию мест) с минимальным
контекстом (в несколько слов). Имеются к. многих значительных текстов:
"Библии", сочинений Шекспира, Пушкина и др.;
2. Особый тип словаря, в котором каждое слово приводится с минимальным
контекстом.
(Словарь иностранных слов. Комлев Н.Г., 2006)
1. Алфавитный указатель слов, встречающихся в какой-либо книге, с
приведением цитат, в которых эти слова встречаются. Термин отмечается
в истории перевода и истории лексикографии у некоторых авторов.
2. Словарь, в котором словарные единицы сгруппированы по ключевым
словам, взятым в контекстном окружении.
(Толковый переводоведческий словарь. Л.Л. Нелюбин. 2003)
6. /!Зачем лингвисту нужны контексты
Исследования по семантике,
Исторической семантике,
Культуре речи,
Грамматические исследования
…
/ Ex-1.
7. Та же выдача в форматe KWIC (Key Word In Context)
8. /Ex-2
9.
Запрос: рухлядь; сортировка= по дате создания; формат= обычный10.
Запрос: рухлядь; сортировка= по дате создания; формат= KWIC11. /Ex-3
12.
Запрос: Adj+человек; сортировка= по дате создания; формат=KWIC; цель: …; недостаток (см. MI)
13. Ex: выдача НКРЯ: адаптированный просмотр тегов словоформы
!принципиальная особенность корпуса: лингв. разметкавозможность поиска по тегам лингворазметки
14. А здесь – не адаптированный
15. Структура морфологической пометы
Цитата из лекции Д.В.Сичинавы: Морфологическая информация в НКРЯ, 2010Структура морфологической пометы
<w><ana lex='академия'
gr='S,f,inan=pl,gen=anom'></ana>акад`емиев</w>
поле лексемы
поле грамматических признаков:
признаки лексемы
признаки словоформы
информация о нестандартности формы и/или способе
записи
поле словоформы (в корпусе со снятой омонимией
большинство словоформ автоматически акцентуировано)
16. Образец текста с морфологической разметкой
Цитата из лекции Д.В.Сичинавы: Морфологическая информация в НКРЯ, 2010Образец текста
с морфологической разметкой
<ob n="к_тому_же=СОЮЗ">,
<w><ana lex='к' gr='PR='></ana>к</w>
<w><ana lex='то' gr='S-PRO,n,sg=dat'></ana>тому</w>
<w><ana lex='же' gr='PART='></ana>же</w></ob>
<w><ana lex='его' gr='A-PRO='></ana>его</w>
<w><ana lex='учение' gr='S,n,inan=sg,nom'></ana>уч`ение</w></gr>
<w><ana lex='быть' gr='V,ipf,intr,act=n,sg,praet'></ana>б`ыло</w>
<w><ana lex='понятный' gr='A=n,sg,brev'></ana>пон`ятно</w>
<w><ana lex='любой' gr='A-PRO=m,sg,dat'></ana>люб`ому</w>
<w><ana lex='невежда' gr='S,m-f,anim=sg,dat'></ana>нев`ежде</w>,
<w><ana lex='каждый' gr='A-PRO=m,sg,nom'></ana>к`аждый</w>
<w><ana lex='становиться' gr='V,ipf,intr,med=m,sg,praet'></ana>станов`ился</w>
<w><ana lex='посвященный' gr='A=m,sg,ins,plen'></ana>посвящённым</w>.</se>
17. Демонстрация
ДемонстрацияЖивотолюбивый человек
---------------Что с кофе?
--------------Экстракт из …
--------------Графики в НКРЯ
18.
19.
20.
21.
22.
23. Параллельный корпус НКРЯ
Параллельный корпус текстов совокупность документов,переведенных на два или более
языков,
выровненных по предложениям и
размеченных,
написанных на одну тему и на одном
языке авторами с разными родными
языками