НКРЯ: постоянно пополняемый мега-ресурс. Часть 1. Простой поиск в НКРЯ. www.ruscorpora.ru
Определения: корпус, корпус 1-го порядка
Структура корпуса
Определения: конкорданс
/!Зачем лингвисту нужны контексты
Та же выдача в форматe KWIC (Key Word In Context)
/Ex-2
/Ex-3
Ex: выдача НКРЯ: адаптированный просмотр тегов словоформы
А здесь – не адаптированный
Структура морфологической пометы
Образец текста с морфологической разметкой
 Демонстрация
Параллельный корпус НКРЯ
Применение параллельного корпуса для изучения практики перевода экзотизмов
Применение параллельного корпуса для изучения культурно-специфичного употребления слов
1.28M
Categories: internetinternet programmingprogramming

НКРЯ: постоянно пополняемый мега-ресурс. Часть 1. Простой поиск в НКРЯ

1. НКРЯ: постоянно пополняемый мега-ресурс. Часть 1. Простой поиск в НКРЯ. www.ruscorpora.ru

2.

Виды решаемых
лингвистических задач:
•поиск контекстов с заданными
лингвистическими
характеристиками,
•получение лингвистических
данных по размеченным
коллекциям текстов (корпусам
текстов),
•получение количественных
данных,
•поиск контекстов заданной
структуры,
•поиск вариантов заданной
структуры,
•получение KWIC
•…

3. Определения: корпус, корпус 1-го порядка

ЛИНГВИСТИЧЕСКИЙ КОРПУС ТЕКСТОВ – унифицированный,
структурированный, представленный в электронном виде
филологически компетентный массив языковых данных,
отвечающий следующим формальным требованиям:
– объем не менее 100 млн. словоупотр.,
– наличие одного и более видов [выполненной по некоторому
стандарту] разметки [например: метаразметки; просодической,
семантической, морфологической, синтаксической], такой, что
интерпретируется корпус-менеджером для извлечения
фрагмента текста с заданными значениями разметки/разметок,
заданной длины.
КОРПУС ПЕРВОГО ПОРЯДКА – электронная текстовая
коллекция (объединение по признаку языка, жанра, времени
создания), интерпретируемая ~корпус-менеджером.

4. Структура корпуса

Размеченная коллекция текстов
+
Корпус-менеджер

5. Определения: конкорданс

[англ. concordance - согласие, соответствие < лат. concordare - согласовываться, приводить к
согласию]
1. Расположенный в алфавитном порядке перечень всех встречающихся в
книге слов (или сходных по содержанию мест) с минимальным
контекстом (в несколько слов). Имеются к. многих значительных текстов:
"Библии", сочинений Шекспира, Пушкина и др.;
2. Особый тип словаря, в котором каждое слово приводится с минимальным
контекстом.
(Словарь иностранных слов. Комлев Н.Г., 2006)
1. Алфавитный указатель слов, встречающихся в какой-либо книге, с
приведением цитат, в которых эти слова встречаются. Термин отмечается
в истории перевода и истории лексикографии у некоторых авторов.
2. Словарь, в котором словарные единицы сгруппированы по ключевым
словам, взятым в контекстном окружении.
(Толковый переводоведческий словарь. Л.Л. Нелюбин. 2003)

6. /!Зачем лингвисту нужны контексты


Исследования по семантике,
Исторической семантике,
Культуре речи,
Грамматические исследования

/ Ex-1.

7. Та же выдача в форматe KWIC (Key Word In Context)

8. /Ex-2

9.

Запрос: рухлядь; сортировка= по дате создания; формат= обычный

10.

Запрос: рухлядь; сортировка= по дате создания; формат= KWIC

11. /Ex-3

12.

Запрос: Adj+человек; сортировка= по дате создания; формат=
KWIC; цель: …; недостаток (см. MI)

13. Ex: выдача НКРЯ: адаптированный просмотр тегов словоформы

!принципиальная особенность корпуса: лингв. разметка
возможность поиска по тегам лингворазметки

14. А здесь – не адаптированный

15. Структура морфологической пометы

Цитата из лекции Д.В.Сичинавы: Морфологическая информация в НКРЯ, 2010
Структура морфологической пометы
<w><ana lex='академия'
gr='S,f,inan=pl,gen=anom'></ana>акад`емиев</w>
поле лексемы
поле грамматических признаков:
признаки лексемы
признаки словоформы
информация о нестандартности формы и/или способе
записи
поле словоформы (в корпусе со снятой омонимией
большинство словоформ автоматически акцентуировано)

16. Образец текста с морфологической разметкой

Цитата из лекции Д.В.Сичинавы: Морфологическая информация в НКРЯ, 2010
Образец текста
с морфологической разметкой
<ob n="к_тому_же=СОЮЗ">,
<w><ana lex='к' gr='PR='></ana>к</w>
<w><ana lex='то' gr='S-PRO,n,sg=dat'></ana>тому</w>
<w><ana lex='же' gr='PART='></ana>же</w></ob>
<w><ana lex='его' gr='A-PRO='></ana>его</w>
<w><ana lex='учение' gr='S,n,inan=sg,nom'></ana>уч`ение</w></gr>
<w><ana lex='быть' gr='V,ipf,intr,act=n,sg,praet'></ana>б`ыло</w>
<w><ana lex='понятный' gr='A=n,sg,brev'></ana>пон`ятно</w>
<w><ana lex='любой' gr='A-PRO=m,sg,dat'></ana>люб`ому</w>
<w><ana lex='невежда' gr='S,m-f,anim=sg,dat'></ana>нев`ежде</w>,
<w><ana lex='каждый' gr='A-PRO=m,sg,nom'></ana>к`аждый</w>
<w><ana lex='становиться' gr='V,ipf,intr,med=m,sg,praet'></ana>станов`ился</w>
<w><ana lex='посвященный' gr='A=m,sg,ins,plen'></ana>посвящённым</w>.</se>

17.  Демонстрация

Демонстрация
Животолюбивый человек
---------------Что с кофе?
--------------Экстракт из …
--------------Графики в НКРЯ

18.

19.

20.

21.

22.

23. Параллельный корпус НКРЯ

Параллельный корпус текстов совокупность документов,
переведенных на два или более
языков,
выровненных по предложениям и
размеченных,
написанных на одну тему и на одном
языке авторами с разными родными
языками

24. Применение параллельного корпуса для изучения практики перевода экзотизмов

25.

26.

/Переводчик один и тот же

27. Применение параллельного корпуса для изучения культурно-специфичного употребления слов

28.

29.

30.

Другие корпусы
English     Русский Rules