Корпусна лінгвістика (2 год.)
Дякуємо за увагу!
2.41M
Category: lingvisticslingvistics

Корпусна лінгвістика

1. Корпусна лінгвістика (2 год.)

Лекція №6
Корпусна лінгвістика (2 год.)
L/O/G/O
www.themegallery.com

2.

Мета: з’ясувати об'єкт, предмет і завдання корпусної
лінгвістики; ознайомитися з типами корпусами текстів,
наявними в мережі Інтернет; розглянути програмні
засоби для роботи з корпусами текстів.
L/O/G/O
www.themegallery.com

3.

План
1.Об'єкт, предмет і завдання корпусної лінгвістики.
2.Корпуси текстів та засади їх створення.
3.Характеристика найвідоміших корпусів текстів.
4.Особливості використання корпусних менеджерів.
L/O/G/O
www.themegallery.com

4.

Рекомендована література та посилання:
а) основна література:
•Дарчук Н. П. Комп'ютерна лінгвістика (автоматичне
опрацювання тексту): підручник. – К.: Видавничополіграфічний центр «Київський університет», 2008. – 351 с.
•Карпіловська Євгенія Анатоліївна. Вступ до прикладної
лінгвістики : комп’ютерної лінгвістики : Підручник / Євгенія
Анатоліївна Карпіловська. – Донецьк : ТОВ «Юго-Восток,
ЛТД», 2006. – 188 с.
L/O/G/O
www.themegallery.com

5.

Рекомендована література та посилання:
б) додаткова література:
•Баранов Анатолий Николаевич. Введение в прикладную
лингвистику. – М.: Едиториал УРСС, 2003. – 360 с.
•Демська-Кульчицька О. Основи національного корпусу
української мови.– К.: Інститут українсьокї мови національної
академії наук України, 2005. – 219 с.
•Корпусна лінгвістика / В. А. Широков, О. В. Бугаков,
Т. О. Грязнухіна та ін. – К.: Довіра, 2005. – 471 с.
•Зубов А. В. Информационные технологии в лингвистике: Учеб.
пособие для студ. лингв. фак-тов высш. учеб. заведений/ А. В. Зубов,
L/O/G/O
И. И. Зубова – М.: Издательский центр «Академия», 2004.

208
с.
www.themegallery.com

6.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
КОРПУСИ ТЕКСТІВ ЛАБОРАТОРІЇ КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ
КНЛУ – http://complinguide.com.ua/Corpora.aspx
L/O/G/O
www.themegallery.com

7.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
КОРПУС ТЕКСТІВ З КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ – http://
csit2009.org/content/korpus-tekstiv-z-komp%E2%80%99yuternoyi-lingvistyky
L/O/G/O
www.themegallery.com

8.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
КОРПУС УКРАЇНСЬКОЇ МОВИ ЛАБОРАТОРІЇ КОМП'ЮТЕРНОЇ
ЛІНГВІСТИКИ КИЇВСЬКОГО НАЦІОНАЛЬНОГО УНІВЕРСИТЕТУ ІМЕНІ
ТАРАСА ШЕВЧЕНКА (доступний для онлайн-пошуку) – http://
www.mova.info/corpus.aspx?l1=209
L/O/G/O
www.themegallery.com

9.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
УКРАЇНСЬКИЙ НАЦІОНАЛЬНИЙ ЛІНГВІСТИЧНИЙ КОРПУС (42
мільйони слововживань) – http://lcorp.ulif.org.ua/virt_unlc/
L/O/G/O
www.themegallery.com

10.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
УКРАЇНСЬКИЙ МОВНО-ІНФОРМАЦІЙНИЙ ФОНД НАН УКРАЇНИ –
http://lcorp.ulif.org.ua/
L/O/G/O
www.themegallery.com

11.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
ОНЛАЙН-КОНКОРДАНС РОМАНУ ІВАНА ФРАНКА «ПЕРЕХРЕСНІ
СТЕЖКИ» – http://www.ktf.franko.lviv.ua/~andrij/science/Franko/concordance.html
L/O/G/O
www.themegallery.com

12.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
ПАРАЛЕЛЬНИЙ РОСІЙСЬКО-УКРАЇНСЬКИЙ КОРПУС НА САЙТІ
НАЦІОНАЛЬНОГО КОРПУСУ РОСІЙСЬКОЇ МОВИ – http://
www.ruscorpora.ru/corpora-other.html
L/O/G/O
www.themegallery.com

13.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
ПАРАЛЕЛЬНИЙ ПОЛЬСЬКО-УКРАЇНСЬКИЙ КОРПУС –
http://www.domeczek.pl/~polukr/index.php?option=welcome
L/O/G/O
www.themegallery.com

14.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
БРИТАНСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (BNC) - 100 мільйонів слів зразків письмового й усного мовлення з широкого діапазону джерел –
http://www.natcorp.ox.ac.uk/
L/O/G/O
www.themegallery.com

15.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
АМЕРИКАНСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (ANC) –
http://www.americannationalcorpus.org/
L/O/G/O
www.themegallery.com

16.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
КОРПУС ПОЛЬСЬКОЇ МОВИ (KORPUS JĘZYKA POLSKIEGO PWN).
Польського наукового видавництва при Польській Академії наук. –
http://korpus.pwn.pl/
L/O/G/O
www.themegallery.com

17.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
ЧЕСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (ČESKÝ NÁRODNÍ KORPUS) –
http://ucnk.ff.cuni.cz/
L/O/G/O
www.themegallery.com

18.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
ІРЛАНДСЬКИЙ КОРПУС ЕЛЕКТРОННИХ ТЕКСТІВ: Онлайн-ресурси з
ірландської історії, літератури, політики - C.E.L.T. Давньоірландські оригінали
кельтських саг (скел), поезія бардів, давньоірландська лірична поезія, літописи,
клерикальна література, граматики, латинські тексти, англійські переклади - http
://www.ucc.ie/celt/publishd.html
L/O/G/O
www.themegallery.com

19.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
НАЦІОНАЛЬНИЙ КОРПУС РОСІЙСЬКОЇ МОВИ – http://www.ruscorpora.ru
/
L/O/G/O
www.themegallery.com

20.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
ЛАБОРАТОРІЯ ЗАГАЛЬНОЇ І КОМП’ЮТЕРНОЇ ЛЕКСИКОЛОГІЇ ТА
ЛЕКСИКОГРАФІЇ – http://www.philol.msu.ru/~lex/main.htm/
L/O/G/O
www.themegallery.com

21.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
«КОМП’ЮТЕРНИЙ КОРПУС ТЕКСТІВ РОСІЙСЬКИХ ГАЗЕТ КІНЦА ХХ
ст.» – (Демонстраційний варіант близько 200 тис. слововживань) –
http://209.85.135.132/search?q=cache:63wxC-8EgdcJ:www.philol.msu.ru/~lex/corpus/+
корпус+текстов+TRACTOR&cd=4&hl=uk&ct=clnk&gl=ua
L/O/G/O
www.themegallery.com

22.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
ПЕРЕЛІК ПОСИЛАНЬ НА ЛІНГВІСТИЧНІ КОРПУСИ НА САЙТІ
НАЦІОНАЛЬНОГО КОРПУСУ РОСІЙСЬКОЇ МОВИ (рос.) – http://
www.ruscorpora.ru/corpora-other.html
L/O/G/O
www.themegallery.com

23.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
КАТАЛОГ НИХ МЕНЕДЖЕРІВ І ЛІНГВІСТИЧНИХ ПРОГРАМ У МЕРЕЖІ
ІНТЕРНЕТ – http://www.rvb.ru/soft/catalogue/catalogue.html#TextAnalysis
L/O/G/O
www.themegallery.com

24.

Рекомендована література та посилання:
в) посилання на джерела в Інтернеті:
КОРПУСНА ІНФОРМАЦІЙНО-ДОСЛІДНИЦЬКА СИСТЕМА (КИИСА) –
http://www.philol.msu.ru/~lex/kiisa.html\
L/O/G/O
www.themegallery.com

25.

ВИЗНАЧЕННЯ ОСНОВНИХ ТЕРМІНОЛОГІЧНИХ ПОНЯТЬ
Корпусна лінгвістика - дисципліна в межах
комп'ютерної лінгвістики, предметом якої є комплекс
теоретичних
та
процедурних
завдань,
що
забезпечують
формування
корпусів
текстів
(=текстозорієнтованих баз даних) та їх аналізу.
Об'єктом корпусної лінгвістики є корпус, а
предметом – комплекс теоретичних та процедурних
завдань, що забезпечують формування корпусів
текстів.
L/O/G/O
www.themegallery.com

26.

Напрями створення текстозорієнтованих баз
даних:
- формування
корпусів
текстів,
або
повнотекстових баз даних;
- створення
електронних
картотек,
або
ілюстративних баз даних, або баз цитат.
L/O/G/O
www.themegallery.com

27.

ВИЗНАЧЕННЯ ОСНОВНИХ ТЕРМІНОЛОГІЧНИХ ПОНЯТЬ
ПОВНОТЕКСТОВА
БАЗА
ДАНИХ
(=КОРПУС ТЕКСТІВ) - упорядкована сукупність
текстів у цілісному вигляді.
ЕЛЕКТРОННА
КАРТОТЕКА
(=ІЛЮСТРАТИВНА БАЗА ДАНИХ, БАЗА
ЦИТАТ) - організована сукупність мовних одиниць
(слів, словосполук) з інформацією про їхнє вживання
в тексті.
L/O/G/O
www.themegallery.com

28.

За
повнотою
представлення
функціонування мовної системи можна
виділити фундаментальні та дослідницькі
(=пошукові) корпуси текстів.
L/O/G/O
www.themegallery.com

29.

ВИЗНАЧЕННЯ ОСНОВНИХ ТЕРМІНОЛОГІЧНИХ ПОНЯТЬ
Фундаментальна п.б.д. (=к.т.) - максимально
повна й представницька сукупність текстів певною
мовою.
Дослідницька (пошукова) п.б.д. (=к.т.) сукупність текстів, за обсягом і якістю джерел
достатня
для
виконаннях
певних
класів
дослідницьких завдань.
L/O/G/O
www.themegallery.com

30.

Олександр Сергійович Герд запропонував розрізняти корпуси
текстів реєструвального та інтерпретаційного, або дослідницького
типу. Перші становлять фактичне підґрунтя для створення других.
Реєструвальні корпуси подають тексти як цілісні об'єкти, як факт
реалізації мовної системи.
Корпуси інтерпретаційні становлять інформаційно-довідкові та
дослідницькі системи, що дають користувачеві змогу одержувати з
корпусу текстів потрібну йому інформацію про окремі мовні об'єкти та
їхні властивості.
L/O/G/O
www.themegallery.com

31.

2. Корпуси текстів та засади їх створення
Корпус текстів характеризується чотирма
основними параметрами:
по-перше, він повинен бути достатньо великого
обсягу;
по-друге, корпус повинен бути структурованим
або розміченим;
по-третє, тексти, складові певного корпусу,
повинні бути в електронному варіанті;
по-четверте, в поняття «Електронний корпус»
входить, як правило, спеціальне програмне
забезпечення для роботи з цим корпусом.
L/O/G/O
www.themegallery.com

32.

Цінність корпусу вбачається в наступному:
одного разу зроблений корпус може багато разів використовуватися;
корпус показує мовні дані в їх реальному оточенні, що дозволяє
досліджувати лексичну і граматичну структуру мови, а також безперервні
процеси мовних змін, що відбуваються в мові впродовж певного відрізка
часу;
корпус характеризується збалансованим складом текстів, що дозволяє
використовувати його для тестування пошукових машин, автоматичних
аналізаторів та синтезаторів текстів, систем перекладу, а також
використовувати його в різних лінгвістичних дослідженнях;
корпус має важливе значення для викладання мови, оскільки за допомогою
корпусу можна швидко і ефективно перевірити особливості вживання
незнайомого слова або граматичної форми.
L/O/G/O
www.themegallery.com

33.

Розмітка ( tagging, annotation ) полягає в приписуванні текстам і їх
компонентам спеціальних міток (tag, tags) :
зовнішніх, екстралінгвістичних (відомості про автора і відомості про
текст: автор, назва, рік і місце видання, жанр, тематика; відомості про автора
можуть включати не тільки його ім'я, але також вік, стать, роки життя та багато
іншого - це кодування інформації має назву метарозмітки),
структурних (глава, абзац, речення, словоформа ),
лінгвістичних, що описують лексичні, граматичні та інші характеристики
елементів тексту.
L/O/G/O
www.themegallery.com

34.

СЕРЕД ЛІНГВІСТИЧНИХ ТИПІВ РОЗМІТКИ ВИДІЛЯЮТЬ:
• морфологічна розмітка (part - of - speech tagging (POS - tagging )), дослівно частиномовна розмітка;
синтаксична розмітка, що є результатом синтаксичного аналізу, або
парсингу (англ. parsing ), що здійснюється на основі даних морфологічного
аналізу;
• семантична розмітка - найчастіше семантичні теги позначають семантичні
категорії, до яких належить дане слово або словосполучення, і більш вузькі
підкатегорії, що уточнюють їх значення;
• анафорична розмітка - фіксує референтні зв'язки;
• просодична розмітка - мітки, що описують наголос і інтонацію;
• дискурсна розмітка, яка служить для позначення пауз, повторів, застережень.
L/O/G/O
www.themegallery.com

35.

ТЕХНОЛОГІЧНИЙ ПРОЦЕС СТВОРЕННЯ КОРПУСУ МОЖНА
ПРЕДСТАВИТИ У ВИГЛЯДІ НАСТУПНИХ КРОКІВ АБО ЕТАПІВ
1. Визначення переліку джерел.
2. Оцифровування текстів (перетворення в комп'ютерну форму).
3. Дообробка тексту.
4. Конвертація і графематичний аналіз.
5. Розмітка тексту.
6. На наступному етапі здійснюється коригування результатів автоматичної
розмітки: виправлення помилок і зняття омонімії (вручну або
напівавтоматично).
7. Конвертація розмічених текстів в структуру спеціалізованої лінгвістичної
інформаційно-пошукової системи (corpus manager), що забезпечує швидкий
багатоаспектний пошук та статистичну обробку.
8. Забезпечення доступу до корпусу.
L/O/G/O
www.themegallery.com

36.

3. ХАРАКТЕРИСТИКА НАЙВІДОМІШИХ КОРПУСІВ ТЕКСТІВ
Слайди 6-22
L/O/G/O
www.themegallery.com

37.

4. ОСОБЛИВОСТІ ВИКОРИСТАННЯ КОРПУСНИХ МЕНЕДЖЕРІВ
КАТАЛОГ КОРПУСНИХ МЕНЕДЖЕРІВ І ЛІНГВІСТИЧНИХ ПРОГРАМ
У МЕРЕЖІ ІНТЕРНЕТ - http://
www.rvb.ru/soft/catalogue/catalogue.html#TextAnalysis
КОРПУСНА ІНФОРМАЦІЙНО-ДОСЛІДНИЦЬКА СИСТЕМА (КИИСА) –
http://www.philol.msu.ru/~lex/kiisa.html\
L/O/G/O
www.themegallery.com

38.

ВИСНОВКИ
КАТАЛОГ МЕНЕДЖЕРІВ І ЛІНГВІСТИЧНИХ ПРОГРАМ У МЕРЕЖІ
ІНТЕРНЕТ - http://www.rvb.ru/soft/catalogue/catalogue.html#TextAnalysis
КОРПУСНА ІНФОРМАЦІЙНО-ДОСЛІДНИЦЬКА СИСТЕМА (КИИСА) –
http://www.philol.msu.ru/~lex/kiisa.html\
L/O/G/O
www.themegallery.com

39. Дякуємо за увагу!

L/O/G/O
www.themegallery.com
English     Русский Rules