Similar presentations:
Корпусна лінгвістика
1. Корпусна лінгвістика (2 год.)
Лекція №6Корпусна лінгвістика (2 год.)
L/O/G/O
www.themegallery.com
2.
Мета: з’ясувати об'єкт, предмет і завдання корпусноїлінгвістики; ознайомитися з типами корпусами текстів,
наявними в мережі Інтернет; розглянути програмні
засоби для роботи з корпусами текстів.
L/O/G/O
www.themegallery.com
3.
План1.Об'єкт, предмет і завдання корпусної лінгвістики.
2.Корпуси текстів та засади їх створення.
3.Характеристика найвідоміших корпусів текстів.
4.Особливості використання корпусних менеджерів.
L/O/G/O
www.themegallery.com
4.
Рекомендована література та посилання:а) основна література:
•Дарчук Н. П. Комп'ютерна лінгвістика (автоматичне
опрацювання тексту): підручник. – К.: Видавничополіграфічний центр «Київський університет», 2008. – 351 с.
•Карпіловська Євгенія Анатоліївна. Вступ до прикладної
лінгвістики : комп’ютерної лінгвістики : Підручник / Євгенія
Анатоліївна Карпіловська. – Донецьк : ТОВ «Юго-Восток,
ЛТД», 2006. – 188 с.
L/O/G/O
www.themegallery.com
5.
Рекомендована література та посилання:б) додаткова література:
•Баранов Анатолий Николаевич. Введение в прикладную
лингвистику. – М.: Едиториал УРСС, 2003. – 360 с.
•Демська-Кульчицька О. Основи національного корпусу
української мови.– К.: Інститут українсьокї мови національної
академії наук України, 2005. – 219 с.
•Корпусна лінгвістика / В. А. Широков, О. В. Бугаков,
Т. О. Грязнухіна та ін. – К.: Довіра, 2005. – 471 с.
•Зубов А. В. Информационные технологии в лингвистике: Учеб.
пособие для студ. лингв. фак-тов высш. учеб. заведений/ А. В. Зубов,
L/O/G/O
И. И. Зубова – М.: Издательский центр «Академия», 2004.
–
208
с.
www.themegallery.com
6.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
КОРПУСИ ТЕКСТІВ ЛАБОРАТОРІЇ КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ
КНЛУ – http://complinguide.com.ua/Corpora.aspx
L/O/G/O
www.themegallery.com
7.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
КОРПУС ТЕКСТІВ З КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ – http://
csit2009.org/content/korpus-tekstiv-z-komp%E2%80%99yuternoyi-lingvistyky
L/O/G/O
www.themegallery.com
8.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
КОРПУС УКРАЇНСЬКОЇ МОВИ ЛАБОРАТОРІЇ КОМП'ЮТЕРНОЇ
ЛІНГВІСТИКИ КИЇВСЬКОГО НАЦІОНАЛЬНОГО УНІВЕРСИТЕТУ ІМЕНІ
ТАРАСА ШЕВЧЕНКА (доступний для онлайн-пошуку) – http://
www.mova.info/corpus.aspx?l1=209
L/O/G/O
www.themegallery.com
9.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
УКРАЇНСЬКИЙ НАЦІОНАЛЬНИЙ ЛІНГВІСТИЧНИЙ КОРПУС (42
мільйони слововживань) – http://lcorp.ulif.org.ua/virt_unlc/
L/O/G/O
www.themegallery.com
10.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
УКРАЇНСЬКИЙ МОВНО-ІНФОРМАЦІЙНИЙ ФОНД НАН УКРАЇНИ –
http://lcorp.ulif.org.ua/
L/O/G/O
www.themegallery.com
11.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
ОНЛАЙН-КОНКОРДАНС РОМАНУ ІВАНА ФРАНКА «ПЕРЕХРЕСНІ
СТЕЖКИ» – http://www.ktf.franko.lviv.ua/~andrij/science/Franko/concordance.html
L/O/G/O
www.themegallery.com
12.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
ПАРАЛЕЛЬНИЙ РОСІЙСЬКО-УКРАЇНСЬКИЙ КОРПУС НА САЙТІ
НАЦІОНАЛЬНОГО КОРПУСУ РОСІЙСЬКОЇ МОВИ – http://
www.ruscorpora.ru/corpora-other.html
L/O/G/O
www.themegallery.com
13.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
ПАРАЛЕЛЬНИЙ ПОЛЬСЬКО-УКРАЇНСЬКИЙ КОРПУС –
http://www.domeczek.pl/~polukr/index.php?option=welcome
L/O/G/O
www.themegallery.com
14.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
БРИТАНСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (BNC) - 100 мільйонів слів зразків письмового й усного мовлення з широкого діапазону джерел –
http://www.natcorp.ox.ac.uk/
L/O/G/O
www.themegallery.com
15.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
АМЕРИКАНСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (ANC) –
http://www.americannationalcorpus.org/
L/O/G/O
www.themegallery.com
16.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
КОРПУС ПОЛЬСЬКОЇ МОВИ (KORPUS JĘZYKA POLSKIEGO PWN).
Польського наукового видавництва при Польській Академії наук. –
http://korpus.pwn.pl/
L/O/G/O
www.themegallery.com
17.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
ЧЕСЬКИЙ НАЦІОНАЛЬНИЙ КОРПУС (ČESKÝ NÁRODNÍ KORPUS) –
http://ucnk.ff.cuni.cz/
L/O/G/O
www.themegallery.com
18.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
ІРЛАНДСЬКИЙ КОРПУС ЕЛЕКТРОННИХ ТЕКСТІВ: Онлайн-ресурси з
ірландської історії, літератури, політики - C.E.L.T. Давньоірландські оригінали
кельтських саг (скел), поезія бардів, давньоірландська лірична поезія, літописи,
клерикальна література, граматики, латинські тексти, англійські переклади - http
://www.ucc.ie/celt/publishd.html
L/O/G/O
www.themegallery.com
19.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
НАЦІОНАЛЬНИЙ КОРПУС РОСІЙСЬКОЇ МОВИ – http://www.ruscorpora.ru
/
L/O/G/O
www.themegallery.com
20.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
ЛАБОРАТОРІЯ ЗАГАЛЬНОЇ І КОМП’ЮТЕРНОЇ ЛЕКСИКОЛОГІЇ ТА
ЛЕКСИКОГРАФІЇ – http://www.philol.msu.ru/~lex/main.htm/
L/O/G/O
www.themegallery.com
21.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
«КОМП’ЮТЕРНИЙ КОРПУС ТЕКСТІВ РОСІЙСЬКИХ ГАЗЕТ КІНЦА ХХ
ст.» – (Демонстраційний варіант близько 200 тис. слововживань) –
http://209.85.135.132/search?q=cache:63wxC-8EgdcJ:www.philol.msu.ru/~lex/corpus/+
корпус+текстов+TRACTOR&cd=4&hl=uk&ct=clnk&gl=ua
L/O/G/O
www.themegallery.com
22.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
ПЕРЕЛІК ПОСИЛАНЬ НА ЛІНГВІСТИЧНІ КОРПУСИ НА САЙТІ
НАЦІОНАЛЬНОГО КОРПУСУ РОСІЙСЬКОЇ МОВИ (рос.) – http://
www.ruscorpora.ru/corpora-other.html
L/O/G/O
www.themegallery.com
23.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
КАТАЛОГ НИХ МЕНЕДЖЕРІВ І ЛІНГВІСТИЧНИХ ПРОГРАМ У МЕРЕЖІ
ІНТЕРНЕТ – http://www.rvb.ru/soft/catalogue/catalogue.html#TextAnalysis
L/O/G/O
www.themegallery.com
24.
Рекомендована література та посилання:в) посилання на джерела в Інтернеті:
КОРПУСНА ІНФОРМАЦІЙНО-ДОСЛІДНИЦЬКА СИСТЕМА (КИИСА) –
http://www.philol.msu.ru/~lex/kiisa.html\
L/O/G/O
www.themegallery.com
25.
ВИЗНАЧЕННЯ ОСНОВНИХ ТЕРМІНОЛОГІЧНИХ ПОНЯТЬКорпусна лінгвістика - дисципліна в межах
комп'ютерної лінгвістики, предметом якої є комплекс
теоретичних
та
процедурних
завдань,
що
забезпечують
формування
корпусів
текстів
(=текстозорієнтованих баз даних) та їх аналізу.
Об'єктом корпусної лінгвістики є корпус, а
предметом – комплекс теоретичних та процедурних
завдань, що забезпечують формування корпусів
текстів.
L/O/G/O
www.themegallery.com
26.
Напрями створення текстозорієнтованих базданих:
- формування
корпусів
текстів,
або
повнотекстових баз даних;
- створення
електронних
картотек,
або
ілюстративних баз даних, або баз цитат.
L/O/G/O
www.themegallery.com
27.
ВИЗНАЧЕННЯ ОСНОВНИХ ТЕРМІНОЛОГІЧНИХ ПОНЯТЬПОВНОТЕКСТОВА
БАЗА
ДАНИХ
(=КОРПУС ТЕКСТІВ) - упорядкована сукупність
текстів у цілісному вигляді.
ЕЛЕКТРОННА
КАРТОТЕКА
(=ІЛЮСТРАТИВНА БАЗА ДАНИХ, БАЗА
ЦИТАТ) - організована сукупність мовних одиниць
(слів, словосполук) з інформацією про їхнє вживання
в тексті.
L/O/G/O
www.themegallery.com
28.
Заповнотою
представлення
функціонування мовної системи можна
виділити фундаментальні та дослідницькі
(=пошукові) корпуси текстів.
L/O/G/O
www.themegallery.com
29.
ВИЗНАЧЕННЯ ОСНОВНИХ ТЕРМІНОЛОГІЧНИХ ПОНЯТЬФундаментальна п.б.д. (=к.т.) - максимально
повна й представницька сукупність текстів певною
мовою.
Дослідницька (пошукова) п.б.д. (=к.т.) сукупність текстів, за обсягом і якістю джерел
достатня
для
виконаннях
певних
класів
дослідницьких завдань.
L/O/G/O
www.themegallery.com
30.
Олександр Сергійович Герд запропонував розрізняти корпуситекстів реєструвального та інтерпретаційного, або дослідницького
типу. Перші становлять фактичне підґрунтя для створення других.
Реєструвальні корпуси подають тексти як цілісні об'єкти, як факт
реалізації мовної системи.
Корпуси інтерпретаційні становлять інформаційно-довідкові та
дослідницькі системи, що дають користувачеві змогу одержувати з
корпусу текстів потрібну йому інформацію про окремі мовні об'єкти та
їхні властивості.
L/O/G/O
www.themegallery.com
31.
2. Корпуси текстів та засади їх створенняКорпус текстів характеризується чотирма
основними параметрами:
по-перше, він повинен бути достатньо великого
обсягу;
по-друге, корпус повинен бути структурованим
або розміченим;
по-третє, тексти, складові певного корпусу,
повинні бути в електронному варіанті;
по-четверте, в поняття «Електронний корпус»
входить, як правило, спеціальне програмне
забезпечення для роботи з цим корпусом.
L/O/G/O
www.themegallery.com
32.
Цінність корпусу вбачається в наступному:одного разу зроблений корпус може багато разів використовуватися;
корпус показує мовні дані в їх реальному оточенні, що дозволяє
досліджувати лексичну і граматичну структуру мови, а також безперервні
процеси мовних змін, що відбуваються в мові впродовж певного відрізка
часу;
корпус характеризується збалансованим складом текстів, що дозволяє
використовувати його для тестування пошукових машин, автоматичних
аналізаторів та синтезаторів текстів, систем перекладу, а також
використовувати його в різних лінгвістичних дослідженнях;
корпус має важливе значення для викладання мови, оскільки за допомогою
корпусу можна швидко і ефективно перевірити особливості вживання
незнайомого слова або граматичної форми.
L/O/G/O
www.themegallery.com
33.
Розмітка ( tagging, annotation ) полягає в приписуванні текстам і їхкомпонентам спеціальних міток (tag, tags) :
зовнішніх, екстралінгвістичних (відомості про автора і відомості про
текст: автор, назва, рік і місце видання, жанр, тематика; відомості про автора
можуть включати не тільки його ім'я, але також вік, стать, роки життя та багато
іншого - це кодування інформації має назву метарозмітки),
структурних (глава, абзац, речення, словоформа ),
лінгвістичних, що описують лексичні, граматичні та інші характеристики
елементів тексту.
L/O/G/O
www.themegallery.com
34.
СЕРЕД ЛІНГВІСТИЧНИХ ТИПІВ РОЗМІТКИ ВИДІЛЯЮТЬ:• морфологічна розмітка (part - of - speech tagging (POS - tagging )), дослівно частиномовна розмітка;
синтаксична розмітка, що є результатом синтаксичного аналізу, або
парсингу (англ. parsing ), що здійснюється на основі даних морфологічного
аналізу;
• семантична розмітка - найчастіше семантичні теги позначають семантичні
категорії, до яких належить дане слово або словосполучення, і більш вузькі
підкатегорії, що уточнюють їх значення;
• анафорична розмітка - фіксує референтні зв'язки;
• просодична розмітка - мітки, що описують наголос і інтонацію;
• дискурсна розмітка, яка служить для позначення пауз, повторів, застережень.
L/O/G/O
www.themegallery.com
35.
ТЕХНОЛОГІЧНИЙ ПРОЦЕС СТВОРЕННЯ КОРПУСУ МОЖНАПРЕДСТАВИТИ У ВИГЛЯДІ НАСТУПНИХ КРОКІВ АБО ЕТАПІВ
1. Визначення переліку джерел.
2. Оцифровування текстів (перетворення в комп'ютерну форму).
3. Дообробка тексту.
4. Конвертація і графематичний аналіз.
5. Розмітка тексту.
6. На наступному етапі здійснюється коригування результатів автоматичної
розмітки: виправлення помилок і зняття омонімії (вручну або
напівавтоматично).
7. Конвертація розмічених текстів в структуру спеціалізованої лінгвістичної
інформаційно-пошукової системи (corpus manager), що забезпечує швидкий
багатоаспектний пошук та статистичну обробку.
8. Забезпечення доступу до корпусу.
L/O/G/O
www.themegallery.com
36.
3. ХАРАКТЕРИСТИКА НАЙВІДОМІШИХ КОРПУСІВ ТЕКСТІВСлайди 6-22
L/O/G/O
www.themegallery.com
37.
4. ОСОБЛИВОСТІ ВИКОРИСТАННЯ КОРПУСНИХ МЕНЕДЖЕРІВКАТАЛОГ КОРПУСНИХ МЕНЕДЖЕРІВ І ЛІНГВІСТИЧНИХ ПРОГРАМ
У МЕРЕЖІ ІНТЕРНЕТ - http://
www.rvb.ru/soft/catalogue/catalogue.html#TextAnalysis
КОРПУСНА ІНФОРМАЦІЙНО-ДОСЛІДНИЦЬКА СИСТЕМА (КИИСА) –
http://www.philol.msu.ru/~lex/kiisa.html\
L/O/G/O
www.themegallery.com
38.
ВИСНОВКИКАТАЛОГ МЕНЕДЖЕРІВ І ЛІНГВІСТИЧНИХ ПРОГРАМ У МЕРЕЖІ
ІНТЕРНЕТ - http://www.rvb.ru/soft/catalogue/catalogue.html#TextAnalysis
КОРПУСНА ІНФОРМАЦІЙНО-ДОСЛІДНИЦЬКА СИСТЕМА (КИИСА) –
http://www.philol.msu.ru/~lex/kiisa.html\
L/O/G/O
www.themegallery.com
39. Дякуємо за увагу!
L/O/G/Owww.themegallery.com