Similar presentations:
Современные лингвистические корпусы
1. Современные лингвистические корпусы
2. ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ КОРПУСЫ
1960-е: Брауновский корпус, (США), 1 млн. слов1970-е: LOB корпус (Великобритания, Норвегия), 1 млн.
Уппсальский корпус русского языка (Швеция), 1 млн.
1990-е: British National Corpus, 100 млн.
Национальный корпус русского языка, 140 млн.
Oxford English corpus, 2 млрд.
3.
БРАУНОВСКИЙ КОРПУС(BROWN CORPUS)
Первый
лингвистический корпус
Создан
в 1960-е гг. в Брауновском
университете (США) У. Френсисом и Г. Кучерой
Корпус содержал около 500 текстов объемом
2000 печатных знаков каждый, написанных на
американском варианте английского языка.
Корпус включал морфологическую и
синтаксическую разметку.
4. Британский национальный корпус
БРИТАНСКИЙ НАЦИОНАЛЬНЫЙКОРПУС
5. British National Corpus http://www.natcorp.ox.ac.uk/ http://corpus.byu.edu/bnc
Представительныйкорпус
британского
английского языка
По
его образцу создавались многие
современные корпуса различных языков.
Включает метатекстовую и частеречную
разметку, характеризуется использованием
полных текстов и наличием подкорпуса
устной речи.
Объем
корпуса – свыше 100 млн.
словоупотреблений.
6. Oxford English Corpus
Самыйбольшой из когда-либо созданных:
свыше 2 млрд. словоупотреблений.
Используется составителями Оксфордских
словарей.
Содержит как письменные тексты, так и
записи устной речи, датированные 2000-2006
гг.
7.
8. Корпус современного американского английского (The Corpus of Contemporary American English, COCA)
Корпус современного американского английского(The Corpus of Contemporary American English, COCA)
Самый большой корпус английского языка,
находящийся в свободном доступе (сайт
http://corpus.byu.edu/coca/).
Создан М. Дэвисом (Brigham Young University, США) в
2008 году.
COCA содержит 445 млн. словоупотреблений и
включает тексты с 1990 года по настоящее время.
Корпус обновляется два раза в год и удобен для
отслеживания динамики лингвальных изменений.
9. American National Corpus
10. American National Corpus http://www.americannationalcorpus.org/OANC/index.html
Создаетсяпо образцу Британского
национального корпуса.
Планируется создание представительного
корпуса объемом 100 млн. словоупотреблений.
В настоящий момент готова первая версия
корпуса объемом 15 млн. словоупотреблений.
Представлены как письменные тексты, так и
записи устной речи.
Доступен для скачивания.
11. The Bank of English (Cobuild Corpus) http://www.collinslanguage.com/content-solutions/wordbanks
The Bank of English (Cobuild Corpus)http://www.collinslanguage.com/content-solutions/w
ordbanks
Постоянно пополняемый корпус английского
языка,
характеризующийся
большим
объемом (524 млн. словоупотреблений).
В состав корпуса входят различные типы
письменных текстов и устной речи.
Корпус включает метатекстовую разметку, а
также
частеречную
с
элементами
морфологической разметку.
В общедоступной версии корпуса существует
возможность выбора подкорпуса: британские
книги, газеты, журналы, радиопередачи и др.
12. Cambridge International Corpus
C???????????? ???? ??? ??????????? ??????? ?????????? ? ????????
а
н
г
л
и
й
с
к
о
г
оя
з
ы
к
а
.
????? 700 ???. ?????????????????.
? ?????? ????? ?????????? ? ???????????? ?????? ?????? ?????, ??????
у
с
т
н
о
йр
е
ч
ин
о
с
и
т
е
л
е
йб
р
и
т
а
н
с
к
о
г
оиа
м
е
р
и
к
а
н
с
к
о
г
ов
а
р
и
а
н
т
о
ва
н
г
л
и
й
с
к
о
г
о
?????.
????????? ????????? ???????? ?????? ??????????????? ????? ????????? ??
р
а
з
н
ы
хс
т
р
а
ни
, з
у
ч
а
ю
щ
и
ха
н
г
л
и
й
с
к
и
йя
з
ы
квк
а
ч
е
с
т
в
еи
н
о
с
т
р
а
н
н
о
г
о
.
13. Международный корпус английского языка
МЕЖДУНАРОДНЫЙ КОРПУСАНГЛИЙСКОГО ЯЗЫКА
14.
http://www.ucl.ac.uk/english-usage/projects/ice.htm???????? ????????????????? ? ????????? ????????? ???????????
????? (23 ??????).
?????? ????????? ???????? ?????????? ?????? ?????? ????? ?
?????? ?????? ????.
Объем каждого
национального
?????????? – 1 ???. ?????????????????.
15. Немецкий язык
???????? ?????????? ?????????? ??????????????? ???????? ???? (DWDSCorpus)
http://www.dwds.de/pages/pages_textba/dwds_textba.ht
m
?????? ???????? ??????? ??? ????????? ??????? ????????? ????? XX ?.
(DWDS)
???????? ??????? ?????? (Projekt Deutscher
Wortschatz)
http://wortschatz.uni-leipzig.de/
???????? 35 ??? ??????????? ? 500 ??? ????
16. Французский язык
??????????? ????К
о
р
п
у
сф
р
а
н
ц
у
з
с
к
о
г
оя
з
ы
к
а
(Corpus de Référence du
Français parlé)
http://sites.univprovence.fr/delic/corpus/index.html
440 000 слов, 134 фото, более 36
? ?????? ? ? ? ?
Корпус разговорного
ф
р
а
н
ц
у
з
с
к
о
г
оя
з
ы
к
а(Un corpus d’entretiens
spontanés)
http://www.llas.ac.uk/resources/mb/80
Корпус содержит 95 бесед.
17. НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА
18. Национальный Корпус Русского Языка http://www.ruscorpora.ru/
Включает следующие подкорпуса:основной;
синтаксический (глубоко аннотированный);
газетный;
параллельный;
диалектный;
поэтический и др.
Объем корпуса – свыше 300 млн.
словоупотреблений.
19. Корпуси української мови
ККККККККККККК ККККККККККК КККК
http://www.mova.info/corpus.aspx?
l1=209
??????????? ???????????? ??????
http://lcorp.ulif.org.ua/virt_unlc/