Современные лингвистические корпусы
ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ КОРПУСЫ
Британский национальный корпус
British National Corpus http://www.natcorp.ox.ac.uk/ http://corpus.byu.edu/bnc
Oxford English Corpus
Корпус современного американского английского (The Corpus of Contemporary American English, COCA)
American National Corpus
American National Corpus http://www.americannationalcorpus.org/OANC/index.html
The Bank of English (Cobuild Corpus) http://www.collinslanguage.com/content-solutions/wordbanks
Cambridge International Corpus
Международный корпус английского языка
Немецкий язык
Французский язык
НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА
Национальный Корпус Русского Языка http://www.ruscorpora.ru/
Корпуси української мови
1.46M
Categories: internetinternet lingvisticslingvistics

Современные лингвистические корпусы

1. Современные лингвистические корпусы

2. ОСНОВНЫЕ КОМПЬЮТЕРНЫЕ КОРПУСЫ

1960-е: Брауновский корпус, (США), 1 млн. слов
1970-е: LOB корпус (Великобритания, Норвегия), 1 млн.
Уппсальский корпус русского языка (Швеция), 1 млн.
1990-е: British National Corpus, 100 млн.
Национальный корпус русского языка, 140 млн.
Oxford English corpus, 2 млрд.

3.

БРАУНОВСКИЙ КОРПУС
(BROWN CORPUS)
Первый
лингвистический корпус
Создан
в 1960-е гг. в Брауновском
университете (США) У. Френсисом и Г. Кучерой
Корпус содержал около 500 текстов объемом
2000 печатных знаков каждый, написанных на
американском варианте английского языка.
Корпус включал морфологическую и
синтаксическую разметку.

4. Британский национальный корпус

БРИТАНСКИЙ НАЦИОНАЛЬНЫЙ
КОРПУС

5. British National Corpus http://www.natcorp.ox.ac.uk/ http://corpus.byu.edu/bnc

Представительный
корпус
британского
английского языка
По
его образцу создавались многие
современные корпуса различных языков.
Включает метатекстовую и частеречную
разметку, характеризуется использованием
полных текстов и наличием подкорпуса
устной речи.
Объем
корпуса – свыше 100 млн.
словоупотреблений.

6. Oxford English Corpus

Самый
большой из когда-либо созданных:
свыше 2 млрд. словоупотреблений.
Используется составителями Оксфордских
словарей.
Содержит как письменные тексты, так и
записи устной речи, датированные 2000-2006
гг.

7.

8. Корпус современного американского английского (The Corpus of Contemporary American English, COCA)

Корпус современного американского английского
(The Corpus of Contemporary American English, COCA)
Самый большой корпус английского языка,
находящийся в свободном доступе (сайт
http://corpus.byu.edu/coca/).
Создан М. Дэвисом (Brigham Young University, США) в
2008 году.
COCA содержит 445 млн. словоупотреблений и
включает тексты с 1990 года по настоящее время.
Корпус обновляется два раза в год и удобен для
отслеживания динамики лингвальных изменений.

9. American National Corpus

10. American National Corpus http://www.americannationalcorpus.org/OANC/index.html

Создается
по образцу Британского
национального корпуса.
Планируется создание представительного
корпуса объемом 100 млн. словоупотреблений.
В настоящий момент готова первая версия
корпуса объемом 15 млн. словоупотреблений.
Представлены как письменные тексты, так и
записи устной речи.
Доступен для скачивания.

11. The Bank of English (Cobuild Corpus) http://www.collinslanguage.com/content-solutions/wordbanks

The Bank of English (Cobuild Corpus)
http://www.collinslanguage.com/content-solutions/w
ordbanks
Постоянно пополняемый корпус английского
языка,
характеризующийся
большим
объемом (524 млн. словоупотреблений).
В состав корпуса входят различные типы
письменных текстов и устной речи.
Корпус включает метатекстовую разметку, а
также
частеречную
с
элементами
морфологической разметку.
В общедоступной версии корпуса существует
возможность выбора подкорпуса: британские
книги, газеты, журналы, радиопередачи и др.

12. Cambridge International Corpus

C?????????
??? ???? ??? ??????????? ??????? ?????????? ? ????????
а
н
г
л
и
й
с
к
о
г
оя
з
ы
к
а
.
????? 700 ???. ?????????????????.
? ?????? ????? ?????????? ? ???????????? ?????? ?????? ?????, ??????
у
с
т
н
о
йр
е
ч
ин
о
с
и
т
е
л
е
йб
р
и
т
а
н
с
к
о
г
оиа
м
е
р
и
к
а
н
с
к
о
г
ов
а
р
и
а
н
т
о
ва
н
г
л
и
й
с
к
о
г
о
?????.
????????? ????????? ???????? ?????? ??????????????? ????? ????????? ??
р
а
з
н
ы
хс
т
р
а
ни
, з
у
ч
а
ю
щ
и
ха
н
г
л
и
й
с
к
и
йя
з
ы
квк
а
ч
е
с
т
в
еи
н
о
с
т
р
а
н
н
о
г
о
.

13. Международный корпус английского языка

МЕЖДУНАРОДНЫЙ КОРПУС
АНГЛИЙСКОГО ЯЗЫКА

14.

http://www.ucl.ac.uk/english-usage/projects/ice.htm
???????? ????????????????? ? ????????? ????????? ???????????
????? (23 ??????).
?????? ????????? ???????? ?????????? ?????? ?????? ????? ?
?????? ?????? ????.
Объем каждого
национального
?????????? – 1 ???. ?????????????????.

15. Немецкий язык

???????? ????
?????? ?????????? ??????????????? ???????? ???? (DWDSCorpus)
http://www.dwds.de/pages/pages_textba/dwds_textba.ht
m
?????? ???????? ??????? ??? ????????? ??????? ????????? ????? XX ?.
(DWDS)
???????? ??????? ?????? (Projekt Deutscher
Wortschatz)
http://wortschatz.uni-leipzig.de/
???????? 35 ??? ??????????? ? 500 ??? ????

16. Французский язык

??????????? ????
К
о
р
п
у
сф
р
а
н
ц
у
з
с
к
о
г
оя
з
ы
к
а
(Corpus de Référence du
Français parlé)
http://sites.univprovence.fr/delic/corpus/index.html
440 000 слов, 134 фото, более 36
? ?????? ? ? ? ?
Корпус разговорного
ф
р
а
н
ц
у
з
с
к
о
г
оя
з
ы
к
а(Un corpus d’entretiens
spontanés)
http://www.llas.ac.uk/resources/mb/80
Корпус содержит 95 бесед.

17. НАЦИОНАЛЬНЫЙ КОРПУС РУССКОГО ЯЗЫКА

18. Национальный Корпус Русского Языка http://www.ruscorpora.ru/

Включает следующие подкорпуса:
основной;
синтаксический (глубоко аннотированный);
газетный;
параллельный;
диалектный;
поэтический и др.
Объем корпуса – свыше 300 млн.
словоупотреблений.

19. Корпуси української мови

КККККК
ККККККК ККККККККККК КККК
http://www.mova.info/corpus.aspx?
l1=209
??????????? ???????????? ??????
http://lcorp.ulif.org.ua/virt_unlc/
English     Русский Rules