Прикладні аспекти статистичної лінгвістики.

168.00K

Category:

lingvistics

Прикладні аспекти статистичної лінгвістики

1. Прикладні аспекти статистичної лінгвістики.

2.

1. Проблематика статистичної
лінгвістики з теоретичного та прикладного
поглядів.
2. Основні галузі використання
структурно-ймовірнісної моделі мови.
3. Психолінгвістика як практичне
застосування лінгвістики

3.

Статистична лінгвістика міждисциплінарний напрямок у
прикладних дослідженнях, у яких
основним інструментом вивчення мови
використовуються кількісні чи
статистичні методи аналізу.
Іноді статистичну (чи кількісну чи
квантитативну лінгвістику)
протиставляють комбінаторній
лінгвістиці. В останній домінантну роль
посідає «некількісний» математичний
апарат – теорія множин, математична
логіка, теорія алгоритмів тощо.

4.

Для вдосконалення системи
стенографії первісно був
призначений і частотний словник
німецької мови Кедінґа (його
уклали на матеріалі 11 млн. слів
6000 працівників), виданий у
Берліні 1898 р.

5.

Р. Елрідж, керівник невеликої фабрики,
за 2 роки опрацював 250 статей
загальною довжиною 44 000
слововживань і 1911р. видав "Шість
тисяч загальновживаних англійських
слів" для своїх робітників-емігрантів, що
вивчають англійську мову.

6.

У 1928 р. побачив світ "Німецький частотний
словник" (German frequency Word Book)
Морґана, роком пізніше — "Німецький
словник ідіом" (A German Idiom List) Xayxa, у
цьому руслі також працювали науковці
Пфеффер та Веґлер. Також з'явився
"Порівняльний частотний словник першої
тисячі слів англійської, французької, німецької
та іспанської мов" (Comparative Frequency list
on the First Thousand words in English, French,
German and Spanish) Ітона, де наведено 1000
найчастотніших слів названих чотирьох
європейських мов.

7.

Увійшов в історію англійський
мовознавець та педагог Палмер, що
відібрав три тисячі слів, які дають змогу
розуміти 95% тексту.
Під час воєн зростає потреба передати
інформацію так, щоб її не міг зрозуміти
противник. Тому посилилася увага до
криптографії — науки про
зашифровування та розшифрування
повідомлень, "ламання кодів".

8.

Основні поняття та категорійний
апарат статистичної лінгвістики:
вибірка, частота, розподіл, похибка.
Однорідний масив (корпус) певних
одиниць, які потрібно обстежити,
називають генеральною сукупністю
(ГС).

9.

Вибірка — це певна кількість матеріалу,
на підставі дослідження якого можна
зробити правильні висновки про всю
генеральну сукупність. Основні вимоги
до вибірки: репрезентативність та
однорідність.

10.

Щоби бути репрезентативною, вибірка
має
1) рівномірно розподілятися по
генеральній сукупності та
2) мати достатньо великий обсяг, якого
вистачає для правильних висновків про
ГС.

11.

Розрізняють два типи однорідності
вибірки: лінгвістична та
статистична.
У межах лінгвістичної однорідності
вибірки виділяють:
1) хронологічну (тексти вибірки повинні
мати хронологічні межі);
2) жанрову (тексти вибірки мають бути
жанрово обмежені);
3) тематичну (тексти мають бути
тематично обмежені).

12.

Статистично однорідною вважають
вибірку, в якій досліджувані одиниці
мають статистичну поведінку, яка
суттєво між собою не відрізняється.
Якщо середня частота явища (літери,
морфеми, слова, довжини слова,
довжини речення і т.ін.) в одній вибірці
суттєво не відрізняється від його
частоти в інших вибірках, то ці вибірки
статистично однорідні стосовно цього
явища.

13.

За способом організації виділяють такі
різновиди вибірок:
1) механічна — організована з
урахуванням рівномірності розподілу
досліджуваної одиниці по генеральній
сукупності. Всі тексти генеральної
сукупності перенумеровують, а потім,
наприклад, з кожного п'ятого, десятого,
двадцятого тексту вибирають відрізок
необхідної довжини.

14.

2) випадкова — організована шляхом
випадкового вибору текстів з генеральної
сукупності. В основі такого методу організації
вибірки лежить гіпотеза про те, що досить
велика кількість навздогад відібраних
одиниць з генеральної сукупності має
адекватно її представляти. Тож кожна
сторінка, розділ чи інша одиниця тексту
генеральної сукупності повинні мати
однаковий шанс потрапити до вибірки. Тому,
як правило, випадкова вибірка ґрунтується на
таблиці випадкових чисел.

15.

3) зональна (типова) — організована
на основі лінгвістично однорідної
сукупності текстів, тобто зони. Зоною
залежно від мети дослідження
вважають прозу, поезію та драму в
художній літературі; твори одного
автора або конкретний твір; сукупність
слів певної морфемної структури
(наприклад, префіксальних або
одноморфемних) тощо.

16.

Вибірка може бути структурною, тобто
складатися із менших частин, які
називають підвибірками, та
неструктурною, тобто суцільною.

17.

Абсолютна частота — це кількість вживань
певної одиниці (літери, слова, словоформи,
словосполучення, речення тощо) в
обстеженому матеріалі.
Відносна частота — відношення абсолютної
частоти певної одиниці у вибірці до обсягу
вибірки. Вимірюється у відсотках (%) або в
частках 1 (наприклад, 25% або 0,25).
Так, у реченні Говорили око в око абсолютна
частота слова око — 2, а відносна — 2/4 = 0,5
або 50%.

18.

Проте в різних підвибірках частота
одиниці звичайно неоднакова. У таких
випадках належить оперувати
середньою частотою. Це відношення
суми абсолютних частот певної
одиниці у підвибірках до кількості
підвибірок.
Наприклад, якщо у трьох підвибірках, з
яких складається вибірка, слово
"яскраво" має абсолютні частоти 4, 6 і 8,
то його середня частота у вибірці буде
(4 + 6 + 8) / 3 = 6.

19.

Частотний словник публіцистики
publicist
Код
Всього записів: 3
Частина Абсолютна Поле5 Поле6 Поле7 Поле8
мови
частота
ЛЮБОВ
К
31
0.1033 0.0249 4.1735 0.7586
ЛЮБОВНИЙ А
4
0.0133 0.0066 8.6023 0.5025
ЛЮБОВНО
Н
1
0.0033 Слово

20.

Поет: Загальний словник
Всього записів: 6
Слово
Частина Абсолютна
мови
частота
любов
ім.ж.р.вл. 18
любов
ім.ж.р. 336
любове
ім.ж.р.
19
любовім.ч.р.
1
лелека
любовний ад'єктив 10
любовім.ж.р. 1
німота
Середня частота Середньоквадратичне
відхилення
0,06
0,2374868
1,12
1,605906
0,06333333 0,3454305
0,003333333 0,05763872
Коефіціент
стабільності
7
9
6
0
0,03333334 0,1795055
0,003333333 0,05763872
6
0

21.

Технологія лінгвістичного
спостереження ґрунтується на двох
вихідних твердженнях:
по-перше, на регулярності і
періодичності аналізованих даних, і,
по-друге, на достатньо великому
обсязі використовуваного матеріалу,
на репрезентативності вибірки даних.

22.

Інформація про статистичні
закономірності функціювання мовної
системи лежить в основі деяких методик
аналіз даних, розроблюваних у
політичній лінгвістиці. До них належить,
зокрема, методика контент-аналізу,
використовувана для виявлення
структури і стану суспільної свідомості.

23.

Комп’ютерне моделювання мови та
мовлення.
Авторизація/атрибуція тексту.

24.

Психолінгвістика, галузь лінгвістики,
що вивчає мову насамперед як
феномен психіки. З погляду
психолінгвістики, мова існує тією мірою,
якою існує внутрішній світ мовця і
слухача, людини, яка пише і читає.
Тому психолінгвістика не займається
вивченням «мертвих» мов - таких, як
старослов'янська або грецька, де
нам доступні лише тексти, але не
психічні світи їх творців.

25.

Ось питання, які традиційно займають розуми
психолінгвістів:
1. Чи симетрично влаштований процес розпізнавання
мовлення, яке звучить, і процес його породження?
2. Чим відрізняються механізми оволодіння рідною
мовою від механізмів оволодіння мовою іноземною?
3. Які механізми забезпечують процес читання?
4. Чому за певних уражень мозку виникають ті чи інші
дефекти мови?
5. Яку інформацію про особу мовця можна отримати,
вивчаючи певні аспекти її мовної поведінки?

26.

Прийнято вважати, що психолінгвістика
виникла близько 40 років тому в США.
Дійсно, сам термін психолінгвістика
був запропонований американськими
психологами в кінці 1950-х років з метою
надати формальний статус уже
сформованому саме в США науковому
напрямку.

27.

Прототипні референти червоного
Реакція
1
колір
прапор
кров
укр.
2
13,4%
12%
8%
мак
помідор
5,7%
4,4%
вогонь
3,1%
галстук
1,2%
перець
1%
яблуко
1%
Мова
біл.
4
– колер – 12,3%
рос.
3
цвет
13,4%
флаг
–
11,6%
кровь
–
3,2%,
мак – 1,8%
помидор –
6,1%
огонь,
фонарь
–
1,3%
галстук –
0,5%
перец
–
2,7%
яблуко
–
0,5%
бол.
5
цвят – 10%
сцяг – 41,3%,
флаг – 3,3%
кроў – 4,7%,
кровь – 0,6%
—
памідор – 0,5%
знаме – 1,4%,
флаг – 0,5%
кръв – 11,7%
агонь – 1,7%
огън – 2,2%,
пламък – 1%
гальштук – 0,2%
връзка – 0,2%
—
яблык – 1,2%
мак – 0,7%
домат – 3,1%
пипер – 1%
ябълка – 0,3%

English Русский Rules