Исследование звукосимволизма с помощью Word Embedding
гипотеза
Цель проекта
Word embedding – группа методов представления слов в виде векторов
План работы
Суммирование векторов для каждой полуоси
Проекции слов на оси
Статистические данные
Fasttext
word2vec
glove
bert
вывод
482.14K
Category: softwaresoftware

Исследование звукосимволизма с помощью Word Embedding

1. Исследование звукосимволизма с помощью Word Embedding

Заказчик: Max Planck Institute for
Mathematics in the Science
Project X
Пивуки
Булёв Даниил РИ-280022
Духович Александра РИ-280022
Елисеев Ян РИ-280022
Кудрявцев Тимофей РИ-280022
Максимов Филипп РИ-280022
Пелих Владимир РИ-280022
Зубарева Виктория РИ-280018
Пылаева Татьяна РИ-280018

2.

3. гипотеза

ГИПОТЕЗА
Гипотеза: существует
систематическая связь между
звуком и смыслом.

4. Цель проекта

ЦЕЛЬ ПРОЕКТА
Цель: подтверждение или
опровержение гипотезы о
систематической связи между
звуком и смыслом.

5. Word embedding – группа методов представления слов в виде векторов

WORD EMBEDDING – ГРУППА
МЕТОДОВ ПРЕДСТАВЛЕНИЯ СЛОВ В
ВИДЕ ВЕКТОРОВ
Контекстно-зависимые:
- Bert
Контекстно-независимые:
- Word2vec
- FastText
- Glove
FastText

6. План работы

ПЛАН РАБОТЫ
- построить семантические оси в
пространстве Word Embedding;
- построить распределение проекции слов;
- найти статистические данные между
распределениями;
- проанализировать результаты.

7. Суммирование векторов для каждой полуоси

Good - Bad
- Bad
Good
Bad

8. Проекции слов на оси

количество векторов
ПРОЕКЦИИ СЛОВ НА ОСИ
косинусы

9. Статистические данные

СТАТИСТИЧЕСКИЕ ДАННЫЕ
Мы использовали U-тест Манна-Уитни для сравнения двух
выборок на идентичность показаний.
p - value = 1 – выборки взяты из одного распределения
p - value = 0 – выборки взяты из разных распределений
Использовали р - value < 0.0001

10. Fasttext

FASTTEXT
Звук
Ось
FastText
r
Bad-good
Bad
d
Quiet-loud
Quiet
e
Cold - Hot
Cold
e
Dark - Luminous
Dark
ɪ
Difficult - Easy
Difficult

11.

– with
– without
r
good-bad
e
dark-luminous

12. word2vec

WORD2VEC
Звук
Ось
Word2vec
d
Quiet-loud
Quiet
e
Cold - Hot
Hot
e
Dark - Luminous
Luminous
ɪ
Difficult - Easy
Difficult
ɪ
Evil - Benign
Evil

13.

– with
– without
– first
d
quiet-loud
ɪ
difficult - easy

14. glove

GLOVE
Звук
Ось
Glove
ɪ
Evil - Benign
Evil
æ
Complex - Simple
Complex
ə
Sad - Joyful
Joyful
ʌ
Dangerous - Secure
Dangerous
b
Short - Long
Long

15.

– with
– without
– first
b
short - long
ə
joyful-sad

16. bert

BERT
Звук
Ось
Bert
r
Bad-good
Bad
– with
– without
– first
r
good-bad

17.

Звук
Значение звука
Звук
Значение звука
e
Tender
ʌ
Masculine
k
Complex
ʌ
Sad
k
Joyful
ɪ
Complex
d
Complex
ɪ
Dangerous
d
Feminine
ɪ
Difficult
d
Rough_or_not_smooth
ɪ
Evil
d
Ugly
ɪ
Feeble
n
Small
ɪ
Slow
ʌ
Bad
ə
Tender
ʌ
Dangerous
ə
Joyful
ʌ
Dark
ɑː
Brave
ʌ
Evil
ɑː
Secure
ʌ
Feeble
r
Difficult

18. вывод

ВЫВОД
Мы подтвердили гипотезу о существовании
систематической связи между звуком и
смыслом.
Различные методы Word Embedding могут
отлавливать одинаковые закономерности.
Для данной задачи подходят такие методы, как
Word2vec, FastText и Glove.
Метод Bert не подходит для этой задачи.
English     Русский Rules