Similar presentations:
Трехфакторная модель определения пола автора на русском языке
1.
Трехфакторнаямодель определения
пола автора на
русском языке
Филология
Автор: Сегодник Ангелина, СШ №9 г.Борисова
Руководитель: Королюк Д.В., учитель математики
2.
Новый вызов судебной лингвистике:актуальность и практическая
значимость исследования
Добавить нижний колонтитул
2
3.
FRЧто такое модель и ее
факторы?
Модель нужна для решения
конкретных задач
Модель приблизительно отражает
реальность
Факторы модели – это входящие
данные, влияющие на результат
модели
В моей модели – три фактора
Добавить нижний колонтитул
3
4.
Цели и задачи исследованияЦель исследования
Задачи исследования
• Создание модели, позволяющей с
высокой долей вероятности
определить пол автора текста
• Понять предпосылки модели
Добавить нижний колонтитул
FR
• Определить методы, используемые в
модели
• Создать модель
• Провести тестирование методом
черного ящика
4
5.
FRПредпосылка – фактор - гипотеза
Номер
Предпосылка
Фактор
Гипотеза
1
Вовлеченность в процесс передачи
информации
Частотность частей
речи
Женщины используют
чаще: глаголы,
прилагательные,
междометия, наречия,
союзы, местоимения
2
Повторение слов
Разнообразие
вокабуляра
У мужчин вокабуляр
разнообразнее
Длина предложений
Индекс
функциональной
плотности
Чем выше ИФП, тем
выше вероятность
«женского» текста
3
Добавить нижний колонтитул
5
6.
FRМетоды и материалы модели
Добавить нижний колонтитул
6
7.
FRПервый фактор: частотность частей речи
При морфологическом анализе были выявлены следующие закономерности:
F1 = (сущ./0.238 + предл./0.085 + 0.103/прил.+ 0.065/мест. + 0.146/глаголы +0.085/наречия + 0.149/союз + 0.007/межд.)/8
Гипотеза первого фактора: если F1>1, то текст скорее мужской, а если F1<1 – то скорее женский.
Добавить нижний колонтитул
7
8.
FRВторой фактор: разнообразие вокабуляра (VocD)
Разнообразие словаря вычисляется как отношение количества разных слов (лексем) к общему
количеству слов в тексте (из текста берутся случайным образом 120 слов идущих подряд)
F2 = VocD/0.502
Гипотеза второго фактора: если F2>1, то текст скорее
мужской, а если F2<1 – то скорее женский.
Добавить нижний колонтитул
8
9.
FRТретий фактор: индекс функциональной плотности
Индекс функциональной плотности — отношение неполнозначных (служебных) слов к
самостоятельным (из текста опять же берутся случайным образом 120 слов идущих подряд)
F3 = 0.515/ ИФП
Гипотеза третьего фактора: если F3>1, то текст скорее
мужской, а если F3<1 – то скорее женский.
Добавить нижний колонтитул
9
10.
FRРезультат модели и тестирование
Модель показала верный результат в 17 случаях из 20.
Вероятность успеха определения пола – 85%
Добавить нижний колонтитул
10
11.
Заключение1. Я достигла задач и цели исследования: моя модель с вероятностью 85%
успешно определяет пол автора текста на русском языке
2. Адекватность модели проверена методом черного ящика: изначальные
гипотезы нашли свое подтверждение
3. Новизна модели - в ее независимости от явных указателей пола в русском
языке и высокой вероятности успеха
4. Моя модель способна существенно помочь современной криминалистике – в
этом практическая значимость моей работы
5. В следующем году я хочу разработать модель, определяющую возраст
человека и регион его проживания (вплоть до города)