Similar presentations:
Анализ успеваемости студентов, корреляций между учебными показателями и моделирование зависимостей
1.
Исследование нормального распределения истатистических закономерностей в образовательных
данных: анализ успеваемости студентов, корреляций
между учебными показателями и моделирование
зависимостей
студентов 1 курса дневного отделения:
Мызникова Федора Денисовича, Роньшина Всеволода Вадимовича, Анисимова Василия Сергеевича,
Никитенко Тимура Романовича, Пастухова Максима Германовича
Преподаватель:
Лев Ярославович Шевнин
Санкт-Петербург
2025 год
2.
Создание и структура таблицы education_datasetОсновные поля таблицы:
id: Уникальный идентификатор студента
age: Возраст студента
gender: Пол студента
course: Название курса
grade: Оценка студента
Дополнительные поля:
attendance: Посещаемость (в %)
study_hours: Часы обучения
passed: Сдал ли студент экзамен (TRUE/FALSE)
Рис 1. Код для создания нашей таблицы
3.
Анализ распределения оценок(grade)
Рис 3. Метод Бокса-Мюллера
Рис 2. Исходное распределение
Изначально данные поля grade из education_dataset.csv распределены не нормально. Для
дальнейшего анализа необходимо было смоделировать нормальное распределение
оценок. Это было сделано с помощью метода Бокса-Мюллера, который позволяет
преобразовать равномерно распределенные случайные числа в нормально
распределенные.
Рис 4. Конечное распределение
4.
Вычисление описательных статистик gradeMIN
Минимум
Минимальное значение grade.
MAX
Максимум
Максимальное значение grade.
Рис 6. Вычисление описательных статистик до приведения к нормальному
распределению
AVG
Среднее
Среднее значение grade.
STD
Стандартное отклонение
Стандартное отклонение grade.
Эти показатели позволяют оценить распределение часов
обучения и выявить особенности в данных.
Рис 7.Вычисление описательных статистик после приведения к нормальному
распределению
5.
Анализ корреляции между study_hours и grade• Практическое отсутствие
корреляции между
study_hours и grade в
Исходная
исходных данных.
корреляция
Рис 8. Первоначально, описательная статистика независимой переменной study_hours показала
практическое отсутствие корреляции между study_hours и grade.
Создание
зависимости
• Моделирование
зависимости между
часами учебы и оценками.
Рис 9. Обновляем значения колонки study_hours для создания нормальной корреляции
Новая
корреляция
Рис 10. После этого была вычислена новая корреляция между этими переменными.
• Моделирование
зависимости между часами
учебы и оценками.
6.
Анализ зависимости между passed и grade.
Рис 11. Посмотрим на зависимость между passed и
grade, но из-за случайной генерации последней,
зависимости никакой нет
Рис 12.Генерируем значения с использованием функции
сигмоиды, случайных значений и значений grade, чтобы с
одной стороны определенная зависимость была, а с другой
она не была бы причинной. В итоге получим, что сдавшие
экзамен студенты более успевающие.
Изначально, из-за случайной генерации grade, зависимость между passed и grade
отсутствовала. Для создания логичной зависимости, когда более успевающие
студенты лучше сдают экзамен, была использована функция сигмоиды. Это
позволило смоделировать вероятность сдачи экзамена в зависимости от оценки
студента.
Рис 13. Описание сигмоиды
7.
Вычисление средних баллов для сдавших и несдавших
Группировка
1
Разделение студентов на группы "сдавшие" и "не сдавшие".
Вычисление среднего
2
Расчет среднего балла для каждой группы.
3
Сравнение
Сравнение средних баллов между группами.
Для анализа влияния успеваемости на сдачу экзамена были вычислены средние баллы для двух групп студентов: сдавших и
не сдавших экзамен. Сравнение этих средних значений позволяет оценить, насколько успеваемость влияет на результат
экзамена.
8.
Основные выводы и дальнейшие шагиНормальное распределение
Корреляция
Зависимость passed и grade
Применение метода Бокса-Мюллера
Создание зависимости между часами
Моделирование зависимости между
для моделирования нормального
учебы и оценками.
сдачей экзамена и успеваемостью.
распределения оценок.
В ходе работы было изучено применение нормального распределения для анализа данных об успеваемости студентов. Была
смоделирована зависимость между часами обучения и оценками, а также между успеваемостью и сдачей экзамена. Дальнейшие
исследования могут быть направлены на изучение других факторов, влияющих на успеваемость студентов.
pedagogy