3.37M
Category: mathematicsmathematics

Методология анализа данных (лекция 2)

1.

1
МЕТОДОЛОГИЯ АНАЛИЗА ДАННЫХ
ЛЕКЦИЯ 2
РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ
д.т.н., Шахгельдян Карина Иосифовна

2.

Предварительная обработка
Основные этапы
2
1. Дескриптивная статистика
2. Статистический анализ:
1. Оценка на нормальность (нормальное
распределение)
2. Однофакторный статистический анализ
3. Многофакторный статистический анализ

3.

Дескриптивная статистика
3
Определение
Дескриптивная (Описательная) статистика – это обработка эмпирических данных, их
систематизация, наглядное представление в форме графиков и таблиц,
количественное описание посредством основных статистических показателей
Что должно быть в аналитическом отчете
1. Табличное представление
2. Графическое изображение
3. Расчет статистических показателей

4.

Дескриптивная статистика
4
Расчет статистических показателей
Меры среднего уровня
Меры среднего уровня дают усредненную характеристику совокупности объектов
по определенному признаку.
• Среднее значение
• Стандартная ошибка
• Стандартное отклонение
• Эксцесс
• Асимметрия
• Интервал
• Минимум
• Максимум
• Счёт
• Медиана
• Мода
• Квантиль
• Математическое ожидание
• Доверительный интервал

5.

Дескриптивная статистика
5
Среднее
Наиболее ожидаемая величина
среднее арифметическое наблюдаемых значений случайной величины
(выборочное среднее, среднее по выборке)

6.

Дескриптивная статистика
6
Медиана
Наиболее центральная величина
число, которое находится в середине этого набора, если его упорядочить
по возрастанию,

7.

Дескриптивная статистика
7
Среднее/Мода/Медиана
Совпадают при нормальном распределении

8.

Дескриптивная статистика
8
Среднеквадратическое отклонение
Показатель рассеивания значений случайной
величины относительно её математического
ожидания

9.

Дескриптивная статистика
9
Среднеквадратическое отклонение
Большее значение СКО показывает больший разброс значений; меньшее значение,
соответственно, показывает, что значения в множестве сгруппированы вокруг
среднего значения.
Правило записи:
Среднее СКО
100 15

10.

Дескриптивная статистика
10
Стандартная ошибка среднего
Стандартное отклонённые выборочного среднего
Правило записи:
Среднее Стандартная ошибка
среднего
100 15

11.

Дескриптивная статистика
11
Квантиль
значение, которое заданная случайная величина не превышает с
фиксированной вероятностью
Правило записи:
Медиана [Q1; Q3]
100 [90; 120]

12.

Дескриптивная статистика
12
Размах
Минимальное, Максимальное значение, Интервал
Интервальная оценка описывается: [Оценка мин; Оценка макс]
Характеризует точность и надежность оценок

13.

Дескриптивная статистика
13
Доверительные интервалы
Доверительным называется интервал, в который попадают измеренные в
эксперименте значения, соответствующие доверительной вероятности
Правило записи:
95% ДИ / 99%
ДИ
Среднее [Д1;Д2]
100 [90; 110]
100 (90; 110)
Медиана [Д1;Д2]
100 [100; 110]

14.

Дескриптивная статистика
14
Доверительные интервалы
Доверительные интервалы среднего, медианы, отношения шансов, коэффициентов
линейной и логистической регрессии

15.

Дескриптивная статистика
15
Меры рассеивания
Среднеквадратичное отклонение
Дисперсия
Размах вариации
Интерквантильный размах
Среднее абсолютное отклонение

16.

Визуализация
16

17.

Визуализация
17
Лепестковая диаграмма - для каждой категория своя ось

18.

Визуализация
18
Столбчатая диаграмма

19.

Визуализация
19
Гистограммы:
X=Минимум; Интервалы; Максимум
Y= Количество значений в интервале

20.

Визуализация
20
Гистограммы / столбчатые диаграммы

21.

Визуализация
21
Гистограммы / столбчатые диаграммы

22.

Визуализация
22
Гистограммы / диаграмма распределения вероятности

23.

Визуализация
23
Гистограммы / диаграмма распределения вероятности

24.

Визуализация
24
Гистограммы – унимодальное и бимодальное распределение

25.

Визуализация
25
Гистограммы – отрицательная и положительная ассиметрия

26.

Визуализация
26
Гистограммы – Обобщение

27.

Визуализация
27
Гистограммы – Сравнение

28.

Визуализация
28
Диаграмма рассеивания – scatter plot

29.

Визуализация
29
Диаграмма рассеивания

30.

Визуализация
30
Матрицы рассеивания

31.

Визуализация
31
Диаграмма размаха

32.

Визуализация
32
Диаграмма размаха – сравнение величин для нескольких категория

33.

Визуализация
33
Тепловая матрица для многомерного анализа данных и выявления
корреляций

34.

Визуализация
34
Пузырьковая диаграмма
для сравнения и отображения взаимосвязей между разными
переменными с помощью их местоположения и пропорций – часто
используется для анализа паттернов и поиска корреляций

35.

Типы данных
35
Варианты соотношений / Виды графиков
X – непрерывное, Y непрерывное
Диаграмма рассеивания, Гистограмма,
Пузырьковая диаграмма
X – непрерывное, Y категориальное
Диаграмма размаха, столбчатая
диаграмма
X – категориальное, Y непрерывное
Диаграмма размаха, тепловая матрица
X – категориальное , Y категориальное Тепловая матрица для количества

36.

Задание 2
36
Разведочный анализ
Провести разведочный анализ данных
1. Использовать различные методы визуализации и построить
графики/диаграммы, демонстрирующие специфику данных
2. Использовать дескриптивную статистику и сформировать таблицы со
стандартными статистиками
3. Выдвинуть гипотезы, которые в дальнейшем мы принимаем за нулевые и
начинаем проверять
English     Русский Rules