Similar presentations:
Методология анализа данных (лекция 2)
1.
1МЕТОДОЛОГИЯ АНАЛИЗА ДАННЫХ
ЛЕКЦИЯ 2
РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ
д.т.н., Шахгельдян Карина Иосифовна
2.
Предварительная обработкаОсновные этапы
2
1. Дескриптивная статистика
2. Статистический анализ:
1. Оценка на нормальность (нормальное
распределение)
2. Однофакторный статистический анализ
3. Многофакторный статистический анализ
3.
Дескриптивная статистика3
Определение
Дескриптивная (Описательная) статистика – это обработка эмпирических данных, их
систематизация, наглядное представление в форме графиков и таблиц,
количественное описание посредством основных статистических показателей
Что должно быть в аналитическом отчете
1. Табличное представление
2. Графическое изображение
3. Расчет статистических показателей
4.
Дескриптивная статистика4
Расчет статистических показателей
Меры среднего уровня
Меры среднего уровня дают усредненную характеристику совокупности объектов
по определенному признаку.
• Среднее значение
• Стандартная ошибка
• Стандартное отклонение
• Эксцесс
• Асимметрия
• Интервал
• Минимум
• Максимум
• Счёт
• Медиана
• Мода
• Квантиль
• Математическое ожидание
• Доверительный интервал
5.
Дескриптивная статистика5
Среднее
Наиболее ожидаемая величина
среднее арифметическое наблюдаемых значений случайной величины
(выборочное среднее, среднее по выборке)
6.
Дескриптивная статистика6
Медиана
Наиболее центральная величина
число, которое находится в середине этого набора, если его упорядочить
по возрастанию,
7.
Дескриптивная статистика7
Среднее/Мода/Медиана
Совпадают при нормальном распределении
8.
Дескриптивная статистика8
Среднеквадратическое отклонение
Показатель рассеивания значений случайной
величины относительно её математического
ожидания
9.
Дескриптивная статистика9
Среднеквадратическое отклонение
Большее значение СКО показывает больший разброс значений; меньшее значение,
соответственно, показывает, что значения в множестве сгруппированы вокруг
среднего значения.
Правило записи:
Среднее СКО
100 15
10.
Дескриптивная статистика10
Стандартная ошибка среднего
Стандартное отклонённые выборочного среднего
Правило записи:
Среднее Стандартная ошибка
среднего
100 15
11.
Дескриптивная статистика11
Квантиль
значение, которое заданная случайная величина не превышает с
фиксированной вероятностью
Правило записи:
Медиана [Q1; Q3]
100 [90; 120]
12.
Дескриптивная статистика12
Размах
Минимальное, Максимальное значение, Интервал
Интервальная оценка описывается: [Оценка мин; Оценка макс]
Характеризует точность и надежность оценок
13.
Дескриптивная статистика13
Доверительные интервалы
Доверительным называется интервал, в который попадают измеренные в
эксперименте значения, соответствующие доверительной вероятности
Правило записи:
95% ДИ / 99%
ДИ
Среднее [Д1;Д2]
100 [90; 110]
100 (90; 110)
Медиана [Д1;Д2]
100 [100; 110]
14.
Дескриптивная статистика14
Доверительные интервалы
Доверительные интервалы среднего, медианы, отношения шансов, коэффициентов
линейной и логистической регрессии
15.
Дескриптивная статистика15
Меры рассеивания
Среднеквадратичное отклонение
Дисперсия
Размах вариации
Интерквантильный размах
Среднее абсолютное отклонение
16.
Визуализация16
17.
Визуализация17
Лепестковая диаграмма - для каждой категория своя ось
18.
Визуализация18
Столбчатая диаграмма
19.
Визуализация19
Гистограммы:
X=Минимум; Интервалы; Максимум
Y= Количество значений в интервале
20.
Визуализация20
Гистограммы / столбчатые диаграммы
21.
Визуализация21
Гистограммы / столбчатые диаграммы
22.
Визуализация22
Гистограммы / диаграмма распределения вероятности
23.
Визуализация23
Гистограммы / диаграмма распределения вероятности
24.
Визуализация24
Гистограммы – унимодальное и бимодальное распределение
25.
Визуализация25
Гистограммы – отрицательная и положительная ассиметрия
26.
Визуализация26
Гистограммы – Обобщение
27.
Визуализация27
Гистограммы – Сравнение
28.
Визуализация28
Диаграмма рассеивания – scatter plot
29.
Визуализация29
Диаграмма рассеивания
30.
Визуализация30
Матрицы рассеивания
31.
Визуализация31
Диаграмма размаха
32.
Визуализация32
Диаграмма размаха – сравнение величин для нескольких категория
33.
Визуализация33
Тепловая матрица для многомерного анализа данных и выявления
корреляций
34.
Визуализация34
Пузырьковая диаграмма
для сравнения и отображения взаимосвязей между разными
переменными с помощью их местоположения и пропорций – часто
используется для анализа паттернов и поиска корреляций
35.
Типы данных35
Варианты соотношений / Виды графиков
X – непрерывное, Y непрерывное
Диаграмма рассеивания, Гистограмма,
Пузырьковая диаграмма
X – непрерывное, Y категориальное
Диаграмма размаха, столбчатая
диаграмма
X – категориальное, Y непрерывное
Диаграмма размаха, тепловая матрица
X – категориальное , Y категориальное Тепловая матрица для количества
36.
Задание 236
Разведочный анализ
Провести разведочный анализ данных
1. Использовать различные методы визуализации и построить
графики/диаграммы, демонстрирующие специфику данных
2. Использовать дескриптивную статистику и сформировать таблицы со
стандартными статистиками
3. Выдвинуть гипотезы, которые в дальнейшем мы принимаем за нулевые и
начинаем проверять