Similar presentations:
Графическое суммирование данных
1. Графическое суммирование данных
2. Описание данных
• Описание данных является одной изважнейших задач статистики
– Причем статистики в целом, а не только
экспериментальной/ выборочной
статистики
– Описательная статистика – это то, что
обычно понимается под словом статистика
(в противоположность биометрии)
– Основные методы – графические и
численные
3. Значение
• Мощный инструмент передачиинформации о данных
• Представление простых изображений
• Обнаружение выбросов и тенденций
ДО ТОГО, как будет …
• Планирование анализа
4. Графические методы
• Суммарное изображение полученныхданных
• Научная графика
– Высокая плотность данных - суммирование
• Иллюстрации
– Невысокая плотность данных –
эстетическая функция
5. Исторически
• Столбиковые диаграммы– Прерывистые переменные
• Линейные диаграммы
– Непрерывные переменные
Отдельно развивалось использование картограмм
6. Графические методы
• Изображение, как минимум, двумерно.Графические методы всегда
анализируют связь показателей
• Этими показателями могут быть
– Различные переменные
• Графики звисимостей/ переменных
– Количество наблюдений в зависимости от
значения
• Графики распределения
7. Некоторые технические детали
• Изображения делаются, чаще всего на компьютере• Два вида графики:
– Растровая (точечная) – фактически, аналог фотографии
– Векторная (описание линий и фигур) – фактически, специализированный
язык
• Проблемы
– Растровая – разрешение должно быть публикационным, занимают много
места
– Векторная – на другом компьютере может интерпретироваться не
правильно
• Цветовая палитра
– Надо помнить про конечный носитель
• Черно-белый: надо делать штриховку
• Цветной: как будет выполняться цветоделение
8. Форматы
• Растровые– JPEG, TIFF, PNG, GIF
• Векторные
– WMF, CGM, EPS (?)
9. Графические методы для представления распределения данных
• Качественные/ количественные– Распределение качественного показателя
лучше описывать таблицами
– Эмпирическое распределение
количественного показателя
10. Эмпирическое распределение количественного показателя
Гистограмма
Коробчатый график
Ствол-с-листьями
Точечный график
График ядерной плотности
График Каплана-Мейера
11. Гистограмма
12. Гистограмма
0.0000.005
0.010
0.015
0.020
Доля наблюдений
0.025
0.030
Гистограмма
Гистограмма
20
30
40
50
60
Значения
70
80
90
13. Коробчатый график (box plot).
• Предложен Тьюки в рамкахисследовательского анализа данных
• В реальности комбинирует численные
и графические методы
• Базируется на оценке процентилей
14.
Скелетный коробчатый график15.
Схематичный коробчатый график16.
5040
30
20
значения
60
70
80
Коробчатый график
группа 1
группа 2
17. График "ствол с листьями" (stem-and-leaf).
График "ствол с листьями"(stem-and-leaf).
• Также предложен Тьюки
• Близкий родственник гистограммы
• Позволяет на график вынести все
имеющиеся данные, по этой причине
наиболее информационно-насыщенный
• Подходит для малых и средних групп
18. «Стебель с листьями»
• Стебель – основная часть значения элемента, частьчисла слева от десятичной точки
• Листья – упорядоченная последовательность цифр
(отброшенных, менее значимых)
• Отображаются все значения данных
• Используется для упорядочивания данных и выявления
диапазона данных
• Характеризует степень однородности данных
Пример. Если заданы возраста людей, страдающих определенным
заболеванием: 42, 44, 45, 45, 51, 53, 56, 59, 60, 61, 62, 63,
то их можно отобразить следующим образом:
4 2,4,5,5
5 1,3,6,9
6 0,1,2,3
19.
Ствол Лист#
7 8
1
7 0
1
6 5557
4
6 00000111123
11
5 556677788999
12
5 0000111122233344
16
4 5555666677888999999999
22
4 000113333334
12
3 566777788888899
15
3 00334
5
2 6
1
----+----+----+----+-Multiply Stem.Leaf by 10**+1
20.
The2
3
3
4
4
5
5
6
6
7
decimal point is 1 digit(s) to the right of the |
| 679
| 2223344
| 56777788899
| 001222223344
| 5566666777888999
| 0000011112222233444
| 5566667777778889
| 00011222334
| 566
| 03
21. Точечный гафик
• Самостоятельно используется не часто,только если много наблюдений в классе
(в принципе много наблюдений/ мало
классов)
• Фактически аналог ствола с листьями в
случае, если шаг веток равен единице
измерения.
22.
количество наблюдений20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
20
30
40
50
переменная
60
70
80
23. График ядерной плотности (kernel density)
• Улучшенный вариант гистограммы• Визуально позволяет лучше
обнаружить асимметрию
• Можно строить семейства графиков с
разной степенью сглаживания
24.
Плотность0.040
0.038
0.036
0.034
0.032
0.030
0.028
0.026
0.024
0.022
0.020
0.018
0.016
0.014
0.012
0.010
0.008
0.006
0.004
0.002
0.000
20
30
40
50
Переменные
60
70
80
25.
0.020.01
0.00
Плотность
0.03
0.04
График ядерной плотности
20
30
40
50
переменная
60
70
80
26.
zfreq1.0
1.5
2.0
2.5
8
6
0.5
0.0
2
4
6
0
x -- наблюдаемые значения
2
4
1.0
1.5
x -- наблюдаемые значения
0.0
0.5
zfreq
zfreq
4
2
0
0
0
2
4
x -- наблюдаемые значения
6
6
27.
0.030.02
0.01
0.00
Плотность
0.04
0.05
График ядерной плотности
20
30
40
50
60
переменная
70
80
90
28. График Каплана-Мейера
• Формально - вариант линейногографика – ступенчатого графика
(представление дискретно меняющихся
значений при помощи линейного
графика)
• Используется для представления
оценки эмпирической кривой
выживаемости по Каплану-Мейеру
29. График Каплана-Мейера
0.00.2
0.4
0.6
0.8
1.0
График Каплана-Мейера
0
500
1000
1500
2000
2500
3000
30. График Каплана-Мейера
1.0График Каплана-Мейера
0.0
0.2
0.4
0.6
0.8
time<-c(9 , 13, 13, 18, 23, 28, 31,
34, 45, 48, 161, 5, 5, 8, 8, 12,
16, 23, 27, 30, 33, 43, 45)
status<-c(1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0,
1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1)
group<-c(rep(1,11),rep(0,12))
0
50
100
150
31. Методы представления связи
• Две переменные, поэтому:– Количественная vs количественная
– Количественная vs качественная
– Качественная vs качественная
32. Количественная vs количественная
Диаграмма рассеяния
Двумерный график ядерной плотности
Мешковидный график
Линейные графики
33.
34. Диаграмма рассеяния
140120
100
y
160
180
Диаграмма рассеяния
120
140
160
x
180
200
35.
8060
40
ДАД, мм рт. ст.
100
Мешковидный график
80
100
120
САД, мм рт.ст.
140
160
36. График двумерной ядерной плотности (контурная карта)
259САД, мм рт.ст.
215
172
128
84
47.00
70.25
93.50
ДАД, мм рт.ст.
116.75
140.00
37.
График двумерной ядерной плотности (G3D)Плотность
0.00126
0.00084
140
0.00042
109
78 ДАД, мм рт.ст.
0.00000
259
201
САД, мм рт.ст.
142
84
47
38. Линейный график
39. Качественные vs. количественные
• Столбиковые диаграммы средних• Линейные диаграммы средних
• Лесной график (точнее, точечный
график средних, «лесным» он
становится в выборочной статистике)
• Диаграмма-звезда/ паутина
40.
100Death Rates in Virginia
0
20
40
60
80
Rural Male
Rural Female
Urban Male
Urban Female
70-74
Mean 60.35
Столбиковая диаграмма
65-69
Mean 40.4
60-64
Mean 25.88
55-59
Mean 16.93
Faked 95 percent error bars
50-54
Mean 11.05
41.
3.52.0
2.5
3.0
Log Odds Ratio
4.0
4.5
5.0
Одышка и хрипы у шахтеров
25-29
30-34
35-39
40-44
45-49
50-54
Возрастные группы
Линейная диаграмма логарифма отношения шансов
55-59
60-64
42. Лесной график
43. Диаграмма-звезда
44. Качественные vs качественные
• Столбиковые диаграммы количества– Аналог гистограмм
• Новые типы
– Четырехпольный график
– Диаграмма-сито
– Диаграмма-мозаика
– Триплот
45.
46.
47.
48.
2010
0
Количество
30
40
Количество обследованных в группах
плацебо : ж
плацебо : м
препарат : ж
Группа
препарат : м
49. Новые типы графиков для качественных показателей
• Базируются на понятии независимостистрок и столбцов таблицы
• Отражают связь
• Легко расширяются для статистического
тестирования – фактически основой
построения графиков является
методология оценки хи2.
50. Четырехпольный график
51.
Мозаика52.
Сито53.
Улучшение на фоне терапиизначительное
80
60
Ж:препарат
40
М:препарат
20
Ж:плацебо
М:плацебо
нет
некоторое
54.
Улучшение на фоне терапиивыраженное
0.8
0.6
Ж:препарат
0.4
М:препарат
0.2
Ж:плацебо
М:плацебо
нет
некоторое
55. Особые виды графиков
• Картограммы– Карты в комбинации с точечными, столбиковыми
диаграммами или кодирование цветом
• Психометрические графики
– Лица Чернова
– MDS
– Факторные нагрузки
• Диагностические графики
– ROC кривые
56.
ВИЧ в РФ, 2006 год57.
1.00.8
0.6
True positive rate
0.4
0.2
0.0
0.0
0.2
0.4
0.6
False positive rate
0.8
1.0