Кластерный анализ в программе STATISTICA
Данные Росстат
Данные ЦБ РФ
Содержательная интерпретация
Содержательная интерпретация
Иллюстрация динамики
Иллюстрация динамики
Иллюстрация динамики
973.65K
Category: softwaresoftware

Кластерный анализ в программе Statistica

1. Кластерный анализ в программе STATISTICA

ЛабРаб 2

2. Данные Росстат

Обновлено 29.08.2017
Продажа алкогольных напитков населению
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016
В абсолютном алкоголе:
всего, млн. дкл
118
120
125
131
132
133 135,0 139
137
130
128
127 131,1 122,1 110,5 99,2 96,8
на душу населения, л
8,0
8,2
8,6
9,1
9,2
9,3
9,4
9,7
9,6
9,1
8,9
8,9
водка и ликероводочные изделия
215
209
211
216
209
204
197
185
177
166
158
156 153,0 133,6 112,4 97,2 96,6
коньяки, коньячные напитики
(включая бренди, кальвадосы)
4,1
4,5
5,2
5,9
6,2
6,8
7,6
8,9
10,8 10,6 11,1 11,6
-
-
-
-
-
-
-
-
9,2
8,5
7,6
6,8
6,6
В натуральном выражении, млн. дкл:
напитки слабоалкогольные (с
содержанием этилового спирта не
более 9%)
винодельческая продукция (без вин
шампанских и игристых) 1)
из нее вино
шампанские и игристые вина
пиво, кроме коктейлей пивных и
напитка солодового
-
52,4 56,7 62,6 72,2 77,7 84,9 81,1 94,9 103
-
-
-
-
-
-
-
-
-
12,4
12,1
11,5
10,6 10,3
-
31,9 31,4
26,9
23,3
17,8
10,0
103
103 97,1
93,6
83,6
90,4
86,9 84,9
61,8
60,2
57,8
53,6 51,9
28,3
27,7
26,4
23,6 22,0
-
-
-
18,3 18,5 17,7 18,7 18,5 19,4 20,6 24,1 26,0 25,5 27,3 28,5
524,6 634,6 707,8 762,5 844,7 892,1 1003 1155 1138 1025
8,8
1004, 1011,
1017,5 984,2 895,9 810,2 780,6
0
5

3. Данные ЦБ РФ

№№
1
2
3
4
5
Динамика
курса доллара
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Год
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
руб/$
6,206
24,55
28,03
29,16
31,4758
30,5547
28,9641
28,4244
26,9423
25,7297
24,4262
31,3733
30,4769
29,0075
31,1408
32,1561
35,989
62,5472
65,0539
58,3152
62,3431

4.

1.
2.
3.
Запускаем программу Statistica
Открываем документ (Open Document):
В меню Файл выбрать команду Open
Открываем лист КурсАлко в файле КурсАлко.xls

5.

В Statistica 6 вызываем диалог кластерного анализа
Меню Статистика / Многомерные
исследовательские методы / Анализ кластера

6.

В Statistica 10 переходим на вкладку
Анализ→Многомерный разведочный→Кластерный

7.

В появившемся окне диалога Statistica 6 выбираем
иерархические агломеративные методы
Joining (tree clustering)

8.

Открываем вкладку Advanced

9.

Выбираем переменные
- кнопка Variables (Дополнительно)
- в открывшемся окне диалога выбрать все
переменные (можно нажать кнопку Select All)
- нажать кнопку Ok

10.

Выбираем переменные
- в открывшемся окне диалога выбрать первые две
переменные и нажать кнопку Ok

11.

В открывающемся списке Amalgamation (linkage) rule (правило
объединения в кластеры) можно указать:
- Single Linkage (метод одиночной связи)
- Complete Linkage (метод полной связи)
- Unweighted pair-group average (метод невзвешенного
попарного среднего)
- Ward’s method (метод Уорда) и другие

12.

В открывающемся списке Distance measure (метрика – расстояние
между объектами) можно указать:
- Euclidean distance (евклидова метрика)
- City-block Manhattan distance (манхеттенское расстояние
городских кварталов)
- Percent disagreement (процент несогласия) и другие

13.

Выберем метод одиночной связи и евклидову метрику
После нажатия кнопки Ok появится окно, в котором по умолчанию
откроется вкладка Быстрый

14.

На вкладке Advanced (Дополнительно) представлен
расширенный набор результатов

15.

Кнопка Distance matrix выводит матрицу расстояний (с
учетом выбранной метрики)
Например, расстояние между 2000 и 2001 годом равно 3,0 по евклидовой
метрике

16.

На вкладке Advanced (Дополнительно) можно вывести
Схему объединения

17.

Кнопка Amalgamation schedule (Схема объединения)
выводит последовательность объединения в кластеры в
виде таблицы
При уровне 1,91 (расстояние между кластерами не превышает два стандартных
отклонения) образовано 5 кластеров:
1 КЛАСТЕР: 2003,2012
3 КЛАСТЕР: 2009
4 КЛАСТЕР: 2010,2011
2 КЛАСТЕР: 2004,2005
5 КЛАСТЕР: 2007,2008

18. Содержательная интерпретация

Замечание
Возрастание номера кластера не означает возрастание
характеристик, входящих в состав кластера
В кластерах с меньшим номером объекты расположены
ближе друг к другу (плотнее) и были раньше
объединены в один кластер

19.

Кнопка hierarchical tree plot (вертикальная) выводит
дендрограмму в вертикальном виде

20. Содержательная интерпретация

Наиболее удалены от основной группы 2000-2013гг.
следующие годы:
2015-2016
2014
В эти годы наблюдается максимальный рост курса доллара
и минимальное потребление алкоголя
Таким образом, рост курса доллара содействует
снижению потребления алкоголя населением.

21. Иллюстрация динамики

Динамика курса и потребления алкоголя
160,00
140,00
R² = 0,9336
120,00
100,00
80,00
60,00
40,00
R² = 0,9172
20,00
0,00
2000
руб/$
2002
2004
млн.дал
2006
2008
Полиномиальная (руб/$)
2010
2012
2014
2016
Полиномиальная (млн.дал)

22. Иллюстрация динамики

Курс доллара vs Алкоголизации
2,50
R² = 0,9172
2,00
1,50
1,00
0,50
0,00
2000
R² = 0,938
2002
2004
2006
2008
2010
2012
2014
2016
Коэф.$
Коэф.Алко
Полиномиальная (Коэф.$)
Полиномиальная (Коэф.Алко)
2018

23. Иллюстрация динамики

Удвоение курса
на четверть
снижает
потребление
English     Русский Rules