Similar presentations:
Кластерный анализ (классификация)
1.
Кластерный анализ(классификация)
Классификация
– разбиение множества объектов на несколько
однородных подмножеств (классов) по наиболее
существенным признакам их сходства
2.
12
3
4
3.
Метод одиночной связи4.
Метод одиночной связи5.
Метод одиночной связи7 4
3
6.
Метрикиn
d ( x j , x j 1 ) xi , j xi , j 1 2
2
i 1
Евклида
Т 1 = 10.0 оС S 1 = 34.5 о/oo
Т 2 = 20.0 оС S 2 = 35.5 о/oo
d2 = (Т1-Т2)2 + (S1-S2)2 = 100 + 1 =101
Стандартизация !
t i = (xi – xsr)/СКО
t(Т 1) = (10.0-15.0) оС/5 оС = -1.0
t(S 1) = (34.5-35.0) о/oo / 0.5 о/oo = -1.0
t(Т 2) = (20.0-15.0) оС/5 оС = 1.0
t(S 2) = (35.5-35.0) о/oo / 0.5 о/oo = 1.0
d2 = (t(Т1)-t(Т2))2 + (t(S1)-t(S2))2 = 4 + 4 = 8
7.
Матрица расстоянийт1
т1
т2
т3
т4
т5
т6
т7
0
1.2
1.5
2.3
2.6
2.8
3.6
т2
1.2
0
0.6
1.3
1.6
1.8
2.5
т3
1.5
0.6
0
0.3
0.8
1.3
1.1
т4
2.3
1.3
0.3
0
0.2
0.5
1.6
т5
2.6
1.6
0.8
0.2
0
0.7
2.1
т6
2.8
1.8
1.3
0.5
0.7
0
т7
3.6
2.5
1.1
1.6
2.1
0.9
0.9
0
8.
Метрикиd ( x j , x j 1 ) 1 R
R = 0.95
d = 0.05
R = 0.01
d = 0.99
R = - 0.95
d = 1.95
9.
Матрица корреляцийт1
т1
т2
т3
т4
т5
т6
т7
1.00
0.95
0.89
0.81
0.69
0.50
0.31
т2
0.95
т3
0.89
0.93
1.00
0.93
0.70
0.25
-0.01
-0.30
1.00
0.96
0.15
-0.56
-0.95
т4
0.81
0.70
0.96
1.00
0.84
0.50
0.32
т5
0.69
0.25
0.15
0.84
0.70
0.43
1.00
т7
0.31
-0.30
-0.95
0.32
0.43
0.90
0.90
1.00
1.00
т6
0.50
-0.01
-0.56
0.50
0.70
Матрица расстояний
т1
т2
т3
т4
т5
т6
т7
т1
т2
т3
т4
т5
т6
т7
0.00
0.05
0.11
0.19
0.31
0.50
0.69
0.05
0.00
0.07
0.30
0.75
1.01
1.30
0.11
0.07
0.00
0.04
0.85
1.56
1.95
0.19
0.30
0.04
0.00
0.16
0.50
0.68
0.31
0.75
0.85
0.16
0.00
0.30
0.57
0.50
1.01
1.56
0.50
0.30
0.00
0.10
0.69
1.30
1.95
0.68
0.57
0.10
0.00
10.
МетрикиЕвклида - классификация по величине
(значения переменных в одном классе
больше или меньше, чем в другом классе?)
1-R - классификация по изменчивости
(одинаково или по-разному
ведут себя переменные в разных классах)
11.
МетодыИерархические (одиночной связи, Уорда и др.)
Используют разные виды метрик
Итеративные (k – средних, поиска сгущений)
Используется только Евклидова метрика
12.
Иерархический метод Уорда+ просто рассчитывается
+ дает компактные группы
+ любые метрики
- требует большого количества
памяти
- не определяется количество
классов
2 кл
3 кл
4 кл
5 кл
n
p
2
SS
x
x
i , j j ,k
i 1 j 1
2
min
13.
Иерархический метод УордаВыбор количества классов?
1. Исходя из задач исследования
2. На основании сравнения классов
Метрика Евклида:
сравнение средних значений переменных
Метрика 1-R:
корреляция между классами
14.
Итеративный метод k-средних- требует времени для расчета
- количество классов нужно задавать заранее
- только метрика Евклида
+ не требует памяти для матрицы
расстояний
+ рассчитываются функционалы качества
3 класса
15.
Итеративный метод k-среднихФункционалы качества
D MK – МежКлассовое расстояние
D ВК – ВнутриКлассовое расстояние
D1 ОПТ DMK DBK max
D2 ОПТ DMK DBK max
16.
Комментарии к выполнению работы1
2
3