312.58K
Category: mathematicsmathematics

Разбиение обучающей выборки на непересекающиеся подмножества - кластеры

1.

Постановка задачи кластеризации
Главное назначение кластерного анализа – разбиение множества
исследуемых объектов, характеризуемых совокупностью признаков, на
однородные в соответствующем понимании группы (кластеры).
Разбиение обучающей выборки
на непересекающиеся подмножества-кластеры

2.

Общий подход к нахождению ЛРФ
Нахождение w, удовлетворяющего (*), равносильно нахождению решения Vw
= y, (y с положительными координатами).
«Спуск» по поверхности критерия
gradwF и gradyF .
против направления градиентов

3.

Основные цели кластеризации:
1) Нахождение групп схожих элементов с целью дальнейшей
независимой их обработки.
2) Получение новой небольшой выборки, состоящей из эталонных
элементов – типичных представителей кластеров;
3) Нахождение нетипичных элементов;
4) Формирование иерархической структуры выборки.
В этом случае на каждом иерархическом уровне количество
кластеров должно быть небольшим.

4.

Критерии качества кластеризации:
1) среднее внутрикластерное расстояние
2) среднее межкластерное расстояние
3) суммарная выборочная дисперсия разброса элементов
относительно центров кластеров
- центр кластера Xi .

5.

Алгоритм k-means
1. Выделяются некоторые образы из обучающей выборки
0
– начальные центры кластеров
English     Русский Rules