1.42M
Category: softwaresoftware

Исследование алгоритмов кластеризации больших данных

1.

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Федеральное государственное бюджетное образовательное учреждение высшего образования
«КУБАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
(ФГБОУ ВО «КубГУ»)
Кафедра вычислительных технологий
Защита выпускной квалификационной работы по теме:
«Исследование алгоритмов кластеризации больших данных»
Подготовила:
Студентка 4 курса Шестак В. А.
Научный руководитель
Канд. техн. наук, доц. Руденко О.В

2.

ВВЕДЕНИЕ
Объект исследования
В данной дипломной работе являются
алгоритмы кластеризации больших данных.
Предмет исследования

Выступает
сравнительная
эффективность
алгоритмов кластеризации в условиях больших
объемов данных.
Результат работы
В результате работы была разработана программа для автоматизированного анализа и кластеризации организаций
на основе их характеристик. Приложение осуществляет загрузку большого объёма данных, их предобработку,
формирование тематических групп признаков, кодирование категориальных данных, масштабирование,
кластеризацию с помощью выбранных алгоритмов и визуализацию результатов с применением методов UMAP и
PCA.
Научная новизна
Актуальность данной работы
Заключается в проведении сравнительного анализ
алгоритмов кластеризации с акцентом на их
применимость в условиях больших объемов
информации, а также в исследовании гибридных и
оптимизированных подходов.
Актуальность темы обусловлена тем, что в эпоху
цифровой трансформации объемы данных растут
экспоненциально, что требует эффективных методов их
анализа. Кластеризация, как один из ключевых методов
машинного обучения без учителя, позволяет выявлять
скрытые закономерности в больших данных.

3.

ЗАДАЧИ
Провести анализ современных алгоритмов кластеризации и их
модификаций для Big Data.
Изучить методы оценки качества кластеризации и их
применимость к большим данным.
Реализовать сравнительных анализ алгоритмов на реальных и
синтетических данных.
Разработать рекомендации по выбору алгоритма в
зависимости от характеристик данных.
Исследовать, обработать и проанализировать датасет.
Провести предобработку и группировку признаков.
Выполнить кластеризацию и провести анализ результатов.

4.

ТЕОРЕТИЧЕСКИЕ ОСНОВЫ КЛАСТЕРИЗАЦИИ
Кластеризация — это метод машинного обучения без учителя, позволяющий группировать объекты
по сходству признаков для упрощения анализа и выявления структуры данных (рисунок 1).
Рисунок 1 – Пример работы кластеризации

5.

ОБЗОР АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ
MiniBatchKMeans

эффективный
вариант
KMeans для больших данных.
KMeans
с
инициализацией
k-means++

классический
алгоритм
с
улучшенной
инициализацией центров.
K-Modes

алгоритм
для
категориальных
признаков.
DBSCAN — плотностной алгоритм, не требующий
заранее задавать число кластеров.
OPTICS — плотностной алгоритм, способный
находить кластеры с переменной плотностью.
Agglomerative Clustering — иерархический
алгоритм, объединяющий объекты в кластеры
на основе расстояний.
HDBSCAN — усовершенствованный плотностной
алгоритм, автоматически определяющий число
кластеров. (Рисунок 2)
Рисунок 2 – Виды алгоритмов
кластеризации

6.

ОБЗОР АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ
Рисунок 2 – Сравнение алгоритмов
кластеризации

7.

ПРЕДОБРАБОТКА ДАННЫХ
Рисунок 4 – Не обработанные данные
Рисунок 5 – Обработанные данные

8.

МЕТРИКИ ОЦЕНКИ КАЧЕСТВА
silhouette_score — чем ближе к
1, тем лучше.
calinski_harabasz_score — выше =
лучше.
davies_bouldin_score — ниже =
лучше.
Рисунок 6 – Хорошие результаты метрик
Рисунок 7 – Плохие результаты метрик
Рисунок 8 – Сравнение результатов метрик по
алгоритмам

9.

ГРУППИРОВКА ДАННЫХ
Общая статистика по организациям
• Количество организаций (всего, по годам, по регионам).
• Распределение по типам (kind):
o Юридические лица vs. ИП.
o Доля микробизнеса, малого, среднего и крупного бизнеса.
• Динамика регистрации/закрытия по годам.
Финансовые показатели
• Средняя выручка/расходы по:
o Регионам.
o Отраслям (ОКВЭД).
o Категориям бизнеса.
• Рентабельность по отраслям
Географический анализ
• Распределение организаций по регионам.
• Концентрация бизнеса в городах vs. сельской местности.
• Топ-5 регионов по количеству ИП/юридических лиц.
• Картограммы.
Анализ занятости
• Среднее число сотрудников по отраслям/регионам.
• Зависимость размера бизнеса от числа сотрудников.
• Регионы с максимальной/минимальной занятостью в малом
бизнесе.
Анализ видов деятельности
• Топ-10 ОКВЭД по количеству организаций.
• Специализация регионов: какие отрасли преобладают в каждом
регионе.
• Связь категории бизнеса и вида деятельности).
Временные тренды
• Рост/сокращение числа организаций по годам.
• Изменение выручки в разрезе отраслей за 5 лет.
• Сезонность создания/закрытия бизнеса.
Выживаемость бизнеса
• Средний срок жизни организаций.
• Процент закрывшихся компаний по отраслям.

10.

ВИЗУАЛИЗАЦИЯ КЛАСТЕРОВ
Рисунок 9 –
Визуализация
через UMAP
Рисунок 11 –
Визуализация
через PCA
Рисунок 10 –
Визуализация
через UMAP
Рисунок 12 –
Визуализация
через t-SNE

11.

ДЕМОНСТРАЦИЯ РАБОТЫ ПРОГРАММЫ
Рисунок 14– Тепловая карта
Рисунок 13– Визуализация
кластеров
Рисунок 15– Зависимость между
ОКВЭД и рентабельностью

12.

ЗАКЛЮЧЕНИЕ
Таким образом, в ходе работы:
- Проведен анализ алгоритмов и метрик кластеризации.
- Разработана система для кластеризации больших объёмов данных.
- Проведено сравнение алгоритмов по метрикам качества.
Данный
инструмент
может
применяться
в
задачах
сегментации
клиентов,
выявления аномалий, анализа поведения организаций, и легко масштабируется
на другие домены. напиши в академическом стиле

13.

СПАСИБО ЗА ВНИМАНИЕ
English     Русский Rules