Определение Data Mining
Определение Data Mining
Процесс анализа данных
Междисциплинарность интеллектуального анализа данных
Что позволяет сделать Data Mining:
Основные ограничения при использовании Data Mining
Основные стадии Data Mining
Свободный поиск (выявление закономерностей)
Основные действия на этапе свободного поиска
«Прозрачность» выявленных закономерностей
Прогностическое моделирование (Predictive Modeling)
Прогностическое моделирование (Predictive Modeling)
Этапы подготовка к проведению Data mining
Понятие предметной области
Анализ предметной области
Постановка задачи Data Mining
Постановка задачи Data Mining
Постановка задачи Data Mining
Подготовка данных
Определение и анализ требований к данным
Сбор данных
Определение необходимого количества данных
Предварительная обработка данных
Предварительная обработка данных
Задачи Data-Mining:
1.40M
Category: financefinance

1-лекция

1.

ТАШКЕНТСКИЙ УНИВЕРСИТЕТ ИНФОРМАЦИОННЫХ
ТЕХНОЛОГИЙ
ИМЕНИ МУХАММАДА АЛЬ-ХОРАЗМИЙ
ОСНОВЫ ИССКУСТВЕННОГО ИНТЕЛЛЕКТА
1-ЛЕКЦИЯ: ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ.
(DATA MINING)
КАФЕДРА: ИССКУСТВЕННЫЙ
ИНТЕЛЛЕКТ
УЗАКОВА МАМУРА
АБДУРАЙИМОВНА

2.

ПЛАН:
1. Определение Data Mining
2. Процесс анализа данных
3. Междисциплинарность интеллектуального анализа данных
4. Основные ограничения при использовании Data Mining
5. Что позволяет сделать Data Mining
6. Основные ограничения при использовании Data Mining
7. Основные стадии Data Mining
8. «Прозрачность» выявленных закономерностей
2

3. Определение Data Mining

Data Mining это –
процесс «обнаружения знаний
в базах данных».
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
3

4. Определение Data Mining

Data Mining это
процесс обнаружения в сырых данных ранее
неизвестных,
нетривиальных,
практически
полезных и доступных для интерпретации
знаний, необходимых для принятия решений в
различных сферах человеческой деятельности.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
4
4

5.

1. Этапы развития
Развитие технологий анализа прошло путь от простой
статистической обработки до современных систем
искусственного интеллекта:
•1960-е (Сбор данных): Создание баз данных, хранение
информации.
•1980-е (Доступ к данным): Появление реляционных СУБД,
SQL, возможность делать простые запросы.
•1990-е (Data Mining): Рождение концепции KDD (Knowledge
Discovery in Databases) — переход от простого хранения к
поиску скрытых закономерностей.
•2000-е – настоящее время: Эпоха Big Data, нейронных
сетей и глубокого машинного обучения.
5

6.

Понимание данных (Data Understanding)
На этом этапе аналитики изучают имеющиеся массивы
информации для оценки их качества и пригодности:
•Сбор первичных данных.
•Оценка объема, типов полей и их форматов.
•Первичная визуализация для выявления явных трендов
или аномалий.
6

7.

Подготовка данных (Data Preparation)
Самый трудозатратный этап, занимающий до 80% времени
проекта. Включает:
•✅ Очистка данных (Data Cleaning): Удаление «шума»,
исправление ошибок, обработка пропущенных значений и
дубликатов.
•✅ Сжатие данных (Data Reduction): Уменьшение
объема данных без потери информативности. Это может
быть агрегация (обобщение), дискретизация или отбор
признаков (выбор только самых важных параметров для
модели).
•Трансформация: Приведение данных к единому формату
(например, нормализация чисел в диапазон от 0 до 1)
7

8.

Алгоритмы поиска данных (Методы анализа)
Для извлечения знаний используются различные математические
подходы:
•Классификация: Отнесение объекта к одной из заранее известных
групп (например, «спам» или «не спам»).
•Кластеризация: Группировка объектов по схожести, когда группы
заранее неизвестны.
•Ассоциация: Поиск правил типа «если купили А, то купят и Б»
(анализ рыночной корзины).
•Регрессия: Прогнозирование числового значения (например, цены
акции на завтра)
8

9.

Данные стали ключевым стратегическим активом. Компании
используют Data Mining для прогнозирования спроса, оптимизации
цепочек поставок и снижения операционных рисков. Технологии
позволяют выявлять уникальные паттерны поведения клиентов, что
критично для создания точных рекомендательных систем и
таргетированной рекламы. Методы анализа незаменимы для быстрого
обнаружения аномалий, выявления случаев мошенничества и
управления финансовыми рисками.
9

10. Процесс анализа данных

Гипотеза
(модель)
OLAP
Инструмент
ы анализа
Data Mining
Процесс анализа данных
Исходные
данные
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
10
10

11. Междисциплинарность интеллектуального анализа данных

Теория баз
данных
Другие
дисциплины
Статистика
Машинное
обучение
Data
Mining
Визуализация
Алгоритмизация
Искусственный
интеллект
Распознавание
образов
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
11
11

12. Что позволяет сделать Data Mining:

1. Найти закономерности в накопленных
данных;
2. Построить модели и правила,
описывающих выявленные
закономерности ;
3. Построить модели и правила,
прогнозирующих дальнейшее развитие
некоторых процессов.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
12
12

13. Основные ограничения при использовании Data Mining

1. Качество данных
Около 75% работы над Data Mining состоит в сборе
данных, который совершается еще до того, как
запускаются сами инструменты интеллектуального
анализа.
2. Data Mining не может заменить аналитика
Необходим тщательный выбор модели и
интерпретация зависимостей или шаблонов, которые
обнаружены. Построенные модели должны быть
грамотно интегрированы в бизнес-процессы для
возможности их оценки и обновления.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
13
13

14. Основные стадии Data Mining

СВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ)
ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
АНАЛИЗ ИСКЛЮЧЕНИЙ
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
14
14

15. Свободный поиск (выявление закономерностей)

На стадии свободного поиска осуществляется исследование
набора данных с целью поиска скрытых закономерностей.
Закономерность
(law)
существенная
и
постоянно
повторяющаяся взаимосвязь, определяющая этапы и формы
процесса становления, развития различных явлений или
процессов.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
15
15

16. Основные действия на этапе свободного поиска

выявление закономерностей условной логики
(conditional logic);
выявление закономерностей ассоциативной
логики (associations and affinities);
выявление трендов и колебаний (trends and
variations);
а также валидация (тестирование, проверка)
выявленных закономерностей.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
16
16

17. «Прозрачность» выявленных закономерностей

Полученные закономерности, а точнее,
их конструкции, могут быть:
прозрачными, т.е. допускающими
толкование аналитика;
непрозрачными, так называемыми
"черными ящиками".
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
17
17

18. Прогностическое моделирование (Predictive Modeling)

Выявленные закономерности используются
предсказания неизвестных значений.
для
Прогностическое моделирование включает такие
действия:
предсказание
неизвестных
значений
(outcome
prediction);
прогнозирование развития процессов (forecasting).
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
18
18

19. Прогностическое моделирование (Predictive Modeling)

Выявленные закономерности используются
предсказания неизвестных значений.
для
Прогностическое моделирование включает такие
действия:
предсказание
неизвестных
значений
(outcome
prediction);
прогнозирование развития процессов (forecasting).
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
19
19

20. Этапы подготовка к проведению Data mining

анализ предметной области;
постановка задачи;
подготовка данных.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
20
20

21. Понятие предметной области

Предметная область - это мысленно
ограниченная
область
реальной
действительности, подлежащая описанию
или моделированию и исследованию.
Предметная область состоит из объектов,
различаемых по свойствам и находящихся в
определенных отношениях между собой
или
взаимодействующих
каким-либо
образом.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
21
21

22. Анализ предметной области

В процессе изучения предметной области
должна быть создана ее модель.
Модель предметной области описывает
процессы, происходящие в предметной
области, и данные, которые в этих
процессах используются.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
22
22

23. Постановка задачи Data Mining

Включает следующие шаги:
формулировка задачи;
формализация задачи.
Постановка задачи включает также
описание
статического
и
динамического поведения исследуемых
объектов.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
23
23

24. Постановка задачи Data Mining

Описание статики:
описание объектов и их
свойств.
Описании динамики:
описывается поведение объектов
и те причины, которые влияют
на их поведение.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
24
24

25. Постановка задачи Data Mining

!
Технология Data Mining
не
может
заменить
аналитика и ответить на те
вопросы, которые не были
заданы.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
25
25

26. Подготовка данных

Определение и анализ требований к данным
Сбор данных
Предварительная обработка данных
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
26
26

27. Определение и анализ требований к данным

Определение и анализ требований к
данным,
которые
необходимы
для
осуществления Data Mining.
Включая вопросы:
распределения пользователей;
вопросы доступа к данным, которые
необходимы для анализа;
аналитические характеристики
системы.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
27
27

28. Сбор данных

Использование существующего
хранилища данных.
Агрегация данных из различных
источников, включая бумажные
носители.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
28
28

29. Определение необходимого количества данных

Для определения оптимального
объема данных необходимо ответить на
следующие вопросы:
• Упорядочены ли данные?
• Включает ли набор данных
сезонную/цикличную компоненту?
• Есть ли в наборе устаревшие данные
или описывающие какую-то
нетипичную ситуацию?
• Каково соотношение количества
записей в наборе и количества
входных переменных?
• Репрезентативен ли используемый
набор данных?
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
29
29

30. Предварительная обработка данных

качество
исходных
данных
качество
полученной
модели
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
30
30

31. Предварительная обработка данных

Качество данных (Data quality) в данном
случае является параметром, который
характеризует прежде всего возможность
их интерпретации.
Оценивание качества данных
Повышение качества данных
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
31
31

32. Задачи Data-Mining:

Классификация;
Кластеризация;
Поиск ассоциативных
правил;
Прогнозирование;
Анализ отклонений.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
32
32

33.

Спасибо за внимание!
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
33
33
English     Русский Rules