Similar presentations:
Интеллектуальный анализ данных (Data Mining)
1.
Интеллектуальный анализ данных(Data Mining)
Введение
Савченко Наталья Александровна
ст.преподаватель
2.
Определение Data Mining(короткое)
Data Mining это –
процесс «обнаружения знаний
в базах данных».
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
2
3.
Определение Data Mining(полное)
Data Mining это
процесс обнаружения в сырых данных ранее
неизвестных, нетривиальных, практически
полезных и доступных для интерпретации
знаний, необходимых для принятия решений в
различных сферах человеческой деятельности.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
3
3
4.
Процесс анализа данныхOLAP
Инструменты
анализа
Data Mining
Гипотеза
(модель)
Исходные
данные
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
4
4
5.
Междисциплинарностьинтеллектуального анализа
данных
Теория баз
данных
Другие
дисциплины
Статистика
Машинное
обучение
Data
Mining
Визуализация
Алгоритмизация
Искусственный
интеллект
Распознавание
образов
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
5
5
6.
Что позволяет сделать Data Mining:1. Найти закономерности в накопленных
данных;
2. Построить модели и правила,
описывающих выявленные
закономерности ;
3. Построить модели и правила,
прогнозирующих дальнейшее развитие
некоторых процессов.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
6
6
7.
Основные ограниченияпри использовании Data Mining
1. Качество данных
Около 75% работы над Data Mining состоит в сборе
данных, который совершается еще до того, как
запускаются сами инструменты интеллектуального
анализа.
2. Data Mining не может заменить аналитика
Необходим тщательный выбор модели и
интерпретация зависимостей или шаблонов, которые
обнаружены. Построенные модели должны быть
грамотно интегрированы в бизнес-процессы для
возможности их оценки и обновления.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
7
7
8.
Основные стадии Data MiningСВОБОДНЫЙ ПОИСК (в том числе ВАЛИДАЦИЯ)
ПРОГНОСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
АНАЛИЗ ИСКЛЮЧЕНИЙ
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
8
8
9.
Свободный поиск(выявление закономерностей)
На стадии свободного поиска осуществляется исследование
набора данных с целью поиска скрытых закономерностей.
Закономерность
(law)
существенная
и
постоянно
повторяющаяся взаимосвязь, определяющая этапы и формы
процесса становления, развития различных явлений или
процессов.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
9
9
10.
Основные действияна этапе свободного поиска
выявление закономерностей условной логики
(conditional logic);
выявление закономерностей ассоциативной
логики (associations and affinities);
выявление трендов и колебаний (trends and
variations);
а также валидация (тестирование, проверка)
выявленных закономерностей.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
10
10
11.
«Прозрачность» выявленныхзакономерностей
Полученные закономерности, а точнее,
их конструкции, могут быть:
прозрачными, т.е. допускающими
толкование аналитика;
непрозрачными, так называемыми
"черными ящиками".
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
11
11
12.
Прогностическоемоделирование (Predictive
Modeling)
Выявленные закономерности используются
предсказания неизвестных значений.
для
Прогностическое моделирование включает такие
действия:
предсказание
неизвестных
значений
(outcome
prediction);
прогнозирование развития процессов (forecasting).
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
12
12
13.
Прогностическоемоделирование (Predictive
Modeling)
Выявленные закономерности используются
предсказания неизвестных значений.
для
Прогностическое моделирование включает такие
действия:
предсказание
неизвестных
значений
(outcome
prediction);
прогнозирование развития процессов (forecasting).
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
13
13
14.
Этапы подготовка кпроведению Data mining
анализ предметной области;
постановка задачи;
подготовка данных.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
14
14
15.
Понятие предметной областиПредметная область - это мысленно
ограниченная
область
реальной
действительности, подлежащая описанию
или моделированию и исследованию.
Предметная область состоит из объектов,
различаемых по свойствам и находящихся в
определенных отношениях между собой
или
взаимодействующих
каким-либо
образом.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
15
15
16.
Анализ предметной областиВ процессе изучения предметной области
должна быть создана ее модель.
Модель предметной области описывает
процессы, происходящие в предметной
области, и данные, которые в этих
процессах используются.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
16
16
17.
Постановка задачи Data MiningВключает следующие шаги:
формулировка задачи;
формализация задачи.
Постановка задачи включает также
описание
статического
и
динамического поведения исследуемых
объектов.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
17
17
18.
Постановка задачи Data MiningОписание статики:
описание объектов и их
свойств.
Описании динамики:
описывается поведение объектов
и те причины, которые влияют
на их поведение.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
18
18
19.
Постановка задачи Data Mining!
Технология Data Mining
не
может
заменить
аналитика и ответить на те
вопросы, которые не были
заданы.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
19
19
20.
Подготовка данныхОпределение и анализ требований к данным
Сбор данных
Предварительная обработка данных
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
20
20
21.
Определение и анализтребований к данным
Определение и анализ требований к
данным,
которые
необходимы
для
осуществления Data Mining.
Включая вопросы:
распределения пользователей;
вопросы доступа к данным, которые
необходимы для анализа;
аналитические характеристики
системы.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
21
21
22.
Сбор данныхИспользование существующего
хранилища данных.
Агрегация данных из различных
источников, включая бумажные
носители.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
22
22
23.
Определение необходимогоколичества данных
Для определения оптимального
объема данных необходимо ответить на
следующие вопросы:
• Упорядочены ли данные?
• Включает ли набор данных
сезонную/цикличную компоненту?
• Есть ли в наборе устаревшие данные
или описывающие какую-то
нетипичную ситуацию?
• Каково соотношение количества
записей в наборе и количества
входных переменных?
• Репрезентативен ли используемый
набор данных?
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
23
23
24.
Предварительная обработка данныхкачество
исходных
данных
качество
полученной
модели
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
24
24
25.
Предварительная обработкаданных
Качество данных (Data quality) в данном
случае является параметром, который
характеризует прежде всего возможность
их интерпретации.
Оценивание качества данных
Повышение качества данных
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
25
25
26.
Задачи Data-Mining:Классификация;
Кластеризация;
Поиск ассоциативных
правил;
Прогнозирование;
Анализ отклонений.
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
26
26
27.
Спасибо за внимание!www.fdo.gubkin.ru
Российский государственный университет нефти и газа (НИУ) имени И.М.Губкина
ФАКУЛЬТЕТ КОМПЛЕКСНОЙ БЕЗОПАСНОСТИ ТЭК
27
27