Data Mining

2.

Данные и Знания
Таблицы
Текст
Сигналы
Звук
Изображения
Видео

Данные и Знания
Данные – совокупность зафиксированных фактов
Информация – сведения, уменьшающие
неопределённость
Знания – сведения, позволяющие действовать с
прогнозируемым результатом
Типичная проблема:
Мы располагаем данными, они хранятся в цифровом
виде, но мы не знаем, что в них.

4.

Data Mining (добыча данных,
интеллектуальный анализ данных) —
совокупность методов обнаружения в данных
ранее неизвестных, нетривиальных,
практически полезных и доступных
интерпретации знаний, необходимых для
принятия решений в различных
сферах человеческой деятельности.
[Г.Пятецкий-Шапиро, 1989]

5.

Задачи интеллектуального анализа данных
Задачи ИАД
Описательные
Ассоциативные
правила
Кластеризация
Предсказательные
Классификация
Прогнозирование

6.

Смежные и близкие области
Big Data (обработка и анализ больших данных
Data Mining ∩ Big Data ≠
Pattern Recognition (распознавание образов)
Pattern Recognition ⊂ Machine Learning
Machine learning (машинное обучение)
Data Mining ∩ Machine Learning ≠
Artificial Intelligence (искусственный интеллект)
Data Mining ⊂ Artificial Intelligence
Data Science (наука о данных)
Data Mining ⊂ Data Science

7.

Интеллектуальный анализ данных (data mining)
vs машинное обучение (machine learning)
Интеллектуальный анализ данных - это процесс извлечения полезной информации из больших
массивов данных. Основное содержание курса - изучение методов, позволяющих находить в
данных закономерности
Машинное обучение - это процесс разработки и программной реализации алгоритмов, способных
обучаться на примерах данных. Основное содержание курса – практическая реализация
алгоритмов, позволяющих находить в данных закономерности

8.

Сферы приложения
• Компьютерное зрение (computer vision)
• Распознавание речи (speech recognition)
• Компьютерная лингвистика и обработка естественных языков (natural
language processing)
• Медицинская диагностика
• Биоинформатика
• Техническая диагностика
• Финансовые приложения
• Рубрикация, аннотирование и упрощение текстов
• Информационный поиск
• Интеллектуальные игры
•...

9.

Используемый математический аппарат
Теория вероятностей и математическая статистика
Линейная алгебра
Методы оптимизации
Численные методы
Математический анализ
Дискретная математика
и др.

10.

Классификация задач интеллектуального анализа данных

11.

Обучение по прецедентам или с учителем
Множество X —объекты, примеры, образцы (samples).
Множество Y —ответы, отклики, «метки», классы (responses)
Имеется некоторая зависимость g : X → Y , позволяющая по x ∈X
предсказать (или оценить вероятность появления) y ∈Y .
Зависимость известна только на объектах из обучающей выборки:
T = {(x1,y1),(x2,y2),...,(xn,yn)}
Пара (xi , yi ) ∈X × Y -прецедент.
Задача обучения по прецедентам: научиться по новым объектам x ∈X
предсказывать ответы y ∈Y .

12.

Пример обучающей выборки
(классификация)
пульс
гемоглобин
диагноз
x1
70
140
здоров (y = −1)
x2
60
160
здоров (y = −1)
x3
94
120
миокардит (y = 1)
···
···
···
···
x114
86
98
миокардит (y = 1)
Обучающая выборка:
((70, 140), −1), (60, 160), −1), (94, 120), 1)...,(86, 98), 1))
Задача обучения: новый пациент x = (75, 128), y =?

13.

Графическое представление обучающей выборки
Графическое представление обучающей выборки

14.

Признаковые описания
Вход:
xj — j-й признак {свойство, атрибут, предикативная переменная, feature) объекта x.
• Если Qj конечно, то j-й признак — номинальный (категориальный или фактор).
Например, Qj = {Alfa Romeo, Audi, BMW, . . . ,Volkswagen}
Если |Qj| = 2, то признак бинарный и можно считать, например, Qj = {0, 1}.
• Если Qj конечно и упорядочено, то признак порядковый.
Например, Qj = {Beginner, Elementary, Intermediate, Advanced, Proficiency}
• Если Qj = R, то признак количественный.
Выход: y ∈ Y
• Y = R — задача восстановления регрессии (аппроксимации)
• Y = {1, 2, . . . ,K} — задача классификации. Номер класса k ∈ Y

15.

Обучение без учителя
• В этом случае нет “учителя” и “обучающая выборка” состоит только из
объектов, т.е. Y отсутствует.
• Задача кластеризации: разбить объекты на группы (кластеры), так, чтобы в
одном кластере оказались близкие друг к другу объекты, а в разных кластерах
объекты были существенно различные.
• Кластер можно охарактеризовать как группу объектов, имеющих общие
свойства.

16.

Графическое представление данных для
кластеризации
Графическое представление данных для кластериз

17.

Этапы интелектуального анализа данных
Примеры
данных
с закономерностями
Обучающийся
алгоритм
Модель
закономерности
Поиск закономерностей в
новых данных

18.

Построение модели
Окончательная
модель

19.

Пример: задача прогнозирования стоимости
недвижимости
Объект - квартира в Санкт-Петербурге.
Примеры признаков:
бинарные: наличие балкона, лифта, мусоропровода, охраны, и т. д.
номинальные: район города, тип дома
(кирпичный/панельный/блочный/монолит), и т. д.
количественные: число комнат, жилая площадь, расстояние до центра,
до метро, возраст дома, и т. д.
Особенности задачи: выборка неоднородна, стоимость меняется со
временем; разнотипные признаки.

20.

Пример: Страховая компания
(кластеризация)
• Примеры признаков : Информация об автомобилях и их
владельцах: марка автомобиля; стоимость автомобиля; возраст
водителя; стаж водителя; возраст автомобиля
• Цель - разбиение автомобилей и их владельцев на клаcтеры,
каждый из которых соответствует определенной рисковойгруппе.
• Наблюдения, попавшие в одну группу, характеризуются одинаковой
вероятностью наступления страхового случая, которая впоследствии
оценивается страховщиком.

English Русский Rules