Similar presentations:
Лекция 1 DMT. Большая картина Data Mining
1.
Большая картинаData Mining
Лекция 1, 15.10.2014
Алексей Натёкин
2.
Про меняDM Labs
Алексей Натёкин (организатор)
• В 2007/2008 на Матмехе СПбГУ «влился»:
нечеткая логика, нейросети, ...
DM Labs
Аспирант:
2
3.
Про Data Mining TrackDM Labs
1. Зима 2013:
6 месяцев
25 студентов
Лекции от экспертов из компаний
Лекции от студентов для студентов
Курс лекций по R, ML, Big Data
Лекции от экспертов из компаний
Events: SNA hackathon, DM Sauna
2. Осень 2013:
12 месяцев
25 студентов
3. Осень 2014:
3 месяца
50+ студентов
?
3
4.
DM Labs4
5. Что такое Data Science?
DM Labs5
6.
Data ***DM Labs
• Data Mining ~ Анализ Данных
• Data Science ~ Наука о Данных
• KDD: Knowledge Discovery
in Databases
6
7.
Data Scientist:The Sexiest Job of the 21st Century
DM Labs
• “… key player in organizations: the “data scientist.”
It’s a high-ranking professional with the training and curiosity to
make discoveries in the world of big data. “
• “The title has been around for only a few years.
But thousands of data scientists are already working at both startups and well-established companies. “
7
8.
Особенности профессииDM Labs
«Data science, as it’s
practiced, is a blend of
Red-Bull-fueled hacking and
espresso-inspired statistics.»
Metamarket CEO Mike Driscoll, Quora
8
9.
Особенности профессииDM Labs
«Data science, as it’s
practiced, is a blend of
Red-Bull-fueled hacking and
espresso-inspired statistics.»
Metamarket CEO Mike Driscoll, Quora
«A data scientist is someone who knows more
statistics than a computer scientist and more
computer science than a statistician.»
«Data Scientist = statistician + programmer + coach + storyteller + artist.»
«A data scientist is a statistician who lives in San Francisco»
9
10.
Друзья Data Scientist’овDM Labs
• Data Miners, Machine Learners,
Big Data engineers, ...
А также те, кто занимается:
Artificial Intelligence
Natural Language Processing
Statistical Process Control
Information Retrieval
Business Intelligence
Signal Processing
Econometrics
Biostatistics
…
И вообще, R&D engineers
10
11. Механика Анализа Данных
DM Labs11
12. Механика Анализа Данных
DM LabsВсем нужны знания.
Их можно извлекать из данных:
• Понимание происходящего
• Предсказание будущего
• Управление ситуацией
Знания
Данные
12
13. Механика Анализа Данных
DM LabsВсем нужны знания.
Их можно извлекать из данных:
• Понимание происходящего
• Предсказание будущего
• Управление ситуацией
Знания
Данные
13
14. Механика Анализа Данных
DM LabsВсем нужны знания.
Их можно извлекать из данных:
• Понимание происходящего
• Предсказание будущего
• Управление ситуацией
Основная цель:
• Принять решение
• Действовать!
Знания
Информация
Данные
14
15. Механика Анализа Данных
Всем нужны знания.Их можно извлекать из данных:
• Понимание происходящего
• Предсказание будущего
• Управление ситуацией
Основная цель:
• Принять решение
• Действовать!
DM Labs
!
Знания
Информация
Данные
15
16. Механика Анализа Данных
DM LabsПример:
оффлайн магазин чая
• Понимание происходящего
...
!
• Предсказание будущего
...
• Управление ситуацией
Знания
...
Информация:
сегменты, корзины
Данные: чеки – [товар, количество,
стоимость, дата]
16
17. Механика Анализа Данных
DM LabsПример:
оффлайн магазин чая
• Понимание происходящего
- есть различные сегменты
покупателей (какие?)
- потребительские корзины (какие?)
- больше всего покупают
на выходных (когда?)
• Предсказание будущего
- на 8 марта купят 3 кило пу-эра
• Управление ситуацией
- можно делать bundle’ы
!
Знания
Информация:
сегменты, корзины
Данные: чеки – [товар, количество,
стоимость, дата]
17
18. Механика Анализа Данных
DM LabsПример:
...
• Понимание происходящего
- ...
!
• Предсказание будущего
- ...
• Управление ситуацией
Знания
- ...
Информация
Что только что произошло?
Данные
18
19. Большая картина Больших Данных
DM Labs...
...
...
...
...
19
20. Большая картина: бизнес
DM LabsBusiness Call
1. Все всегда начинается с реальной
задачи, которая стоит перед компанией.
На языке бизнеса.
Business
Analysis
2. Конкретизировать задачу в терминах
анализа.
20
21. Большая картина: бизнес
DM LabsBusiness Call
1. Все всегда начинается с реальной
задачи, которая стоит перед компанией.
На языке бизнеса.
Business
Analysis
2. Конкретизировать задачу в терминах
анализа.
3. Сформировать гипотезы про реальную
проблему, породившую задачу.
Пример: уходят пользователи, нужно чтобы не уходили.
21
22. Большая картина: бизнес
DM LabsBusiness Call
1. Все всегда начинается с реальной
задачи, которая стоит перед компанией.
На языке бизнеса.
Business
Analysis
2. Конкретизировать задачу в терминах
анализа.
3. Сформировать гипотезы про реальную
проблему, породившую задачу.
4. Определить, какие данные нужны для проверки гипотез
5. Собрать данные.
22
23.
Большая картина: бизнесDM Labs
Solutions
Business
Analysis
Мы знаем что решаем
У нас есть данные
Нужно договориться о том,
что должно быть в решении
Solution
Interface
23
24.
Большая картина: бизнесDM Labs
Solutions
Business
Analysis
Мы знаем что решаем
У нас есть данные
Нужно договориться о том,
что должно быть в решении
И решить
Solution
Interface
24
25. Большая картина: бизнес
Business CallBusiness
Analysis
DM Labs
Solutions
Solution
Interface
Виды решений:
Отчет, былина об анализе
Набор красивых вылизанных графиков (или dashboard)
Оракул, к которому можно обратиться
Сервис и/или realtime решение
25
26. Большая картина: бизнес
DM LabsСколько живых
подписчиков у паблика X?
Business
Analysis
график
Solution
Interface
Гистограмма активности подписчиков
неделя
месяц
год
Количество подписчиков
день
0 сек
100 сек
10 тыс. сек
1 млн. сек
Количество секунд с последнего захода в сеть vk
100 млн. сек
26
27. Большая картина: бизнес
Сколько посетителейпереходят на страницу
продукта с главной?
Business
Analysis
DM Labs
график
Solution
Interface
27
28. Большая картина: аналитика
Business CallSolutions
Business
Analysis
Data Mining
DM Labs
Solution
Interface
Мы знаем что решаем
У нас есть данные
Мы знаем что должно
получиться на выходе
Не хватает магии – непосредственной работы с данными
28
29. Большая картина: аналитика
Business CallBusiness
Analysis
Data Mining
DM Labs
Solutions
Solution
Interface
Machine Learning
Не хватает магии – непосредственной работы с данными
и построения моделей (знаний).
29
30. Большая картина: аналитика
Business CallBusiness
Analysis
Data Mining
Сперва мы добываем
данные, исследуем их,
приводим к удобному
виду и обрабатываем.
DM Labs
Solutions
Solution
Interface
Machine Learning
Затем строим модели,
прогнозы, объясняем их и
т.д. Используем их
результаты для ответа на
поставленный вопрос.
30
31. Большая картина: аналитика
Business CallBusiness
Analysis
Data Mining
Эта часть схемы
обслуживает данные
DM Labs
Solutions
Solution
Interface
Machine Learning
Связующий с
бизнесом слой
Слой анализа
данных
В этой части схемы
создаются знания
31
32. Большая картина: аналитика
Кто лидеры мненийсреди наших читателей
Business
Analysis
Data Mining
Data domain
DM Labs
Интерактивный график с
узлами-людьми
Solution
Interface
Machine Learning
Business layer
Analysis layer
Knowledge domain
32
33. Большая картина: аналитика
Business CallBusiness
Analysis
Data Mining
DM Labs
Solutions
Solution
Interface
Machine Learning
Business layer
Analysis layer
Чего-то не хватает...
Data domain
Knowledge domain
33
34. Большая картина: инфраструктура
Business CallBusiness
Analysis
DM Labs
Solutions
Solution
Interface
Business layer
Data Mining
Machine Learning
Analysis layer
Big Data
High Performance
Computing
Infrastructure
layer
Data domain
Knowledge domain
34
35. Большая картина: инфраструктура
Business CallBusiness
Analysis
DM Labs
Solutions
Solution
Interface
Business layer
Data Mining
Machine Learning
Analysis layer
Big Data
High Performance
Computing
Infrastructure
layer
Data domain
Knowledge domain
35
36. Большая картина: инфраструктура
Business CallBusiness
Analysis
DM Labs
Solutions
Solution
Interface
Business layer
Data Mining
Machine Learning
Analysis layer
Big Data
High Performance
Computing
Infrastructure
layer
Data domain
Knowledge domain
36
37. Большая картина: пример
Снизить затратымагазина чая
Business
Analysis
DM Labs
Система прогноза спроса на
чай, оптимизация закупок
Solution
Interface
Business layer
Data Mining
Machine Learning
Analysis layer
Big Data
High Performance
Computing
Infrastructure
layer
Data domain
Knowledge domain
37
38. Большая картина
Про блоки:1.
2.
3.
Все начинается с реальной
задачи. Задача первична!
Данные и знания могут
перемешиваться
Чем глубже погружается
анализ – тем полезнее и
качественнее извлеченные
знания. И тем он дороже
DM Labs
Business Call
Business
Analysis
Solutions
Solution
Interface
Business layer
Data Mining
Machine Learning
Analysis layer
Big Data
High Performance
Computing
Infrastructure
layer
Data domain
Knowledge domain
Про структуру схемы:
4.
Одна сторона целиком занята обслуживанием данных, другая –
знаниями
5.
Каждый слой поддерживает вышестоящие
38
39. Структура обучающей программы Осень 2014
Digital SalesTrack
Business
Analysis
Data
Visualization
Track
Solution
Interface
Data MiningData Mining Track
Machine Learning
Big Data
Data domain
DM Labs
High Performance
Computing
Business layer
Analysis layer
Infrastructure
layer
Knowledge domain
39
40. Структура обучающей программы Весна 2014
Digital SalesTrack
Business
Analysis
Data Journalism
Data Mining in
Industry
Data
Visualization
Track
Solution
Interface
Defence
Data domain
Business layer
Against
Dark Arts
Data MiningData Mining Track
Machine Learning
Big Data
DM Labs
High Performance
Big Data
Computing
Analysis layer
Infrastructure
layer
Knowledge domain
40
41. Структура обучающей программы Лето 2014
Digital SalesTrack
Business
Data Mining
Analysis
for Public
Good
Data Journalism
International
Data
in
Data Mining
Mining in
Industry
Industry
Data
Visualization
Track
Solution
Interface
Defence
Data domain
Business layer
Against
Dark Arts
Data MiningData Mining Track
Machine Learning
Big Data
DM Labs
Machine
Advanced
Learning in
Machine
Production
Learning
High Performance
Big Data
Computing
Analysis layer
Infrastructure
layer
Knowledge domain
41
42. Структура обучающей программы
DM LabsData
Journal
Dark
Arts
ML in
produc.
Big
Data
Data
Mining
Data
Mining
Industr
Digital
Sales
Oct-Dec 2014
Intern.
DM
More in
progress
Data
Visualiz
Advan.
ML
DM
Public
Good
Student
Tracks
Feb-Apr 2015
Jul-Aug 2015
42
43.
FAQ про обучениеDM Labs
1. Зачем это все?
–
–
Сообщество
Будущие коллеги
2. Чем курс отличается от других программ?
–
–
–
Эксперты с реальными задачами
Много практики
Знакомство с частями большой картины
3. Чем курс отличается от прежних лет?
–
–
–
Хардкор – ведущая группа
Еще больше проектов
Хакатоны каждую неделю
43
44.
FAQ про обучение: где магияDM Labs
1. Зачем это все?
–
–
Сообщество
Будущие коллеги
2. Чем курс отличается от других программ?
– Эксперты с реальными задачами
–
–
Много практики
Знакомство с частями большой картины
3. Чем курс отличается от прежних лет?
–
–
Хардкор – ведущая группа
Еще больше проектов
– Хакатоны каждую неделю
44
45.
Hardcore группа?DM Labs
1. Столько задач и проектов, сколько захотите
...их хватит на всех
2. Запросы на темы лекций.
...в обмен на участие в их подготовке
3. Больше сила – больше ответственность
...помощь общей группе
4. Можно звать на помощь общую группу
...в обмен на опыт – курировать своих подопечных
45
46.
Очень большая задача на курсDM Labs
...
46
47.
Что происходит на DM+ML слоеДанные
Data Mining
Machine Learning
DM Labs
Результат
Нам поставили задачу
Пример: «предсказывать оценку эссе студента, имея только его текст»,
«научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат
Пример: хотим угадывать оценку, чтобы увеличить QWKappa,
хотим предсказывать число лайков как мождно точнее (R2), …
У нас есть данные
Пример: таблица .csv, БД SQL, сырой .txt, API к сервису, сенсоры, ...
47
48.
Что происходит на DM+ML слоеДанные
Data Mining
Machine Learning
DM Labs
Результат
У нас есть данные
Пример: таблица .csv, БД SQL, сырой .txt, API к сервису, сенсоры, ...
Нам поставили задачу
Пример: «предсказывать оценку эссе студента, имея только его текст»,
«научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат
Пример: хотим угадывать оценку, чтобы увеличить QWKappa,
хотим предсказывать число лайков как мождно точнее (R2), …
48
49.
Что происходит на DM+ML слоеДанные
Гипотезы
Обработка
(стратегия)
(тактика)
Модель
(замес)
DM Labs
Результат
Нам поставили задачу
Пример: «предсказывать оценку эссе студента, имея только его текст»,
«научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат
Пример: хотим угадывать оценку, чтобы увеличить QWKappa,
хотим предсказывать число лайков как мождно точнее (R2), …
У нас есть данные
Пример: таблица .csv, БД SQL, сырой .txt, API к сервису, сенсоры, ...
49
50.
Что происходит на DM+ML слоеДанные
Гипотезы
Обработка
(стратегия)
(тактика)
Модель
(замес)
DM Labs
Результат
В университетах учат как построить модель.
Все остальное – остается за кадром.
“The bulk of the time is spent manipulating data − a mix of data
discovery, data structuring, and creating context.” HBR
“Most analytic and visualization tools focus on the last two phases
of this workflow. Unfortunately, most of a data scientist’s time is
spent on the first three stages.” HBR
50
51.
Что происходит на DM+ML слоеДанные
Гипотезы
(стратегия)
Обработка
(тактика)
МоМодел
ь
(замес)
дель
DM Labs
Можно
сделать
лучше?
Результат
v.3.1.18
51
52.
Что происходит на DM+ML слоеДелать полный круг как можно быстрее!
Начинать с простых гипотез, признаков, моделей
Сохранять порядок в решении: держать разные
признаки, обработки и модели в отдельных файлах
Запоминать результаты готовых связок
«признаки-обработка-модель», хранить их
Вести комментарии с результатами анализа
Данные
Гипотезы
Обработка
Данные считываются
верно?
Как задачу обычно
решают?
Есть технические
трудности?
•Свериться с документацией
(мб неверна документация)
•Считывать построчно, вручную
все распарсивать
•Здравый смысл
•Поиск литературы: статьи,
туториалы, форумы
•Спросить экспертов
•Пробовать работать с
малыми подвыборками
В данных есть ошибки?
На что в данных
смотрят?
•Проверять типы переменных
•Посмотреть на данные
глазами
•Вручную выправлять данные
Данных достаточно?
•Выгрузить/собрать еще
данных
•Организовать новые
эксперементы
Данные актуальны?
•Выгрузить/собрать еще
данных
•Посмотреть пакеты и
библиотеки по тематике
задачи
•Помотреть пресс-релизы
коммерческих решений
Что именно
оптимизировать?
•См. как обычно решают
задачу
•См. техническую
документацию
к пакетам и библиотекам
Данные удобны?
•Выбрать политику
заполнения дыр:
среднее/медиана, knn, svd, …
•При необходимости
фильтровать данные:
выбросы, сглаживания
•Нормализация данных
Что еще можно
вытащить?
•Использовать проекторы:
SVD, ICA, kPCA, …
•Использовать кластерный
анализ: метрические
кластера (признак),
иерархические (отбор), …
•Feature learning
•Посмотреть информацию,
что еще делают по задаче
Модель
Тип модели?
•Наращивать сложность
модели (эффекты) постепенно
•Посмотреть специальные
модели для текущей задачи
Выбор гиперпараметров?
•Кросс-валидация\бутстрепп
•Для оценки обобщающих
способностей – nested CV
Нет ли оверфиттинга?
•Кросс-валидация моделей
•Регуляризация
•Отбор признаков в моделях
•Усреднение моделей
Нет ли андерфиттинга?
•Если точность устойчива на
тренировочном и тестовом
множествах –утяжелить
модель
•Назначать наблюдениям веса
DM Labs
Результат
Можно улучшить
результат?
•Запоминаем текущее решение,
возвращаемся на тот шаг, где мы
расслабились
•Начинаем новый «круг»
решения
Тестирование корректно?
•Не трогать тестовое множество
•Кросс-валидация, бутстрепп
Учтены все решения?
•«Не забудем, не простим»
•Аггрегировать решения, stacking
Можно внедрять? (bonus)
•Выделить все что можно в
предрассчитанные модули
•Добавить в валидацию моделей
технические требования
real-time
52
53.
Очень большая задача на курсDM Labs
Открытая, reusable библиотека решений
53
54.
Очень большая задача на курсDM Labs
Открытая, reusable библиотека решений,
попадающих в top-5%
54
55. Выводы
DM Labs55
56. Выводы
DM Labs• Что такое DM, DA, KDD?
• Механика DM?
• Задачи на практике?
• Картина решений?
• Структура треков?
56
57. Орг вопросы
DM Labs• Перенос на 18:00-21:00
• Старосты
• Редакторы
• Сайт\платформа
• Биржа проектов
57
58.
DM LabsСпасибо!
Следующее занятие:
Воскресенье 19 октября
С 12:00 до 17:00
Алексей Натёкин
+7 960 276 41 33
[email protected]
58