Что такое Data Science?
Механика Анализа Данных
Механика Анализа Данных
Механика Анализа Данных
Механика Анализа Данных
Механика Анализа Данных
Механика Анализа Данных
Механика Анализа Данных
Механика Анализа Данных
Большая картина Больших Данных
Большая картина: бизнес
Большая картина: бизнес
Большая картина: бизнес
Большая картина: бизнес
Большая картина: бизнес
Большая картина: бизнес
Большая картина: аналитика
Большая картина: аналитика
Большая картина: аналитика
Большая картина: аналитика
Большая картина: аналитика
Большая картина: аналитика
Большая картина: инфраструктура
Большая картина: инфраструктура
Большая картина: инфраструктура
Большая картина: пример
Большая картина
Структура обучающей программы Осень 2014
Структура обучающей программы Весна 2014
Структура обучающей программы Лето 2014
Структура обучающей программы
Выводы
Выводы
Орг вопросы
7.57M
Category: programmingprogramming

Лекция 1 DMT. Большая картина Data Mining

1.

Большая картина
Data Mining
Лекция 1, 15.10.2014
Алексей Натёкин

2.

Про меня
DM Labs
Алексей Натёкин (организатор)
• В 2007/2008 на Матмехе СПбГУ «влился»:
нечеткая логика, нейросети, ...
DM Labs
Аспирант:
2

3.

Про Data Mining Track
DM Labs
1. Зима 2013:
6 месяцев
25 студентов
Лекции от экспертов из компаний
Лекции от студентов для студентов
Курс лекций по R, ML, Big Data
Лекции от экспертов из компаний
Events: SNA hackathon, DM Sauna
2. Осень 2013:
12 месяцев
25 студентов
3. Осень 2014:
3 месяца
50+ студентов
?
3

4.

DM Labs
4

5. Что такое Data Science?

DM Labs
5

6.

Data ***
DM Labs
• Data Mining ~ Анализ Данных
• Data Science ~ Наука о Данных
• KDD: Knowledge Discovery
in Databases
6

7.

Data Scientist:
The Sexiest Job of the 21st Century
DM Labs
• “… key player in organizations: the “data scientist.”
It’s a high-ranking professional with the training and curiosity to
make discoveries in the world of big data. “
• “The title has been around for only a few years.
But thousands of data scientists are already working at both startups and well-established companies. “
7

8.

Особенности профессии
DM Labs
«Data science, as it’s
practiced, is a blend of
Red-Bull-fueled hacking and
espresso-inspired statistics.»
Metamarket CEO Mike Driscoll, Quora
8

9.

Особенности профессии
DM Labs
«Data science, as it’s
practiced, is a blend of
Red-Bull-fueled hacking and
espresso-inspired statistics.»
Metamarket CEO Mike Driscoll, Quora
«A data scientist is someone who knows more
statistics than a computer scientist and more
computer science than a statistician.»
«Data Scientist = statistician + programmer + coach + storyteller + artist.»
«A data scientist is a statistician who lives in San Francisco»
9

10.

Друзья Data Scientist’ов
DM Labs
• Data Miners, Machine Learners,
Big Data engineers, ...
А также те, кто занимается:
Artificial Intelligence
Natural Language Processing
Statistical Process Control
Information Retrieval
Business Intelligence
Signal Processing
Econometrics
Biostatistics

И вообще, R&D engineers
10

11. Механика Анализа Данных

DM Labs
11

12. Механика Анализа Данных

DM Labs
Всем нужны знания.
Их можно извлекать из данных:
• Понимание происходящего
• Предсказание будущего
• Управление ситуацией
Знания
Данные
12

13. Механика Анализа Данных

DM Labs
Всем нужны знания.
Их можно извлекать из данных:
• Понимание происходящего
• Предсказание будущего
• Управление ситуацией
Знания
Данные
13

14. Механика Анализа Данных

DM Labs
Всем нужны знания.
Их можно извлекать из данных:
• Понимание происходящего
• Предсказание будущего
• Управление ситуацией
Основная цель:
• Принять решение
• Действовать!
Знания
Информация
Данные
14

15. Механика Анализа Данных

Всем нужны знания.
Их можно извлекать из данных:
• Понимание происходящего
• Предсказание будущего
• Управление ситуацией
Основная цель:
• Принять решение
• Действовать!
DM Labs
!
Знания
Информация
Данные
15

16. Механика Анализа Данных

DM Labs
Пример:
оффлайн магазин чая
• Понимание происходящего
...
!
• Предсказание будущего
...
• Управление ситуацией
Знания
...
Информация:
сегменты, корзины
Данные: чеки – [товар, количество,
стоимость, дата]
16

17. Механика Анализа Данных

DM Labs
Пример:
оффлайн магазин чая
• Понимание происходящего
- есть различные сегменты
покупателей (какие?)
- потребительские корзины (какие?)
- больше всего покупают
на выходных (когда?)
• Предсказание будущего
- на 8 марта купят 3 кило пу-эра
• Управление ситуацией
- можно делать bundle’ы
!
Знания
Информация:
сегменты, корзины
Данные: чеки – [товар, количество,
стоимость, дата]
17

18. Механика Анализа Данных

DM Labs
Пример:
...
• Понимание происходящего
- ...
!
• Предсказание будущего
- ...
• Управление ситуацией
Знания
- ...
Информация
Что только что произошло?
Данные
18

19. Большая картина Больших Данных

DM Labs
...
...
...
...
...
19

20. Большая картина: бизнес

DM Labs
Business Call
1. Все всегда начинается с реальной
задачи, которая стоит перед компанией.
На языке бизнеса.
Business
Analysis
2. Конкретизировать задачу в терминах
анализа.
20

21. Большая картина: бизнес

DM Labs
Business Call
1. Все всегда начинается с реальной
задачи, которая стоит перед компанией.
На языке бизнеса.
Business
Analysis
2. Конкретизировать задачу в терминах
анализа.
3. Сформировать гипотезы про реальную
проблему, породившую задачу.
Пример: уходят пользователи, нужно чтобы не уходили.
21

22. Большая картина: бизнес

DM Labs
Business Call
1. Все всегда начинается с реальной
задачи, которая стоит перед компанией.
На языке бизнеса.
Business
Analysis
2. Конкретизировать задачу в терминах
анализа.
3. Сформировать гипотезы про реальную
проблему, породившую задачу.
4. Определить, какие данные нужны для проверки гипотез
5. Собрать данные.
22

23.

Большая картина: бизнес
DM Labs
Solutions
Business
Analysis
Мы знаем что решаем
У нас есть данные
Нужно договориться о том,
что должно быть в решении
Solution
Interface
23

24.

Большая картина: бизнес
DM Labs
Solutions
Business
Analysis
Мы знаем что решаем
У нас есть данные
Нужно договориться о том,
что должно быть в решении
И решить
Solution
Interface
24

25. Большая картина: бизнес

Business Call
Business
Analysis
DM Labs
Solutions
Solution
Interface
Виды решений:
Отчет, былина об анализе
Набор красивых вылизанных графиков (или dashboard)
Оракул, к которому можно обратиться
Сервис и/или realtime решение
25

26. Большая картина: бизнес

DM Labs
Сколько живых
подписчиков у паблика X?
Business
Analysis
график
Solution
Interface
Гистограмма активности подписчиков
неделя
месяц
год
Количество подписчиков
день
0 сек
100 сек
10 тыс. сек
1 млн. сек
Количество секунд с последнего захода в сеть vk
100 млн. сек
26

27. Большая картина: бизнес

Сколько посетителей
переходят на страницу
продукта с главной?
Business
Analysis
DM Labs
график
Solution
Interface
27

28. Большая картина: аналитика

Business Call
Solutions
Business
Analysis
Data Mining
DM Labs
Solution
Interface
Мы знаем что решаем
У нас есть данные
Мы знаем что должно
получиться на выходе
Не хватает магии – непосредственной работы с данными
28

29. Большая картина: аналитика

Business Call
Business
Analysis
Data Mining
DM Labs
Solutions
Solution
Interface
Machine Learning
Не хватает магии – непосредственной работы с данными
и построения моделей (знаний).
29

30. Большая картина: аналитика

Business Call
Business
Analysis
Data Mining
Сперва мы добываем
данные, исследуем их,
приводим к удобному
виду и обрабатываем.
DM Labs
Solutions
Solution
Interface
Machine Learning
Затем строим модели,
прогнозы, объясняем их и
т.д. Используем их
результаты для ответа на
поставленный вопрос.
30

31. Большая картина: аналитика

Business Call
Business
Analysis
Data Mining
Эта часть схемы
обслуживает данные
DM Labs
Solutions
Solution
Interface
Machine Learning
Связующий с
бизнесом слой
Слой анализа
данных
В этой части схемы
создаются знания
31

32. Большая картина: аналитика

Кто лидеры мнений
среди наших читателей
Business
Analysis
Data Mining
Data domain
DM Labs
Интерактивный график с
узлами-людьми
Solution
Interface
Machine Learning
Business layer
Analysis layer
Knowledge domain
32

33. Большая картина: аналитика

Business Call
Business
Analysis
Data Mining
DM Labs
Solutions
Solution
Interface
Machine Learning
Business layer
Analysis layer
Чего-то не хватает...
Data domain
Knowledge domain
33

34. Большая картина: инфраструктура

Business Call
Business
Analysis
DM Labs
Solutions
Solution
Interface
Business layer
Data Mining
Machine Learning
Analysis layer
Big Data
High Performance
Computing
Infrastructure
layer
Data domain
Knowledge domain
34

35. Большая картина: инфраструктура

Business Call
Business
Analysis
DM Labs
Solutions
Solution
Interface
Business layer
Data Mining
Machine Learning
Analysis layer
Big Data
High Performance
Computing
Infrastructure
layer
Data domain
Knowledge domain
35

36. Большая картина: инфраструктура

Business Call
Business
Analysis
DM Labs
Solutions
Solution
Interface
Business layer
Data Mining
Machine Learning
Analysis layer
Big Data
High Performance
Computing
Infrastructure
layer
Data domain
Knowledge domain
36

37. Большая картина: пример

Снизить затраты
магазина чая
Business
Analysis
DM Labs
Система прогноза спроса на
чай, оптимизация закупок
Solution
Interface
Business layer
Data Mining
Machine Learning
Analysis layer
Big Data
High Performance
Computing
Infrastructure
layer
Data domain
Knowledge domain
37

38. Большая картина

Про блоки:
1.
2.
3.
Все начинается с реальной
задачи. Задача первична!
Данные и знания могут
перемешиваться
Чем глубже погружается
анализ – тем полезнее и
качественнее извлеченные
знания. И тем он дороже
DM Labs
Business Call
Business
Analysis
Solutions
Solution
Interface
Business layer
Data Mining
Machine Learning
Analysis layer
Big Data
High Performance
Computing
Infrastructure
layer
Data domain
Knowledge domain
Про структуру схемы:
4.
Одна сторона целиком занята обслуживанием данных, другая –
знаниями
5.
Каждый слой поддерживает вышестоящие
38

39. Структура обучающей программы Осень 2014

Digital Sales
Track
Business
Analysis
Data
Visualization
Track
Solution
Interface
Data MiningData Mining Track
Machine Learning
Big Data
Data domain
DM Labs
High Performance
Computing
Business layer
Analysis layer
Infrastructure
layer
Knowledge domain
39

40. Структура обучающей программы Весна 2014

Digital Sales
Track
Business
Analysis
Data Journalism
Data Mining in
Industry
Data
Visualization
Track
Solution
Interface
Defence
Data domain
Business layer
Against
Dark Arts
Data MiningData Mining Track
Machine Learning
Big Data
DM Labs
High Performance
Big Data
Computing
Analysis layer
Infrastructure
layer
Knowledge domain
40

41. Структура обучающей программы Лето 2014

Digital Sales
Track
Business
Data Mining
Analysis
for Public
Good
Data Journalism
International
Data
in
Data Mining
Mining in
Industry
Industry
Data
Visualization
Track
Solution
Interface
Defence
Data domain
Business layer
Against
Dark Arts
Data MiningData Mining Track
Machine Learning
Big Data
DM Labs
Machine
Advanced
Learning in
Machine
Production
Learning
High Performance
Big Data
Computing
Analysis layer
Infrastructure
layer
Knowledge domain
41

42. Структура обучающей программы

DM Labs
Data
Journal
Dark
Arts
ML in
produc.
Big
Data
Data
Mining
Data
Mining
Industr
Digital
Sales
Oct-Dec 2014
Intern.
DM
More in
progress
Data
Visualiz
Advan.
ML
DM
Public
Good
Student
Tracks
Feb-Apr 2015
Jul-Aug 2015
42

43.

FAQ про обучение
DM Labs
1. Зачем это все?


Сообщество
Будущие коллеги
2. Чем курс отличается от других программ?



Эксперты с реальными задачами
Много практики
Знакомство с частями большой картины
3. Чем курс отличается от прежних лет?



Хардкор – ведущая группа
Еще больше проектов
Хакатоны каждую неделю
43

44.

FAQ про обучение: где магия
DM Labs
1. Зачем это все?


Сообщество
Будущие коллеги
2. Чем курс отличается от других программ?
– Эксперты с реальными задачами


Много практики
Знакомство с частями большой картины
3. Чем курс отличается от прежних лет?


Хардкор – ведущая группа
Еще больше проектов
– Хакатоны каждую неделю
44

45.

Hardcore группа?
DM Labs
1. Столько задач и проектов, сколько захотите
...их хватит на всех
2. Запросы на темы лекций.
...в обмен на участие в их подготовке
3. Больше сила – больше ответственность
...помощь общей группе
4. Можно звать на помощь общую группу
...в обмен на опыт – курировать своих подопечных
45

46.

Очень большая задача на курс
DM Labs
...
46

47.

Что происходит на DM+ML слое
Данные
Data Mining
Machine Learning
DM Labs
Результат
Нам поставили задачу
Пример: «предсказывать оценку эссе студента, имея только его текст»,
«научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат
Пример: хотим угадывать оценку, чтобы увеличить QWKappa,
хотим предсказывать число лайков как мождно точнее (R2), …
У нас есть данные
Пример: таблица .csv, БД SQL, сырой .txt, API к сервису, сенсоры, ...
47

48.

Что происходит на DM+ML слое
Данные
Data Mining
Machine Learning
DM Labs
Результат
У нас есть данные
Пример: таблица .csv, БД SQL, сырой .txt, API к сервису, сенсоры, ...
Нам поставили задачу
Пример: «предсказывать оценку эссе студента, имея только его текст»,
«научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат
Пример: хотим угадывать оценку, чтобы увеличить QWKappa,
хотим предсказывать число лайков как мождно точнее (R2), …
48

49.

Что происходит на DM+ML слое
Данные
Гипотезы
Обработка
(стратегия)
(тактика)
Модель
(замес)
DM Labs
Результат
Нам поставили задачу
Пример: «предсказывать оценку эссе студента, имея только его текст»,
«научиться классифицировать тип пользователя», …
Мы знаем каким должен быть результат
Пример: хотим угадывать оценку, чтобы увеличить QWKappa,
хотим предсказывать число лайков как мождно точнее (R2), …
У нас есть данные
Пример: таблица .csv, БД SQL, сырой .txt, API к сервису, сенсоры, ...
49

50.

Что происходит на DM+ML слое
Данные
Гипотезы
Обработка
(стратегия)
(тактика)
Модель
(замес)
DM Labs
Результат
В университетах учат как построить модель.
Все остальное – остается за кадром.
“The bulk of the time is spent manipulating data − a mix of data
discovery, data structuring, and creating context.” HBR
“Most analytic and visualization tools focus on the last two phases
of this workflow. Unfortunately, most of a data scientist’s time is
spent on the first three stages.” HBR
50

51.

Что происходит на DM+ML слое
Данные
Гипотезы
(стратегия)
Обработка
(тактика)
МоМодел
ь
(замес)
дель
DM Labs
Можно
сделать
лучше?
Результат
v.3.1.18
51

52.

Что происходит на DM+ML слое
Делать полный круг как можно быстрее!
Начинать с простых гипотез, признаков, моделей
Сохранять порядок в решении: держать разные
признаки, обработки и модели в отдельных файлах
Запоминать результаты готовых связок
«признаки-обработка-модель», хранить их
Вести комментарии с результатами анализа
Данные
Гипотезы
Обработка
Данные считываются
верно?
Как задачу обычно
решают?
Есть технические
трудности?
•Свериться с документацией
(мб неверна документация)
•Считывать построчно, вручную
все распарсивать
•Здравый смысл
•Поиск литературы: статьи,
туториалы, форумы
•Спросить экспертов
•Пробовать работать с
малыми подвыборками
В данных есть ошибки?
На что в данных
смотрят?
•Проверять типы переменных
•Посмотреть на данные
глазами
•Вручную выправлять данные
Данных достаточно?
•Выгрузить/собрать еще
данных
•Организовать новые
эксперементы
Данные актуальны?
•Выгрузить/собрать еще
данных
•Посмотреть пакеты и
библиотеки по тематике
задачи
•Помотреть пресс-релизы
коммерческих решений
Что именно
оптимизировать?
•См. как обычно решают
задачу
•См. техническую
документацию
к пакетам и библиотекам
Данные удобны?
•Выбрать политику
заполнения дыр:
среднее/медиана, knn, svd, …
•При необходимости
фильтровать данные:
выбросы, сглаживания
•Нормализация данных
Что еще можно
вытащить?
•Использовать проекторы:
SVD, ICA, kPCA, …
•Использовать кластерный
анализ: метрические
кластера (признак),
иерархические (отбор), …
•Feature learning
•Посмотреть информацию,
что еще делают по задаче
Модель
Тип модели?
•Наращивать сложность
модели (эффекты) постепенно
•Посмотреть специальные
модели для текущей задачи
Выбор гиперпараметров?
•Кросс-валидация\бутстрепп
•Для оценки обобщающих
способностей – nested CV
Нет ли оверфиттинга?
•Кросс-валидация моделей
•Регуляризация
•Отбор признаков в моделях
•Усреднение моделей
Нет ли андерфиттинга?
•Если точность устойчива на
тренировочном и тестовом
множествах –утяжелить
модель
•Назначать наблюдениям веса
DM Labs
Результат
Можно улучшить
результат?
•Запоминаем текущее решение,
возвращаемся на тот шаг, где мы
расслабились
•Начинаем новый «круг»
решения
Тестирование корректно?
•Не трогать тестовое множество
•Кросс-валидация, бутстрепп
Учтены все решения?
•«Не забудем, не простим»
•Аггрегировать решения, stacking
Можно внедрять? (bonus)
•Выделить все что можно в
предрассчитанные модули
•Добавить в валидацию моделей
технические требования
real-time
52

53.

Очень большая задача на курс
DM Labs
Открытая, reusable библиотека решений
53

54.

Очень большая задача на курс
DM Labs
Открытая, reusable библиотека решений,
попадающих в top-5%
54

55. Выводы

DM Labs
55

56. Выводы

DM Labs
• Что такое DM, DA, KDD?
• Механика DM?
• Задачи на практике?
• Картина решений?
• Структура треков?
56

57. Орг вопросы

DM Labs
• Перенос на 18:00-21:00
• Старосты
• Редакторы
• Сайт\платформа
• Биржа проектов
57

58.

DM Labs
Спасибо!
Следующее занятие:
Воскресенье 19 октября
С 12:00 до 17:00
Алексей Натёкин
+7 960 276 41 33
[email protected]
58
English     Русский Rules