Introduction to Data Science.
What is Data Science?
By the way, You already did it.
Web search
Recommendations
Want to be a true scientist?
Or looking for corporative career?
Data Driven Art
And Visualization.
Polite locals
Data Scientist: The Sexiest Job of the 21st Century
Как сделать лучше?
Нормализация признаков
Нормализация признаков
Почему равномерно взвешенный 2NN всегда не лучше чем 1NN?
Почему равномерно взвешенный 2NN всегда не лучше чем 1NN?
KNN summary
Как сделать лучше?
Поправленные оценки
Data Science Entry-Level skillset
38.27M
Category: informaticsinformatics

Introduction to Data Science

1. Introduction to Data Science.

2. What is Data Science?

• We have a lot of data.
• Math + Programming + Heuristics
• No strict mathematical models work well
• Extracting knowledge and conclusions
straight from data no matter what.

3. By the way, You already did it.

Labs are the most
common case of the
simplest Data Science.

4. Web search

• Whole universe of barely structured data
• Ranking pages for a given query,
collecting statistics, structuring data-all
pure data Science/Engineering tasks.
• Average Internet user Googles ~3-4
times per day.(There are ~two billions of
us)

5. Recommendations

• All kinds of context advertising
• Recommended channels (YouTube)
• Recommended playlists
(VK,Yandex,Spotify)
• Basket recommendations (Avito,Amazon)

6. Want to be a true scientist?

Then be it!
• EEG, MRI(МРТ) decoding,
NeuroInterfaces.
• Telescope, Microscope, Satellite images
analysis.
• CERN/LHC computations.

7. Or looking for corporative career?

8. Data Driven Art

• Style transfer (Prisma, Artisto)
• Images/Music synthesis

9. And Visualization.

Space-time visualization of mobile phone data in Dubai

10. Polite locals

11. Data Scientist: The Sexiest Job of the 21st Century

12.

13.

14.

15.

16.

17.

18.

19.

20.

21. Как сделать лучше?

Внимательно
посмотреть на
данные
Расстояние:

22. Нормализация признаков

23. Нормализация признаков

24. Почему равномерно взвешенный 2NN всегда не лучше чем 1NN?

25. Почему равномерно взвешенный 2NN всегда не лучше чем 1NN?

- если класс второго ближайшего соседа совпадает с
классом первого, ответ алгоритма не меняется
- если класс второго ближайшего соседа не совпадает
с классом первого, возникает неопределенность и
алгоритм не дает никакого ответа.

26.

27.

28. KNN summary

Для классификации каждого из объектов тестовой
выборки необходимо последовательно выполнить
следующие операции:
● Вычислить расстояние до каждого из объектов
обучающей выборки
● Отобрать k объектов обучающей выборки,
расстояние до которых минимально
● Класс классифицируемого объекта — это класс,
наиболее часто встречающийся среди k
ближайших соседей

29.

30.

31.

32.

33.

34. Как сделать лучше?

Внимательно
посмотреть на
данные
Ошибки предсказаний смещены
относительно нуля

35. Поправленные оценки

36.

37. Data Science Entry-Level skillset

English language - must have
Google-fu - advanced
Linear algebra & Calculus - basics
Statistics - common sense is almost enough
Programming - comfortable with Python or R
English     Русский Rules