Similar presentations:
Введение в специальность BIG DATA
1.
Введение в специальностьBIG DATA
Корчагин Сергей Алексеевич, кандидат физико-математических наук,
доцент Департамента анализа данных и машинного обучения
[email protected]
Москва, 2020
2. Содержание
Тема 7. Проблемы Big Data.7.1. Критика Big Data. Недостатки Big Data, о которых нельзя
забывать
7.2. Хранение Big Data.
7.3. Скорость обновления данных и «актуальный»
временной интервал.
Тема 8. Перспективы и тенденции развития Big data.
8.1. Тенденции и перспективы на рынке Big Data
8.2. Искусственный интеллект и Deep Learning.
8.3. Облачные хранилища.
8.4. Blockchain.
8.5. Использование Dark Data.
8.6. Программное обеспечение Statistica
2
3. Содержание
Тема 9. Рынок технологий больших данных в России имире.
9.1. Результаты внедрения технологий больших данных.
9.2. Перспективы роста, госсектор
9.3. Участники рынка big data
Тема 10. Введение в LAMP, LEMP, MEAN, XAMPP, WAMP
и стек AMPPS.
10.1. Стеки LAMP, LEMP, MEAN, XAMPP, WAMP и AMPPS
10.2. Оболочки для разработки сайтов на «домашней»
(локальной) Windows или Linux - машине без выхода в
Интернет.
10.3. «Денвер»
10.4. Как Apache Cassandra, Kafka, Storm и Hadoop
формируют рекомендации пользователям Spotify
Тема 11. WEB Сервер- APACHE
3
4.
Проблемы Big Data5. Критика Big Data
Недостатки Big Data, о которых нельзязабывать
вопрос сохранения
собственной конфиденциальности
люди считают, что анализ больших данных —
это наука
Не зная математику, использованную в
алгоритме, невозможно оспорить
справедливость сделанных расчетов
В большинстве случаев технологии анализа
больших данных — это коммерческая тайна
5
6. Критика Big Data
«Никто в министерстве образованияНью-Йорка не понимает, как
работает эта модель. Учителя не
знают, на каком основании им
ставят те или иные оценки и что
нужно сделать, чтобы их
повысить, — им никто ничего не
может и не хочет объяснить»
6
7. Критика Big Data
Недостатки Big Data, о которых нельзязабывать
механизм работы алгоритма непрозрачен:
неясно то, какие именно данные
обрабатываются, а какие — нет
выводы программы также не являются
полностью прозрачными и могут быть
неверно интерпретированы
никто не станет вас спрашивать, согласны ли
вы стать частью какого-нибудь исследования
самосбывающиеся пророчества
7
8. Критика Big Data
«Полицейский отправляется патрулировать, иалгоритм ему подсказывает, что в этом районе он с
вероятностью 70% встретит взломщика. Найдет ли
он взломщика только потому, что ему сказали: «Ты
найдешь взломщика»?»
8
9. Хранение Big Data
Типичные проблемы, связанные с «Big data»:Объём. Как мы только что заметили, данных очень много
и их объём постоянно растет. Это требует принципиально
новых устройств и алгоритмов для хранения информации.
Скорость. Сами по себе данные почти бесполезны, если
их не обрабатывать, причем обрабатывать быстро.
Кстати, скорость – понятие весьма относительное, и то,
что для одних данных – очень быстро, для других будет
непозволительно медленно.
Неоднородность. Данные могут быть самыми разными:
по важности, скорости обновления, дополнения и т. п. Всё
это требует разных форматов хранения.
Безопасность. Данные не должны теряться;
несанкционированный доступ к ним также нежелателен.
9
10. Как хранить большие данные. Базовые подходы
Существует три способа хранения цифровыхданных:
Традиционный: «где-то у себя» – на дисках,
лентах, локальных хранилищах и т. д.;
В публичных «облаках»: от таких гигантов, как
Amazon, Microsoft и Google или от компаний
поменьше;
В частных «облаках»: вариант, более
характерный для корпоративного сегмента;
хранилище входит в инфраструктуру компании и
доступно только её сотрудникам.
10
11. Как хранить большие данные. Базовые подходы
Хранение «у себя»Плюсы
Это привычно
Скорость доступа
Цена
Минусы
Ненадёжность
Доступ к данным
Масштабирование
11
12. Как хранить большие данные. Базовые подходы
Публичные облакаПлюсы
Это удобно
Относительно безопасно
Довольно дёшево
Относительно надёжно
Новые горизонты в будущем
Минусы
Психологический фактор
Цена
Скорость доступа
12
13. Хранение Big Data не всегда приводит к получению выгоды
“Как должны в идеале выглядеть результаты?”“Как я могу измерить успех? “
“Какая информация более информативна и
полезна для достижения идеального результата?”
13
14. Скорость обновления данных и «актуальный» временной интервал
Cледует начинать с четкого определениянеобходимых параметров и стратегии того, как
добиться успехов в той или иной области.
После этого уже будет очевиден необходимый
временной интервал обновления данных, а,
следовательно, и требования к оптимальному плану
сбора данных, их хранению и анализу.
14
15.
Перспективы и тенденцииразвития Big DATA
16. Тенденции и перспективы на рынке Big Data
Концепция Big Data, которая впоследние годы входила в
«горячий» топ технологий
анализа, постепенно выходит
из моды. ИТ-специалисты
уже не ждут революционных
изменений в этой области
Теряет ли Big Data
актуальность?
Конечно же, нет
Роман Баранов — руководитель
направления бизнесаналитики и хранилищ данных компании
«Крок»
16
17. Big Data как способ сэкономить
«Применение классическихтехнологий оказалось
достаточно дорогим, так как
тогда пришлось бы держать
внутри одного процесса
огромные массивы
информации, собранные со
всех филиалов по всей
стране. А Big Data позволила
значительно удешевить
решение и выполнить проект
за несколько месяцев»
Роман Баранов — руководитель
направления бизнесаналитики и хранилищ данных компании
«Крок»
17
18. Big Data как способ сэкономить
Wi-Fi-аналитика позволяет,задействовав сигналы с
мобильных устройств
посетителей, составить
репрезентативный
аналитический срез
18
19. Видеоаналитика и распознавание лиц
Видеоаналитика и распознавание лиц19
20. Искусственный интеллект и Deep Learning
Deep Learning – один из подходов к машинномуобучению, который позволяет предугадывать
результаты по входным данным
20
21. Облачные хранилища
Облачное хранилище данных – модель хранилища,где данные хранятся на многочисленных серверах,
которые распределены в сети и предоставляются в
пользование клиентам
21
22. Blockchain
Блокчейн технология – это непрерывнаяпоследовательность блоков, которые содержат
информацию и выстроены по определённым правилам.
22
23. Использование Dark Data
Dark Data – это вся неоцифрованная информация, неиграющая ключевой роли при ее использовании, но
которая может послужить причиной для перехода на
новый формат хранения сведений
23
24. Программное обеспечение Statistica
Statistica – это программный продукт длястатистической обработки данных, разработанный
компанией StatSoft
24
25. Тенденции и перспективы на рынке Big Data
Причины неудач проектов большихданных:
дефицит специалистов
отсутствие постановок задач анализа и
критериев эффективности их решения
неосведомленность бизнес–аналитиков о
потенциале технологий больших данных,
методов и средств их анализа
не правильное проектирование
хранилища данных
25
26.
Рынок технологий большихданных в России и мире
27. Результаты внедрения технологий больших данных
2728. Результаты внедрения технологий больших данных
2829. Перспективы роста, госсектор
2930. Участники рынка big data
Поставщики инфраструктуры, которые решаютзадачи хранения и предобработки данных
30
31. Участники рынка big data
Датамайнеры — разработчики алгоритмов,которые помогают клиентам извлекать ценность из
больших данных
31
32. Участники рынка big data
Системные интеграторы, которые разворачиваютсистемы анализа больших данных на стороне
клиента
32
33. Участники рынка big data
Потребители, которые покупают программноаппаратные комплексы и заказывают алгоритмы уконсультантов (телеком, банки, ритейл и др.)
Разработчики готовых сервисов на базе больших
данных (в основном цифровой маркетинг), которые
открывают возможности big data для широкого
круга пользователей, в том числе для малого и
среднего бизнеса.
33
34. Участники рынка big data
Экспертные классификации игроков рынкатехнологий для больших данных
34
35.
Введение в LAMP, LEMP, MEAN,XAMPP, WAMP и стек AMPPS.
36. LAMP
LAMP - это сокращение для Linux, Apache,MySQL и PHP.
36
37. LEMP
В стеке LEMP, L обозначает Linux, E обозначает Nginx(engine-x), M обозначает MariaDB или MySQL, а P
обозначает PHP, также это может быть Perl или Python.
37
38. MEAN
Под стеком MEAN понимается стек MongoDB,Express, Angular, и Node.js
38
39. XAMPP
В стеке XAMPP X обозначаеткроссплатформенный, A - Apache, M - MariaDB и
P - PHP или Perl.
39
40. WAMP
WAMP - это Windows, Apache, MySQL и PHP.40
41. AMPPS
AMPPS - это комбинация стека LAMP (Linux), WAMP(Windows) и MAMP (Macintosh) от Softaculous, состоящая
из Apache, MySQL, MongoDB, PHP (также Perl и Python).
41
42.
Как Apache Cassandra, Kafka,Storm и Hadoop формируют
рекомендации пользователям
Spotify
43. Рекомендательная система Spotify
Рекомендательная система Spotify43
44. Основные стратегии создания рекомендательных систем
4445. Примеры рекомендаций Spotify
4546. Архитектура и основные возможности Big Data системы сервиса Spotify
Архитектура и основные возможности Big Data системысервиса Spotify
46
47. Роль Apache Cassandra в рекомендательной системе стримингового сервиса
Роль Apache Cassandra в рекомендательной системестримингового сервиса
Рекомендательная Big Data система Spotify на
базе Cassandra, Kafka, Storm и Hadoop
47
48.
WEB Сервер- APACHE49. WEB Сервер- APACHE
Apache – это программное обеспечение соткрытым исходным кодом, вебсервер, который обеспечивает работу около
46% сайтов по всему миру
49
50. Что такое веб-сервер?
5051. Apache или NGINX
Nginx произносится как Engine-X, это более новоевеб-серверное программное обеспечение с
первым релизом в 2004 году. Nginx был создан для
решения так называемой проблемы c10k –
проблемы 10 тысяч соединений
51
52. Apache или Tomcat
Tomcat – это веб-сервер также разработанныхApache Software Foundation, поэтому его
официальное название Apache Tomcat. Это тоже
HTTP-сервер, однако он обрабатывает приложения
Java вместо статических сайтов.
52
53. Apache – преимущества
Преимущества:Бесплатный даже для использования в коммерческих
целях.
Надёжный, стабильное программное обеспечение.
Часто обновляемый, регулярные патчи безопасности.
Гибкий благодаря своей модульной структуре.
Легко настраиваемый, дружелюбный для
начинающих.
Кроссплатформенный (работает одинаково хорошо на
Unix и на Windows серверах).
Работает для сайтов на WordPress сразу после
установки без дополнительных настроек.
Большое сообщество и легко доступная поддержка в
случае любой проблемы.
53
54. Apache – недостатки
Недостатки:Проблемы производительности на сайтах с большим
трафиком.
Слишком много параметров конфигруации могут
привести к уязвимостям в безопасности.
54