6.00M

Анализ больших данных

1.

АНАЛИЗ БОЛЬШИХ ДАННЫХ

2.

ПЛАН ЛЕКЦИИ
Суть анализа больших данных
Методы сбора и хранения больших данных
Методы и технологии анализа больших
данных
Профессии в сфере анализа больших данных
Спрос на специалистов в сфере анализа
больших данных

3.

СУТЬ АНАЛИЗА БОЛЬШИХ ДАННЫХ
Анализ больших данных – это то, с чем сегодня
сталкиваются компании, ведущие свою
деятельность практически в любой сфере:
маркетинг, ритейл, медицина, рынок
недвижимости и т. д. Везде, где есть
необходимость обрабатывать большие массивы
информации, используются данные технологии,
и востребованы специалисты.

4.

СУТЬ АНАЛИЗА БОЛЬШИХ ДАННЫХ
Результаты анализа применяются для принятия
стратегических решений, продвижения
продукции и услуг, в социально значимых
проектах и программах.

5.

СУТЬ АНАЛИЗА БОЛЬШИХ ДАННЫХ
Термин «Big Data» стал широко известен не так
давно – согласно «Google Trends», уровень его
употребления резко возрос в 2011 году.
Сегодня понятие у всех на слуху, больше всего
его любят и используют в любой, даже
неподходящей ситуации маркетологи.

6.

СУТЬ АНАЛИЗА БОЛЬШИХ ДАННЫХ
Big Data определяют как данные:
объем которых превышает 100Гб/500Гб/1ТБ;
которые не могут быть обработаны в «Excel».
не поддающиеся обработке на одном
компьютере.

7.

СУТЬ АНАЛИЗА БОЛЬШИХ ДАННЫХ
Однако у термина есть официальное толкование,
на которое и стоит опираться при работе с
анализом больших данных.
Это серия подходов, инструментов и методов
работы со структурированной и
неструктурированной информацией, которая
отличается огромным объемом и значительным
многообразием.

8.

СУТЬ АНАЛИЗА БОЛЬШИХ ДАННЫХ
Цель такой деятельности состоит в получении
результатов, которые могут восприниматься человеком и
эффективны при постоянном приросте, распределении
по многочисленным узлам вычислительной сети.

9.

СУТЬ АНАЛИЗА БОЛЬШИХ ДАННЫХ
Стоит пояснить, что речь идет об узлах, появившихся в
конце 2000-х годов и выступающих в роли альтернативы
традиционным системам управления базами данных и
решениям класса «Business Intelligence».

10.

СУТЬ АНАЛИЗА БОЛЬШИХ ДАННЫХ
Поэтому за интересующим нас термином
скрываются не сведения в определенном объеме,
а подходы, дающие возможность распределенно
обрабатывать информацию. Они могут
применяться к значительным и малым массивам
данных, то есть как к содержанию всего,
выложенного в Сеть, так и к одному тексту.

11.

СУТЬ АНАЛИЗА БОЛЬШИХ ДАННЫХ
К системам анализа больших данных
приходится прибегать при работе, например, со
следующими источниками информации:
логи поведения людей в Сети;
GPS-сигналы транспортных средств, входящих
в парк компаний, занимающихся доставкой;
информация с датчиков Большого адронного
коллайдера;
оцифрованная литература, хранящаяся в РГБ;
сведения о транзакциях клиентов
определенного финансового учреждения;
данные о покупках, совершенных людьми у
крупного ритейлера.

12.

МЕТОДЫ СБОРА И ХРАНЕНИЯ БОЛЬШИХ ДАННЫХ
В современном мире источников информации
становится все больше, поэтому возрастает
потребность в соответствующих технологиях
обработки.
Анализ больших данных позволяет оценивать все
факторы, способные повлиять на решение. Если
говорить точнее, Big Data используется для
построения моделей-симуляций, обеспечивающих
возможность тестирования идеи, продукта.

13.

МЕТОДЫ СБОРА И ХРАНЕНИЯ БОЛЬШИХ ДАННЫХ
Основными источниками, применяемыми при анализе
больших данных, являются:
интернет вещей (IoT) и устройства с доступом к нему;
социальные сети, блоги и средства массовой
информации;
данные компаний о транзакциях, заказах товаров,
поездках на такси и каршеринге, профили клиентов;
сведения с приборов, таких как метеостанции,
измерители состава воздуха, водоемов, информация,
поступающая от спутников;
статистика субъектов и государств, включающая в себя
данные о перемещениях, рождении и смертях граждан;
данные медицинского характера, в том числе анализы,
болезни, снимки, применяемые для диагностики.

14.

МЕТОДЫ СБОРА И ХРАНЕНИЯ БОЛЬШИХ
ДАННЫХ
В 2007 года ФБР и ЦРУ начали использовать
«PRISM», известный как одна из наиболее
современных систем сбора персональных данных
пользователей соцсетей, сервисов «Microsoft»,
«Google», «Apple», «Yahoo». Также он записывает
общение людей по телефону.

15.

МЕТОДЫ СБОРА И ХРАНЕНИЯ БОЛЬШИХ ДАННЫХ
Сегодня вычислительные системы открывают
доступ к огромным массивам информации, для
хранения которой создают дата-центры с
мощнейшими серверами. Используются не только
традиционные, материальные серверы, но и
облачные хранилища, так называемые «озера
данных» или «data lake», то есть содержащие
большой объем сведений из одного источника, не
имеющий четкой структуры.

16.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА БОЛЬШИХ ДАННЫХ
Сегодня человек может проводить анализ любых
объемов больших данных, поскольку в его
распоряжении находятся такие
высокопроизводительные технологии, как гридвычисления, аналитика в оперативной памяти.

17.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА БОЛЬШИХ ДАННЫХ
Первым этапом работы с Big Data становится
структурирование – здесь отбирают лишь
наиболее подходящую информацию. Большие
данные все активнее используют при
проведении расширенной аналитики с
применением искусственного интеллекта.

18.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА БОЛЬШИХ ДАННЫХ

19.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Существуют такие ключевые методы анализа
больших данных:
Описательная аналитика
Прогнозная аналитика
Предписательная аналитика
Диагностическая аналитика

20.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Существуют такие ключевые методы анализа
больших данных:
Описательная аналитика
К так называемому «descriptive analytics»
прибегают чаще, чем к другим подходам. Он
позволяет понять, что произошло, проверяет и
оценивает исторические данные и информацию,
поступающие онлайн. Основная задача данного
метода состоит в обнаружении причин и
закономерностей успехов, провалов в конкретной
области. Полученные данные позволяют
выстраивать наиболее эффективные модели.

21.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Описательная аналитика
В данной сфере пользуются базовыми
математическими функциями. С их помощью
проводят социологические исследования и
формируют данные веб-статистики от «Google
Analytics».
Также существует пара крупных классов моделей,
позволяющих принимать решения относительно
стоимости товаров. Первый основывается на
рыночных ценах на определенный продукт. Он
собирает и анализирует информацию о ценниках в
магазинах, после чего на основе заключений по
определенным правилам составляет прайс.

22.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Описательная аналитика
Другой тип моделей предполагает построение
кривой спроса, свидетельствующей об объемах
продаж в соответствии с ценой. Подобный подход
к работе с большими данными больше связан с
анализом. Его активно используют в онлайне,
также эта технология постепенно переходит из
виртуального в реальный мир.

23.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ

24.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Прогнозная аналитика
Predictive analytics необходим, чтобы на основе
имеющейся информации строить прогноз
относительно наиболее вероятного сценария
развития ситуации. Здесь применяют готовые
шаблоны, при создании которых опирались на
явления с аналогичным набором свойств. Такой
подход дает возможность просчитать обвал
мирового фондового рынка или изменение цен,
оценить возможности конкретного потребителя
при выплате кредита.

25.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ

26.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Предписательная аналитика
Prescriptive analytics считается на уровень выше,
чем предыдущая разновидность. За счет нее
специалист по анализу больших данных
обнаруживает проблемные места в бизнесе, либо
иной деятельности, подбирает сценарии,
позволяющий компании защититься от
трудностей.

27.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Предписательная аналитика
Среди примеров анализа больших данных
данным способом стоит назвать деятельность
медицинских центров «Aurora Health Care».
Благодаря предписывающей аналитике,
клиника каждый год экономит $6 миллионов,
снизив на 10 % долю повторных госпитализаций.

28.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Диагностическая аналитика
В рамках diagnostic analytics раскрываются
причины, удается выявлять аномалии и связи
между событиями, поступками. Так, «Amazon»
анализирует свои продажи и валовую прибыль
по различным товарам, стремясь понять, почему
они не принесли запланированные суммы.

29.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
В рамках анализа больших данных в бизнесе используют
разные инструменты и технологии:
Специальное ПО, такое как NoSQL, MapReduce, Hadoop.
Data mining, что предполагает применение различных
техник для получения сведений из массивов ранее
неизвестной информации.
Искусственный интеллект и нейросети для создания
моделей на основе Big Data, распознавания текстовой
информации, изображений. Так, стратегия оператора
лотерей «Столото» в рамках Data-driven Organization
основана на анализе больших данных. Компания
рассматривает опыт потребителей и предлагает им
подходящие продукты.
Визуализация аналитики, то есть анимированные
модели или графики, при создании которых
используется Big Data.

30.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
В рамках анализа больших данных в бизнесе используют
разные инструменты и технологии:
Специальное ПО, такое как NoSQL, MapReduce, Hadoop.
Data mining, что предполагает применение различных
техник для получения сведений из массивов ранее
неизвестной информации.
Искусственный интеллект и нейросети для создания
моделей на основе Big Data, распознавания текстовой
информации, изображений. Так, стратегия оператора
лотерей «Столото» в рамках Data-driven Organization
основана на анализе больших данных. Компания
рассматривает опыт потребителей и предлагает им
подходящие продукты.
Визуализация аналитики, то есть анимированные
модели или графики, при создании которых
используется Big Data.

31.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
При сборе сведений разработчики сталкиваются
с такими факторами:
Благодаря обезличиванию, персональные
данные пользователей становится
относительно недоступными.
Из-за агрегированности сведений удается
оперировать только средними показателями.

32.

МЕТОДЫ И ТЕХНОЛОГИИ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Для онлайн обработки больших объемов
информации прибегают к суперкомпьютерам,
так как они в разы превосходят обычные по
мощности, вычислительным возможностям.

33.

ПРОФЕССИИ В СФЕРЕ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
В интересующей нас области есть немало
направлений, которые можно объединить в две
группы:
Big Data engineering;
Big Data Analytics
Хотя их зоны ответственности в сфере
информационных технологий и анализа
больших данных связаны друг с другом, у них
немало серьезных отличий.

34.

ПРОФЕССИИ В СФЕРЕ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Специалист, обладающий первой профессией,
разрабатывает каркас, занимается сбором,
хранением данных. Кроме того, благодаря ему,
информация становится доступной для
потребительских и внутренних приложений.
Чтобы заниматься подобной работой, ему
необходимы развитые навыки
программирования, также он должен понимать,
как компьютеры взаимодействуют в Сети.
Однако математика и статистика его мало
привлекают.

35.

ПРОФЕССИИ В СФЕРЕ АНАЛИЗА
БОЛЬШИХ ДАННЫХ

36.

ПРОФЕССИИ В СФЕРЕ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Обладатель второй профессии занимается
непосредственно анализом больших данных, на
основе готовых систем, которые создаются Big
data engineering.
Он рассматривает закономерности,
разрабатывает методы классификации и
прогнозирования. На заключительном этапе
данный специалист должен интерпретировать
полученные результаты.

37.

ПРОФЕССИИ В СФЕРЕ АНАЛИЗА
БОЛЬШИХ ДАННЫХ

38.

ПРОФЕССИИ В СФЕРЕ АНАЛИЗА
БОЛЬШИХ ДАННЫХ
Эта сфера подходит тем людям, которые
разбираются в программировании, без труда
решают задачи по высшей математике, знакомы
с теорией вероятности, матанализом,
комбинаторикой.
В целом, обязанности Big data Analytics
предполагают расширенные вычисления по
данным. А сфера Big data engineering – это
проектирование и развертывание систем, по
которым планируется производить вычисления.

39.

СПРОС НА СПЕЦИАЛИСТОВ В СФЕРЕ
АНАЛИЗА БОЛЬШИХ ДАННЫХ
Работа с большими данными становится все
более востребована. Так, в 2020 году подсчитали,
что даже при не самом благоприятном развитии
событий объем данного рынка в нашей стране к
2024 году увеличится с 45 до 65 миллиардов
рублей. Если ситуация будет складываться
позитивно, то показатели вырастут до 230
миллиардов рублей.

40.

СПРОС НА СПЕЦИАЛИСТОВ В СФЕРЕ
АНАЛИЗА БОЛЬШИХ ДАННЫХ
Уже очевидно: те компании, которые
отказываются от анализа больших данных,
лишают себя выгоды.
По сведениям «The Bell» в 2014 году
дистрибьюторы «Caterpillar» упустили прибыль в
размере $9 – $18 миллиардов, не внедряя
подобные технологии обработки. На данный
момент на 3,5 миллионах единиц техники
корпорации стоят датчики для сбора сведений о
ее состоянии, износе ключевых деталей – так
упрощается управление затратами на
обслуживание.

41.

СПРОС НА СПЕЦИАЛИСТОВ В СФЕРЕ
АНАЛИЗА БОЛЬШИХ ДАННЫХ
Рост использования больших данных в разных
сферах привел к тому, что востребованы стали
специалисты и обучение анализу больших
данных. Академия «MADE» от «Mail.ru Group» и
«HeadHunter» провели в середине 2020 года
исследование, согласно итогам которого
специалисты по анализу данных относятся к
наиболее востребованным на рынке труда в
России.

42.

СПРОС НА СПЕЦИАЛИСТОВ В СФЕРЕ
АНАЛИЗА БОЛЬШИХ ДАННЫХ
За четыре года в этой области в десять раз стало
больше вакансий.
Свыше трети предложений для специалистов
(38%) поступает от IT-компании,
еще треть – от финансового сектора, и 9%
приходится на бизнес.
В области машинного обучения IT-компании
размещают
55% вакансий,
10% – финансовый сектор, а еще
9% — сфера услуг.
English     Русский Rules