Платформы для анализа больших данных

1. Платформы для анализа больших данных

ПЛАТФОРМЫ
ДЛЯ АНАЛИЗА
БОЛЬШИХ
ДАННЫХ
A PA C H E
S PA R K
H A D O O P
И
A PA C H E

2. Что такое Apache Hadoop?

Ч ТО ТА К О Е
A PA C H E H A D O O P ?
Apache Hadoop — это платформа для хранения и работы с
большими объемами данных. Ее преимущество заключается в
распределении вычислений между множеством узлов. Hadoop
разбивает большую задачу на много маленьких и решает их
одновременно на разных компьютерах.
Основная идея:
• Разделить данные на части
• Распределить по кластеру серверов
• Обрабатывать параллельно

3. Основные компоненты Hadoop

Hadoop Distributed File System (HDFS) — файловая
система для хранения больших данных с потоковым
доступом. HDFS оптимизирована под работу с файлами до
десятков терабайт, а кластеры могут хранить петабайты
информации.
ОСНОВНЫЕ
КОМПОНЕНТ
Ы HADOOP
MapReduce — модель для обработки записей из HDFS.
MapReduce разбивает задачу на две фазы. На этапе «Map»
данные обрабатываются параллельно на разных узлах
кластера, а на этапе «Reduce» результаты объединяются.
Yet Another Resource Negotiator (YARN) — система
управления ресурсами кластера и планирования задач.
YARN расширяет возможности Hadoop и поддерживает
другие модели обработки помимо MapReduce — Spark, Flink.
Hadoop Common — это набор библиотек и утилит для
работы с различными компонентами Hadoop: настройки,
управления и обеспечения безопасности.

4. Как работает Hadoop

ЭТАП
ЧТО ДЕЛАЕТ
РЕЗУЛЬТАТ
MAP
- Делит данные на части
- Распределяет по узлам
- Параллельная обработка
Промежуточные
данные <ключ,
значение>
REDUCE
- Группирует по ключам
- Агрегирует результаты
- Формирует итог
Конечный ответ
К А К РА Б О ТА Е Т H A D O O P

5. Преимущества Hadoop

П Р Е И М У Щ Е СТ ВА H A D O O P
Масштабируемость. Систему Hadoop можно расширять до тысяч узлов. Компании
наращивают вычислительные мощности по мере роста объемов данных.
Экономия. Дешевые сервера на базе Hadoop объединяются в мощный
вычислительный кластер. Компании используют Hadoop, чтобы не инвестировать в
дорогостоящее оборудование.
Отказоустойчивость. Благодаря распределенной архитектуре и автоматической
репликации Hadoop работает даже при отказе отдельных узлов кластера.
Гибкость. Hadoop применяется в проектах со структурированными и
неструктурированными данными.

6. Что такое Apache Spark?

Ч Т О ТА К О Е
A PA C H E
S PA R K ?
• Apache Spark — это система распределенных
вычислений. Она используется для преодоления
ограничений Hadoop MapReduce и
интегрируется поверх HDFS.

7. Компоненты spark

Spark Core — движок для распределенной обработки больших данных. Включает в
себя API для работы с Resilient Distributed Datasets (RDD) — основной абстракцией
данных в Spark.
Spark SQL — модуль для работы со структурированными данными, поддерживающий
SQL-запросы.
Spark Streaming — компонент для обработки потоковых данных в реальном времени.
MLlib — библиотека машинного обучения с алгоритмами для классификации,
регрессии, кластеризации и фильтрации данных.
GraphX — движок для визуализации данных на графиках.
К О М П О Н Е Н Т Ы S PA R K

8. Преимущество spark

Скорость. Spark быстрее Hadoop.
Производительность заметна при
интерактивной обработке информации и
задачах с низкой задержкой.
Отказоустойчивость. Как и Hadoop, Spark
устойчив к сбоям за счет распределенного
хранения и обработки информации.
Универсальность. Spark подходит для
разных видов обработки информации:
пакетной, потоковой, SQL-запросов,
машинного обучения и графовых
алгоритмов.
Интерактивность. Благодаря
производительности, с помощью Спарка
можно анализировать информацию в
реальном времени.
ПРЕИМУЩЕСТВ
О S PA R K

English Русский Rules