Similar presentations:
ггг
1. Платформы для анализа больших данных
ПЛАТФОРМЫДЛЯ АНАЛИЗА
БОЛЬШИХ
ДАННЫХ
A PA C H E
S PA R K
H A D O O P
И
A PA C H E
2. Что такое Apache Hadoop?
Ч ТО ТА К О ЕA PA C H E H A D O O P ?
Apache Hadoop — это платформа для хранения и работы с
большими объемами данных. Ее преимущество заключается в
распределении вычислений между множеством узлов. Hadoop
разбивает большую задачу на много маленьких и решает их
одновременно на разных компьютерах.
Основная идея:
• Разделить данные на части
• Распределить по кластеру серверов
• Обрабатывать параллельно
3. Основные компоненты Hadoop
Hadoop Distributed File System (HDFS) — файловаясистема для хранения больших данных с потоковым
доступом. HDFS оптимизирована под работу с файлами до
десятков терабайт, а кластеры могут хранить петабайты
информации.
ОСНОВНЫЕ
КОМПОНЕНТ
Ы HADOOP
MapReduce — модель для обработки записей из HDFS.
MapReduce разбивает задачу на две фазы. На этапе «Map»
данные обрабатываются параллельно на разных узлах
кластера, а на этапе «Reduce» результаты объединяются.
Yet Another Resource Negotiator (YARN) — система
управления ресурсами кластера и планирования задач.
YARN расширяет возможности Hadoop и поддерживает
другие модели обработки помимо MapReduce — Spark, Flink.
Hadoop Common — это набор библиотек и утилит для
работы с различными компонентами Hadoop: настройки,
управления и обеспечения безопасности.
4. Как работает Hadoop
ЭТАПЧТО ДЕЛАЕТ
РЕЗУЛЬТАТ
MAP
- Делит данные на части
- Распределяет по узлам
- Параллельная обработка
Промежуточные
данные <ключ,
значение>
REDUCE
- Группирует по ключам
- Агрегирует результаты
- Формирует итог
Конечный ответ
К А К РА Б О ТА Е Т H A D O O P
5. Преимущества Hadoop
П Р Е И М У Щ Е СТ ВА H A D O O PМасштабируемость. Систему Hadoop можно расширять до тысяч узлов. Компании
наращивают вычислительные мощности по мере роста объемов данных.
Экономия. Дешевые сервера на базе Hadoop объединяются в мощный
вычислительный кластер. Компании используют Hadoop, чтобы не инвестировать в
дорогостоящее оборудование.
Отказоустойчивость. Благодаря распределенной архитектуре и автоматической
репликации Hadoop работает даже при отказе отдельных узлов кластера.
Гибкость. Hadoop применяется в проектах со структурированными и
неструктурированными данными.
6. Что такое Apache Spark?
Ч Т О ТА К О ЕA PA C H E
S PA R K ?
• Apache Spark — это система распределенных
вычислений. Она используется для преодоления
ограничений Hadoop MapReduce и
интегрируется поверх HDFS.
7. Компоненты spark
Spark Core — движок для распределенной обработки больших данных. Включает всебя API для работы с Resilient Distributed Datasets (RDD) — основной абстракцией
данных в Spark.
Spark SQL — модуль для работы со структурированными данными, поддерживающий
SQL-запросы.
Spark Streaming — компонент для обработки потоковых данных в реальном времени.
MLlib — библиотека машинного обучения с алгоритмами для классификации,
регрессии, кластеризации и фильтрации данных.
GraphX — движок для визуализации данных на графиках.
К О М П О Н Е Н Т Ы S PA R K
8. Преимущество spark
Скорость. Spark быстрее Hadoop.Производительность заметна при
интерактивной обработке информации и
задачах с низкой задержкой.
Отказоустойчивость. Как и Hadoop, Spark
устойчив к сбоям за счет распределенного
хранения и обработки информации.
Универсальность. Spark подходит для
разных видов обработки информации:
пакетной, потоковой, SQL-запросов,
машинного обучения и графовых
алгоритмов.
Интерактивность. Благодаря
производительности, с помощью Спарка
можно анализировать информацию в
реальном времени.
ПРЕИМУЩЕСТВ
О S PA R K
software