2.61M
Category: databasedatabase

биг дата кт5

1.

ETL и ELT процессы

2.

ETL
ETL(Extract, Transform, Load) - Это процесс сбора «сырых» данных из раздельных источников, передачи в
промежуточную базу данных для преобразования и загрузки подготовленных данных в единую целевую
систему.

3.

ETL
Extract - подключение к системе-источнику и считывание данных.
• API
• подключение к базе (напрямую или через промежуточную)
• Excel, XML, PDF и иных табличных файлов
Transform - процесс преобразования и трансформации полученных данныхиз источника.
• фильтрация
• изменение типов данных
• обогащения
• дедупликация
Load - процесс загрузки преобразованных данных в целевую систему (система-приемник)

4.

ELT
ELT(Extract, Load, Transform) - это процесс интеграции данных. В этом подходе сырые данные сначала
извлекаются из различных источников, затем загружаются в целевое хранилище (например, облачное
хранилище данных), и только потом трансформируются и обрабатываются, используя вычислительную
мощность самого хранилища. Это отличается от классической модели ETL, где трансформация происходит до
загрузки.

5.

ETL vs ELT

6.

ETL vs ELT

7.

Концепция Data Pipeline
Последовательность автоматизированных шагов для перемещения и обработки
данных из одного или нескольких источников в целевую систему для дальнейшего
анализа или использования. Типичный поток данных состоит из трех основных
компонентов:
Источник данных: Место, откуда берутся данные. Это могут быть базы данных, API,
файловые системы, устройства IoT и многое другое.
Обработка данных: Этап, на котором извлеченные данные проходят различные
преобразования и манипуляции для подготовки к использованию в целевой
системе. Это может включать очистку данных, обогащение, агрегацию и
форматирование.
Место назначения данных: Обработанные данные загружаются в целевую
систему, которой может быть хранилище данных, озеро данных или аналитическая
платформа.

8.

Данные для кода

9.

ELT код

10.

ETL код

11.

Результаты кода

12.

Плюсы и минусы ELT и ETL
1. Время – Загрузка
3. Время – Обслуживание
ETL: использует промежуточную область и систему,
ETL: высокий уровень обслуживания – выбор данных для
дополнительное время для загрузки данных
загрузки и преобразования; необходимо сделать все
ELT: все в одной системе, загрузка только один раз
снова, если данные удалены или вы хотите улучшить
основное хранилище данных.
2. Время – Преобразование
ELT: низкие эксплуатационные расходы – все данные
всегда доступны
ETL: нужно подождать, особенно для больших объемов
данных – по мере роста данных время преобразования
4. Сложность реализации
увеличивается
ETL: на ранней стадии требует меньше места, и результат
ELT: все в одной системе, скорость не зависит от
будет чистый
размера данных
ELT: требует глубоких знаний инструментов и экспертного
проектирования основного большого хранилища.

13.

Плюсы и минусы ELT и ETL
5. Анализ и стиль обработки
7. Поддержка хранилищ данных
ETL: основан на нескольких сценариях для создания
представлений – удаление представления означает
удаление данных
ETL: преобладающая устаревшая модель, используемая
для локальных и реляционных структурированных
данных.
ELT: создание специальных представлений – низкие
затраты на создание и обслуживание
6. Ограничение данных или ограничение на поставку
ELT: адаптировано для использования в масштабируемой
облачной инфраструктуре для поддержки
структурированных и неструктурированных источников
больших данных.
ETL: предполагая и выбирая данные априори
8. Поддержка озера данных
ELT: По HW (нет) и политике хранения данных
ETL: не является частью подхода
ELT: позволяет использовать озеро с поддержкой
неструктурированных данных

14.

Плюсы и минусы ELT и ETL
9. Удобство использования
10. Рентабельность
ETL: фиксированные таблицы, фиксированная
ETL: нерентабельно для малого и среднего бизнеса
временная шкала, используется в основном ИТ
ELT: масштабируемость и доступность для бизнеса любого
ELT: ситуативность, гибкость, доступность для всех, от
размера с использованием онлайн-решений SaaS
разработчика до гражданского интегратора

15.

Спасибо за внимание
English     Русский Rules