Similar presentations:
Автоматизация процессов работы с хранилищами данных на платформе Micro Focus Vertica
1.
Автоматизация процессов работы схранилищами данных на платформе
Micro Focus Vertica
Продукты компании EasyData
Алексей Константинов
2.
О компании EasyDataС 2013 г. реализует проекты на BigData
Многолетний подтвержденный золотой статус Micro Focus
Gold Big Data Specialist
Разработчик крупных проектов в области хранилищ данных
на платформе Micro Focus Vertica и Cloudera Hadoop
Сертифицированный тренер и аудитор решений ХД на
платформе Micro Focus Vertica
Статус глобального технологического партнёра Vertica в
категории «Developer/Modelling/IDE»
Разработчик open source, freeware и коммерческого ПО
автоматизации ETL/ELT/Cron процессов
3.
Техническая поддержка Vertica4.
Автоматизация ХД VerticaYota [250 тб]
•ETL процессы захвата и доставки данных
•ELT процессы расчета витрин
•Репликация OGG
•Управление и мониторинг задачами на
серверах эксплуатации ETL/ELT/Hadoop
Humans [10 тб]
•ETL процессы захвата и доставки данных
•ELT процессы расчета витрин
•Репликация OGG
•Управление и мониторинг задачами на
серверах эксплуатации ETL/ELT/Hadoop
Трансфин М [1 тб]
•ETL процессы захвата и доставки данных
•ELT процессы расчета витрин
•Репликация OGG
•Управление и мониторинг задачами на
серверах эксплуатации ETL/ELT/Hadoop
Ситилинк [15 тб]
•Оптимизация работы Vertica
•Синхронизация стендов разработки и
промышленной эксплуатации
5.
Экосистема продуктов EasyDataEasyScheduler
&
EasyWebServices
Управление
задачами по
расписанию,
работа веб
сервисов
Управление
источниками
данных
EasyPortal
Создание
моделей
обработки
данных
Выпуск версий в
промышленную
эксплуатацию
Groovy ETL
language
(GETL)
EasyWebServer
Portal
&
EasyWorkspace
client
Разработка
шаблонов,
автоматизация
тестирования
процессов
Разработка
процессов
движения
данных
EasyLoader
ETL/ELT
&
Patterns libraries
6.
Работа с EasyPortalПодключение
источников
Импорт описания
структур источников
Экспорт структур в
таблицы ХД
Разработка моделей
маппинга и
трансформации данных
источников в ХД
Разработка SQL
скриптов очистки,
консолидации и
расчетов данных в ХД
Разработка задач
захвата, репликации и
обработки данных
Тестирование задач на
стенде разработки
Установка расписания
на выполнение задачи
в промышленном
контуре
Мониторинг работы
задач ХД
7.
Инициализация данных изисточников в таблицы ХД
Импорт структур
источников в
репозиторий
Установка расписания
на выполнение задачи
в промышленном
контуре
Экспорт структур
источников в таблицы
ХД оперативного слоя
Разработка моделей
маппинга первичных
данных источников и
таблиц ХД
Тестирование задачи в
контуре разработки
Создание задачи
первичной
инициализации
данных таблиц
оперативного слоя
8.
Инициализация данныхПоддержка
выгрузки хинтом
partition
Не требуется
заново выгружать
с источника в
случае ошибки
загрузки в ХД
Выгрузка параллельными
потоками всех записей или
партиций таблиц в CSV файлы
Пакетная загрузка CSV файлов
в таблицы ХД
Раздельные
транзакции
выгрузки и загрузки
на источнике и
приёмнике
Выполнение дополнительных
SQL скриптов инициализации
после загрузки данных
Дополнительная
логика
инициализации на
языке ХП
9.
Репликация данныхисточников в таблицы ХД
Настройка адаптера
OGG Flat Files для
генерации файлов с
логами репликации
Разработка моделей
правил репликации
таблиц источника с
таблицами ХД
Создание задачи
захвата Flat файлов и
репликации логов
изменений в таблицы
ХД
Установка расписания
на выполнение задачи
в промышленном
контуре
Тестирование задачи в
контуре разработки
10.
Репликация из источниковНе более 9000
полей в таблице
Загрузка файлов логов
репликации в буферные таблицы
Vertica
Можно
перегрузить заново
с нужной scn файлы
Для таблиц без PK
поддерживаются
только операции
вставок записей
Обработка записей буферных
таблиц с помощью подключенной
JDK библиотеки EasyVertica
Горизонтальное
масштабирование:
выполнение на
всех нодах кластера
Применение изменений на
таблицы Vertica оперативного
слоя
Оптимизация
выполнения INSERT,
UPDATE, DELETE
операторов
Запись выявленных ошибок логов
репликации в таблицы ошибок
репликации
Возможность анализа
ошибок
логов репликации
11.
Инкрементальный захватданных с источников
Разработка моделей
маппинга
инкрементального
захвата
Создание задачи
инкрементального
захвата и доставки
данных с источника в
таблицы ХД
Установка расписания
на выполнение задачи
в промышленном
контуре
Тестирование задачи
на контуре разработки
12.
Инкрементальная загрузкаТочка захвата может
быть числовым или
дата-время полем
Захват новых записей по точке
захвата
Выгрузка записей в CSV файлы
Можно
перегрузить заново
с нужной точки файлов
Раздельные
транзакции
выгрузки и загрузки на
источнике и
приёмнике
Пакетная загрузка CSV файлов в
таблицы ХД
Выполнение дополнительных SQL
скриптов после доставки данных
Дополнительная
логика после загрузки
на языке ХП
13.
Расчеты витринРазработка SQL
скриптов в
репозитории на языке
ХП
Создание задачи
выполнения скриптов
Установка расписания
на выполнение задачи
в промышленном
контуре
Тестирование задачи
на контуре разработки
14.
Преимущества EasyPortalКроссплатформенная среда разработки для Windows, Linux и Mac OS
Централизованный репозиторий структур данных, моделей и процессов
Low-code подход с шаблонизацией решений
Онлайн и оффлайн командная работа с помощью Git
Интеграция с Java приложениями
Центр управления работы задач по расписанию на серверах
ETL язык работы с источниками данных на базе Java и Groovy
15.
Преимущества EasySchedulerУправление и мониторинг
работы runtime серверов
Deploy пакетов файлов на
runtime сервера
WebCenter
Запуск задач по расписанию и
правилам на runtime серверах
Мониторинг работы задач,
хранение истории выполнения
и логов работы задач,
рассылка уведомлений
16.
Спасибоза
внимание!
Алексей Константинов
+7 499 390 88 92
easydata.ru
[email protected]