Similar presentations:
ETL – примеры ПО
1.
Курс«Хранилища данных»
Тема:
ETL – примеры ПО
Барабанщиков
Игорь Витальевич
2.
Интегрированные ETL-средстваПозволяют выполнить все задачи ETL-процесса
с помощью одного программного продукта.
Обычно используются в крупных проектах.
Примеры:
• Oracle Warehouse Builder 11g
• Oracle Data Integrator 12c
• Microsoft SQL Server Integration Services
• Pentaho Data Integration
2
3.
Oracle Warehouse Builder (OWB)• OWB – CASE-среда для разработки, развертывания и
управления корпоративных ХД.
• OWB – интегрированное средство, позволяющее
решать все задачи, не прибегая к помощи
нескольких узкоспециализированных продуктов.
3
4.
Задачи OWBOWB позволяет решать следующие задачи:
• Проектирование ХД
• Создание ХД
• Разработка и генерация процедур
извлечения, преобразования и загрузки
данных из различных источников
• Управление метаданными и интеграция
инструментальных средств доступа.
• Администрирование ХД
4
5.
Архитектура OWBOWB является продуктом глубоко
интегрированным в платформу СУБД Oracle.
5
6.
Основные компоненты OWBОсновные компоненты OWB на стороне сервера:
• Oracle Warehouse Builder Repository – набор системных таблиц
• Workspaces – используется для разделения репозитория на отдельные
логические части (DEV, TEST, PROD)
• Control Service Center – связан с конкретным Workspace. Хранит
подробную информацию о каждом действии (развертывание, выполнение)
• Control Center Agent (J2EE Runtime) – работает на сервере OC4J.
• Targhet Schema – схема БД, в которой хранятся объекты хранилища
данных (таблицы, кубы, измерения)
Основные компоненты OWB на стороне клиента:
• Design Center – визуальное среда для проектирования, развертывания
и мониторинга ETL-процесса
• Control Center Manager – находится внутри Design Center
• Repository Browser – Web-средство просмотра отчетов репозитория
6
7.
Источники данныхOWB предлагает простые механизмы для работы с
источниками и целевыми системами.
Диалоговые мастера (Wizards) позволяют просто и удобно
проходить необходимые этапы шаг за шагом.
В качестве источников могут выступать:
• РСУБД Oracle;
• Плоские файлы;
• DB2, Informix, MS SQL, Sybase
• ERP-система SAP R/3
• ODBC-источники;
Встроенные в OWB механизмы позволяют автоматически
определять изменения в источниках данных и
отображать их в своем репозитории метаданных.
7
8.
Визуальное моделирование• OWB позволяет визуально моделировать схему ХД,
импортировать метаданные непосредственно из
развернутой схемы в БД Oracle.
• Разработчик визуально определяет отображения
между источниками данных и хранилищем.
8
9.
Проектирование ETL-процессов• Процессы ETL в терминологии OWB называются
процессами преобразования (mappings).
• OWB предоставляет различные графические
средства проектирования процедур
преобразования.
9
10.
Проектирование ETL-процессов• OWB поддерживают преобразования множества
источников во множество целей. Это позволяет
пользователю выполнять преобразования данных
последовательно по цепочке, используя PL/SQL.
• Для достижения гибкости в манипуляциях с данными,
пользователь может определять и встраивать свои
логические выражения, используя встроенные
визуальные средства проектирования логических
выражений.
• Чтобы повторно использовать разработанные ранее
процедуры обработки данных, OWB позволяет
организовывать пользовательские библиотеки
преобразований.
10
11.
Проектирование ETL-процессов• В качестве компонент, составляющих
преобразования, можно использовать и
общие операторы объединения, фильтрации,
агрегирования и сортировки данных.
• Также присутствуют такие специфичные для
ETL операторы как:
- поиск по ключу (key lookup),
- операции над множествами (union (all),
minus, intersect)
- разворот таблиц (pivot and un-pivot).
Позднее все эти операторы автоматически
преобразуются в генерируемый код PL/SQL.
11
12.
Проектирование потоков процессов• OWB предоставляет механизм организации
объединения разработанных процессов
преобразований в обобщенные потоки
процессов.
• Такие потоки процессов могут:
- управлять последовательностью исполнения
процессов,
- передавать параметры между процессами,
- синхронизировать исполнение,
- исполнять процессы в зависимости от результата
предыдущей операции,
- осуществлять ветвление потока по признаку,
соединение нескольких потоков в один и прочее.
12
13.
Проектирование потоков процессовПользователь может разрабатывать полностью
готовые механизмы загрузки, включая извещения
сообщением на экран или по электронной почте,
проверку наличия файла в источнике по протоколу
FTP и т.д.
13
14.
Управление исходным кодомПосле того как проектирование хранилища и
процедур загрузки завершено, автоматически
сгенерированный код может быть размещен в
целевой системе. Этот код может быть следующих
типов:
• SQL DDL для создания хранилища данных;
• PL/SQL для процессов ETL из реляционных
источников;
• Управляющие файлы SQL*Loader для источников
плоских файлов;
• Процедуры ABAP для извелчения данных из
источников SAP R/3;
• Код на языке XML - для определения потоков
управления процессами.
14
15.
Управление оптимизацией кодаДля управления оптимизацией при генерации
исходного кода могут быть использованы
следующие возможности:
• Выбор типа загрузки – построчно или набором
строк;
• Поточное исполнение кода PL/SQL;
• Манипуляции с констрейнтами;
• Быстрая загрузка из удаленных таблиц, используя
встроенные представления;
• Загрузка изменений по партициям;
• Внешние таблицы;
• Табличные функции;
• Вставка одновременно в несколько таблиц;
• Использование оператора merge.
15
16.
Управление развертыванием• Для управления таким разнообразием операций с
исходным кодом в составе OWB присутствует
встроенная утилита Deployment Manager.
• Deployment Manager предоставляет
унифицированный интерфейс для создания и
управления объектами и процедурами
разработанного хранилища.
• С помощью Deployment Manager можно
создавать, обновлять, удалять объекты из целевой
схемы хранилища одинаково вне зависимости от
конкретного кода.
• Deployment Manager позволяет запускать на
выполнение процедуры преобразований, как по
отдельности, так и в составе потоков процессов.
16
17.
Итоги• OWB – интегрированное CASE-средство,
предназначенное для использования в
крупных проектах ХД.
• OWB ориентирован на использование ПО
Oracle.
• В случае гетерогенных систем лучше
использовать более универсальное ПО –
Oracle Data Integrator.
17