420.31K
Category: informaticsinformatics

ETL – примеры ПО

1.

Курс
«Хранилища данных»
Тема:
ETL – примеры ПО
Барабанщиков
Игорь Витальевич

2.

Интегрированные ETL-средства
Позволяют выполнить все задачи ETL-процесса
с помощью одного программного продукта.
Обычно используются в крупных проектах.
Примеры:
• Oracle Warehouse Builder 11g
• Oracle Data Integrator 12c
• Microsoft SQL Server Integration Services
• Pentaho Data Integration
2

3.

Oracle Warehouse Builder (OWB)
• OWB – CASE-среда для разработки, развертывания и
управления корпоративных ХД.
• OWB – интегрированное средство, позволяющее
решать все задачи, не прибегая к помощи
нескольких узкоспециализированных продуктов.
3

4.

Задачи OWB
OWB позволяет решать следующие задачи:
• Проектирование ХД
• Создание ХД
• Разработка и генерация процедур
извлечения, преобразования и загрузки
данных из различных источников
• Управление метаданными и интеграция
инструментальных средств доступа.
• Администрирование ХД
4

5.

Архитектура OWB
OWB является продуктом глубоко
интегрированным в платформу СУБД Oracle.
5

6.

Основные компоненты OWB
Основные компоненты OWB на стороне сервера:
• Oracle Warehouse Builder Repository – набор системных таблиц
• Workspaces – используется для разделения репозитория на отдельные
логические части (DEV, TEST, PROD)
• Control Service Center – связан с конкретным Workspace. Хранит
подробную информацию о каждом действии (развертывание, выполнение)
• Control Center Agent (J2EE Runtime) – работает на сервере OC4J.
• Targhet Schema – схема БД, в которой хранятся объекты хранилища
данных (таблицы, кубы, измерения)
Основные компоненты OWB на стороне клиента:
• Design Center – визуальное среда для проектирования, развертывания
и мониторинга ETL-процесса
• Control Center Manager – находится внутри Design Center
• Repository Browser – Web-средство просмотра отчетов репозитория
6

7.

Источники данных
OWB предлагает простые механизмы для работы с
источниками и целевыми системами.
Диалоговые мастера (Wizards) позволяют просто и удобно
проходить необходимые этапы шаг за шагом.
В качестве источников могут выступать:
• РСУБД Oracle;
• Плоские файлы;
• DB2, Informix, MS SQL, Sybase
• ERP-система SAP R/3
• ODBC-источники;
Встроенные в OWB механизмы позволяют автоматически
определять изменения в источниках данных и
отображать их в своем репозитории метаданных.
7

8.

Визуальное моделирование
• OWB позволяет визуально моделировать схему ХД,
импортировать метаданные непосредственно из
развернутой схемы в БД Oracle.
• Разработчик визуально определяет отображения
между источниками данных и хранилищем.
8

9.

Проектирование ETL-процессов
• Процессы ETL в терминологии OWB называются
процессами преобразования (mappings).
• OWB предоставляет различные графические
средства проектирования процедур
преобразования.
9

10.

Проектирование ETL-процессов
• OWB поддерживают преобразования множества
источников во множество целей. Это позволяет
пользователю выполнять преобразования данных
последовательно по цепочке, используя PL/SQL.
• Для достижения гибкости в манипуляциях с данными,
пользователь может определять и встраивать свои
логические выражения, используя встроенные
визуальные средства проектирования логических
выражений.
• Чтобы повторно использовать разработанные ранее
процедуры обработки данных, OWB позволяет
организовывать пользовательские библиотеки
преобразований.
10

11.

Проектирование ETL-процессов
• В качестве компонент, составляющих
преобразования, можно использовать и
общие операторы объединения, фильтрации,
агрегирования и сортировки данных.
• Также присутствуют такие специфичные для
ETL операторы как:
- поиск по ключу (key lookup),
- операции над множествами (union (all),
minus, intersect)
- разворот таблиц (pivot and un-pivot).
Позднее все эти операторы автоматически
преобразуются в генерируемый код PL/SQL.
11

12.

Проектирование потоков процессов
• OWB предоставляет механизм организации
объединения разработанных процессов
преобразований в обобщенные потоки
процессов.
• Такие потоки процессов могут:
- управлять последовательностью исполнения
процессов,
- передавать параметры между процессами,
- синхронизировать исполнение,
- исполнять процессы в зависимости от результата
предыдущей операции,
- осуществлять ветвление потока по признаку,
соединение нескольких потоков в один и прочее.
12

13.

Проектирование потоков процессов
Пользователь может разрабатывать полностью
готовые механизмы загрузки, включая извещения
сообщением на экран или по электронной почте,
проверку наличия файла в источнике по протоколу
FTP и т.д.
13

14.

Управление исходным кодом
После того как проектирование хранилища и
процедур загрузки завершено, автоматически
сгенерированный код может быть размещен в
целевой системе. Этот код может быть следующих
типов:
• SQL DDL для создания хранилища данных;
• PL/SQL для процессов ETL из реляционных
источников;
• Управляющие файлы SQL*Loader для источников
плоских файлов;
• Процедуры ABAP для извелчения данных из
источников SAP R/3;
• Код на языке XML - для определения потоков
управления процессами.
14

15.

Управление оптимизацией кода
Для управления оптимизацией при генерации
исходного кода могут быть использованы
следующие возможности:
• Выбор типа загрузки – построчно или набором
строк;
• Поточное исполнение кода PL/SQL;
• Манипуляции с констрейнтами;
• Быстрая загрузка из удаленных таблиц, используя
встроенные представления;
• Загрузка изменений по партициям;
• Внешние таблицы;
• Табличные функции;
• Вставка одновременно в несколько таблиц;
• Использование оператора merge.
15

16.

Управление развертыванием
• Для управления таким разнообразием операций с
исходным кодом в составе OWB присутствует
встроенная утилита Deployment Manager.
• Deployment Manager предоставляет
унифицированный интерфейс для создания и
управления объектами и процедурами
разработанного хранилища.
• С помощью Deployment Manager можно
создавать, обновлять, удалять объекты из целевой
схемы хранилища одинаково вне зависимости от
конкретного кода.
• Deployment Manager позволяет запускать на
выполнение процедуры преобразований, как по
отдельности, так и в составе потоков процессов.
16

17.

Итоги
• OWB – интегрированное CASE-средство,
предназначенное для использования в
крупных проектах ХД.
• OWB ориентирован на использование ПО
Oracle.
• В случае гетерогенных систем лучше
использовать более универсальное ПО –
Oracle Data Integrator.
17
English     Русский Rules