Similar presentations:
Хранилища данных
1.
Курс«Хранилища данных»
Тема:
Хранилища данных
Барабанщиков Игорь Витальевич
2.
Концепция ХД• В 1992г Инмон подробно описал концепцию хранилищ
данных.
• В основе концепции ХД лежит идея разделения данных,
используемых для оперативной обработки и для решения
задач анализа.
• Это разделение позволяет оптимизировать структуры
данных, используемые для анализа (для выполнения
аналитических запросов).
3.
Определение ХДХранилище данных – это предметно-ориентированный,
интегрированный, неизменчивый, поддерживающий
хронологию набор данных для целей поддержки
принятия решений.
4.
Предметная ориентация ХД• Является фундаментальным отличием ХД от
оперативных источников данных (ОИД).
• Разные ОИД могут содержать данные,
описывающие одну и ту же предметную
область с разных точек зрения.
• ХД позволяет интегрировать информацию,
отражающую разные точки зрения на одну
предметную область.
• Предметная ориентация позволяет хранить в
ХД только те данные, которые нужны для
анализа.
5.
Интеграция в ХД• ОИД, как правило разрабатываются
разными коллективами в разное время
на основе различного инструментария.
• Это приводит к тому, что данные,
отражающие один и тот же объект
реального мира в разных системах,
описывают его по-разному.
• Интеграция данных в ХД позволяет
решить эту проблему, приведя данные к
единому формату.
6.
Поддержка хронологии в ХД• Данные в ОИД необходимы для выполнения
над ними операций в текущий момент
времени.
• Поэтому они могут не иметь привязки ко
времени.
• Для анализа данных важно иметь
возможность отслеживать хронологию
изменений показателей предметной области.
• Поэтому все данные, хранящиеся в ХД,
должны соответствовать последовательным
интервалам времени.
7.
Неизменяемость данных в ХД• В ОИД данные хранятся ограниченное время.
Данные, которые не нужны для оперативной
обработки , удаляются из ОИД.
• Для анализа, наоборот, требуются данные за
максимально большой период времени.
• В отличие от ОИД, данные в ХД после загрузки
только читаются.
• Это позволяет существенно повысить
скорость доступа за счет исключения
операций модификации и за счет агрегации
данных.
8.
9.
Состав ХД• Детальные данные – это данные,
переносимые непосредственно из ОИД. Они
соответствуют элементарным событиям,
фиксируемым OLTP-системами. (Например:
продажи).
• Агрегированные данные – получаются на
основе обобщения детальных данных.
• Архивные данные – редко используемые,
старые данные.
• Метаданные – информация, необходимая для
удобства работы с ХД (данные о данных).
10.
Метаданные ХД• Работая с ХД, пользователь должен представлять:
- как вычисляются определенные наборы данных,
- что собой представляет система – источник данных,
- насколько этим данным можно доверять.
• Метаданные предоставляют в распоряжение
пользователей объяснение:
- характера данных,
- источника их происхождения
- способов доступа к данным.
• Никакие данные не могут появиться в ХД без
фиксации этого факта в метаданных.
11.
Пример метаданныхДанные, содержащиеся в репозитории
метаданных, позволяют отслеживать
информацию об аспектах функционирования ХД:
• Преобразование данных
• Адекватные даты и диапазоны для полей данных
• Система – источник данных
• Отображение полей системы-источника
• История извлечения данных
• Система защиты данных
12.
Информационные потоки в ХД• Входной поток (In Flow) – образуется данными,
загружаемыми из ОИД в ХД
• Поток обобщения (Up Flow) – образуется при
выполнении агрегирования детальных данных
• Архивный поток (Down Flow) – образуется при
перемещении в архив детальных данных, количество
обращений к которым снизилось.
• Поток метаданных (Meta Flow) – образуется при
записи информации о данных в репозиторий.
• Выходной поток (Out Flow) – образуется данными,
извлекаемыми пользователями при выполнении
анализа.
• Обратный поток (Feedback Flow) – образуется
очищенными данными, записываемыми обратно в
ОИД.
13.
Архитектура корпоративного ХД• В общем виде архитектура корпоративного ХД состоит
из шести уровней.
• Несмотря на то, что сами компоненты могут
отсутствовать, уровни в том или ином виде сохраняются.
14.
Итоги• В основе концепции ХД
лежит идея разделения
данных, используемых для
оперативной обработки и
для решения задач
анализа.
• Это разделение позволяет
оптимизировать структуры
данных, используемые для
анализа