333.01K
Category: databasedatabase

Витрины данных

1.

Курс
«Хранилища данных»
Тема:
Витрины данных
Барабанщиков Игорь Витальевич

2.

Проблемы создания физического ХД
• Необходимость интеграции данных из
неоднородных источников.
• Потребность в эффективном хранении и
обработке очень больших объемов
информации.
• Необходимость наличия многоуровневых
справочников метаданных.
• Повышенные требования к безопасности
данных.

3.

Виртуальное ХД

4.

Достоинства виртуальных ХД
• Сокращение расходов.
- Нет необходимости тратить средства на
дорогостоящее оборудование для центрального ХД.
- Не надо содержать высококвалифицированный
персонал, обслуживающий это хранилище.
- Не нужны серверные помещения с дорогостоящим
оборудованием систем охлаждения, пожаротушения
и мониторинга.
• Работа с самыми свежими данными.
- Аналитические системы должны напрямую
работать с источниками данных, минуя всех
посредников.

5.

Недостатки виртуальных ХД
• Более низкая скорость выполнения
аналитических запросов.
• Высокая нагрузка на оперативные
источники данных.
• Зависимость от доступности оперативных
источников данных.
• Изменения в структуре БД оперативных
источников данных должны отражаться в
виртуальном ХД.

6.

Независимые витрины данных
Независимые витрины данных появились как
физическая реализация понимания того, что
транзакционная и аналитическая обработка
данных плохо уживаются на одном компьютере.

7.

Преимущества независимых ВД
• Легкость и простота их организации, так как
каждая из них оперирует с данными одной
задачи, и поэтому не возникает проблем с
метаданными и НСИ.
• Нет никакой необходимости в сложных
системах извлечения, преобразования и
загрузки данных (ETL). Данные просто
копируются на регулярной основе из
транзакционной системы в витрину данных.
• Одно приложение – одна витрина. Поэтому
независимые витрины данных часто называют
прикладными витринами данных.

8.

Недостатки независимых ВД
• Информация в витринах не согласована.
• Каждая витрина унаследовала от
транзакционной системы свою
терминологию, свою модель данных, свою
нормативно-справочную информацию, в том
числе, кодировку данных.
• Сложно получать информацию из нескольких
витрин одновременно
• Значит, нужен единый репозиторий –
хранилище данных.

9.

ХД с накоплением данных в
витринах
Основанием для появления этой архитектуры
явились следующие предпосылки.
• Некоторые компании до сих пор внедряют и
эксплуатируют разрозненные прикладные
витрины данных.
• В некоторых компаниях сложилось мнение,
что создание корпоративного хранилища
данных (КХД) подобно смертельному трюку с
непредсказуемыми последствиями.
• Требование быстрых результатов.

10.

ХД с накоплением данных в
витринах
Следуя этим принципам, компании сначала внедряют
разрозненные независимые витрины, в надежде,
что содержащиеся в них данные будут легко, просто и
быстро объединены в КХД.

11.

ХД с накоплением данных в
витринах
Проблемы:
Информация в разных ВД не согласована между
собой.
• Одни и те же показатели могут вычисляться по
разным алгоритмам.
• Показатели с одинаковыми названиями могут
скрывать разные сущности.
• Одинаковые сущности могут иметь разные
наименования.
• Каждая ВД содержит собственные метаданные.
• Имеются различия в НСИ.

12.

Централизованная ETL с
параллельными ХД и ВД
В данном случае система извлечения, преобразования и
загрузки данных - ETL является центром, вокруг
которого строится вся архитектура КХД.

13.

Централизованная ETL с
параллельными ХД и ВД
Достоинства:
• Быстрый доступ к оперативным данным
• Возможность создания удаленных витрин
данных
• Автономная работа ВД при недоступном ХД
Недостатки:
• Сложность восстановления витрин после
сбоев
• Возможность рассогласования данных в ХД и
в витрине данных.
• Дублирование данных

14.

Итоги
• Витрина данных – это
подмножество ХД,
которое поддерживает
требования отдельного
подразделения или
деловой сферы
организации.
• Существуют разные
архитектуры ХД с ВД.
English     Русский Rules