Similar presentations:
Витрины данных
1.
Курс«Хранилища данных»
Тема:
Витрины данных
Барабанщиков Игорь Витальевич
2.
Проблемы создания физического ХД• Необходимость интеграции данных из
неоднородных источников.
• Потребность в эффективном хранении и
обработке очень больших объемов
информации.
• Необходимость наличия многоуровневых
справочников метаданных.
• Повышенные требования к безопасности
данных.
3.
Виртуальное ХД4.
Достоинства виртуальных ХД• Сокращение расходов.
- Нет необходимости тратить средства на
дорогостоящее оборудование для центрального ХД.
- Не надо содержать высококвалифицированный
персонал, обслуживающий это хранилище.
- Не нужны серверные помещения с дорогостоящим
оборудованием систем охлаждения, пожаротушения
и мониторинга.
• Работа с самыми свежими данными.
- Аналитические системы должны напрямую
работать с источниками данных, минуя всех
посредников.
5.
Недостатки виртуальных ХД• Более низкая скорость выполнения
аналитических запросов.
• Высокая нагрузка на оперативные
источники данных.
• Зависимость от доступности оперативных
источников данных.
• Изменения в структуре БД оперативных
источников данных должны отражаться в
виртуальном ХД.
6.
Независимые витрины данныхНезависимые витрины данных появились как
физическая реализация понимания того, что
транзакционная и аналитическая обработка
данных плохо уживаются на одном компьютере.
7.
Преимущества независимых ВД• Легкость и простота их организации, так как
каждая из них оперирует с данными одной
задачи, и поэтому не возникает проблем с
метаданными и НСИ.
• Нет никакой необходимости в сложных
системах извлечения, преобразования и
загрузки данных (ETL). Данные просто
копируются на регулярной основе из
транзакционной системы в витрину данных.
• Одно приложение – одна витрина. Поэтому
независимые витрины данных часто называют
прикладными витринами данных.
8.
Недостатки независимых ВД• Информация в витринах не согласована.
• Каждая витрина унаследовала от
транзакционной системы свою
терминологию, свою модель данных, свою
нормативно-справочную информацию, в том
числе, кодировку данных.
• Сложно получать информацию из нескольких
витрин одновременно
• Значит, нужен единый репозиторий –
хранилище данных.
9.
ХД с накоплением данных ввитринах
Основанием для появления этой архитектуры
явились следующие предпосылки.
• Некоторые компании до сих пор внедряют и
эксплуатируют разрозненные прикладные
витрины данных.
• В некоторых компаниях сложилось мнение,
что создание корпоративного хранилища
данных (КХД) подобно смертельному трюку с
непредсказуемыми последствиями.
• Требование быстрых результатов.
10.
ХД с накоплением данных ввитринах
Следуя этим принципам, компании сначала внедряют
разрозненные независимые витрины, в надежде,
что содержащиеся в них данные будут легко, просто и
быстро объединены в КХД.
11.
ХД с накоплением данных ввитринах
Проблемы:
Информация в разных ВД не согласована между
собой.
• Одни и те же показатели могут вычисляться по
разным алгоритмам.
• Показатели с одинаковыми названиями могут
скрывать разные сущности.
• Одинаковые сущности могут иметь разные
наименования.
• Каждая ВД содержит собственные метаданные.
• Имеются различия в НСИ.
12.
Централизованная ETL спараллельными ХД и ВД
В данном случае система извлечения, преобразования и
загрузки данных - ETL является центром, вокруг
которого строится вся архитектура КХД.
13.
Централизованная ETL спараллельными ХД и ВД
Достоинства:
• Быстрый доступ к оперативным данным
• Возможность создания удаленных витрин
данных
• Автономная работа ВД при недоступном ХД
Недостатки:
• Сложность восстановления витрин после
сбоев
• Возможность рассогласования данных в ХД и
в витрине данных.
• Дублирование данных
14.
Итоги• Витрина данных – это
подмножество ХД,
которое поддерживает
требования отдельного
подразделения или
деловой сферы
организации.
• Существуют разные
архитектуры ХД с ВД.