Обзор технологии сбора и хранения данных - Озеро данных
Содержание
Что такое Озеро данных
История термина
Определение, которого нет…
Как работает Хранилище данных
Как работает Озеро данных
Сравнение свойств и особенностей
Функциональные отличия
Таким образом, Озеро данных…
На что обратить внимание при создании
Архитектура Озера данных
Уровни Озера данных
Уровень сбора
Уровень хранения
Уровень предоставления
Для кого Озеро данных?
Cloud vs. On-Premise
Что такое облачное решение?
Каковы преимущества облачных решений?
Каковы недостатки облачных решений?
1. Операционные расходы вместо капитальных
2. Эффект масштаба
3. Хватит угадывать плановые мощности!
4. Увеличение скорости и гибкости
5. Запуск систем в продуктив за минуты
6. Фокус на основном бизнесе
Преимущества облачных решений
Что может сдерживать от перехода в облака
А можно ли комбинировать?
937.17K
Category: informaticsinformatics

Обзор технологии сбора и хранения данных - Озеро данных

1. Обзор технологии сбора и хранения данных - Озеро данных

Август, 2017

2. Содержание

2
Содержание
• Что такое Озеро данных
• Архитектура Озера данных
• Для кого Озеро данных?
• Cloud vs. On-Premise
• Озеро данных. Практические советы
• Прототип Озера данных

3. Что такое Озеро данных

4. История термина

Что такое Озеро данных
История термина
• Впервые употребил Джеймс Диксон – главный технолог Pentaho*
в противовес понятию «витрина данных», соответствующему
средствам и представлениям для отображения набора
интересующих пользователя атрибутов (признаков),
извлекаемых из первичных данных
• Утверждал, что «витрины данных» порождают ряд
неустранимых проблем (например, информационные бункеры),
и продвигал идею озёр данных как альтернативу
• «Если вы представляете себе витрину магазина по торговле
бутилированной водой – очищенной и расфасованной для
простоты употребления – озёра данных представляют собой
огромные массы воды в её более натуральном состоянии»**
*Pentaho – компания, занимающаяся бизнес-аналитикой (BI). Разрабатывает и поставляет продукты на основе открытого исходного кода. Основные
направления деятельности: интеграция данных, сервисы OLAP, генераторы отчётов, средства визуализации и представления информации (information
dashboards), средства извлечения, преобразования и загрузки данных (ETL). Основана в 2004 году со штаб-квартирой в Орландо (США, Флорида).
Поглощена в 2015 году компанией Hitachi Data Systems.
** Dixon, James. "Pentaho, Hadoop, and Data Lakes". James Dixon’s Blog. James. Retrieved 7 November 2015.
4

5. Определение, которого нет…

Что такое Озеро данных
Определение,
которого нет…
Озеро данных (англ. Data Lake) –
репозиторий, в котором хранится очень
большое количество необработанных
данных в их первоначальном виде
Принципы
Все данные имеют ценность (сейчас
или в будущем)
Храним столь долго, сколько нужно
Если ценность в будущем – храним в
том виде, в котором есть
Преобразовываем только тогда, когда
возникает необходимость
Приложения и пользователи
интерпретируют данные по
собственному усмотрению
5

6. Как работает Хранилище данных

Что такое Озеро данных
Как работает
Хранилище данных
Прием только структурированных
данных
Извлечение (E), преобразование (T)
к требуемым форматам и загрузка
(L) структурированных данных в
централизованное хранилище
выполняется как непрерывный
процесс в отношении каждой
порции данных
6

7. Как работает Озеро данных

Что такое Озеро данных
Как работает
Озеро данных
Не обязательный прием только
структурированных данных
Разнесение по времени операций
обслуживания данных
Преобразование (T) данных не
является шагом препроцессинга, а
превращается в «постпроцессинг по
запросу»
Резкое снижение требований к
инфраструктуре в части скорости
обработки информации «на
транзите» (что характерно для
непрерывной ETL-схемы)
7

8. Сравнение свойств и особенностей

Что такое Озеро данных
8
Сравнение свойств и особенностей
Хранилище данных
Поддерживаемы
е бизнессценарии
• Единая аналитика и отчетность по предустановленным
формам
• Формирование единого подхода к данным различной
природы
• Встроенный анализ сервисов самообслуживания
Озеро Данных
• Исследование взаимосвязей и поиск закономерностей
• Программируемый доступ к первичным данным
• Поддержка глубокого погружения в массивы накопленных
данных
• Обработка очень больших массивов данных
Основные
особенности
• Высокая эффективность исполнения типовых запросов
• Низкое время отклика при выполнении типовых запросов
• Согласованность задач в пределах корпорации
• Хранение больших объёмов данных с приемлемыми
(средними) издержками
Требования к ИТ- • Стандартизованные инструменты анализа и
инфраструктуре
унифицированный язык запросов
• Высокоэффективное управление хорошо
структурированными данными
• Масштабируемость в объёмах хранения данных,
компромиссность в скорости их обработки
• Возможность независимого решения множества задач с
использованием накопленных данных
• Хранение огромных объёмов данных с низкими
издержками
• Возможность разработки (в том числе – конструирования
по шаблонам) новых алгоритмов анализа и
преобразования данных
• Одинаково хорошее управление как структурированными,
так и неструктурированными данными

9. Функциональные отличия

Что такое Озеро данных
9
Функциональные отличия
Хранилище данных
Озеро Данных
Ракурс: сотрудники
Организация
работы
Навыки
сотрудников
ИТ-подразделение: аналитики создают модели данных, кубы и формы
отчётов
Бизнес-подразделения: сотрудники используют данные хранилища
через инструменты визуализации и отчёты
Знание SQL и технологий баз данных
Понимание структуры бизнеса
Анализ данных ведётся в условиях тесного взаимодействия
аналитиков данных и разработчиков, при непосредственном участии
специалистов бизнес-подразделений в постановке аналитических
задач
Продвинутые техники анализа данных и интерпретации результатов
Навыки программирования (в исходном коде – для сотрудников ИТподразделений, в конструируемых правилах – для сотрудников бизнесподразделений)
Ракурс: процессы
Модели
данных
Качество
данных
Строгая детерминированная схема обработки данных
Гибкая схема чтения и комбинирования данных
Однократная проверка данных при их первичной загрузке с помощью
ETL
Требования к модели данных определяются до их загрузки в
хранилище
Проверка данных и «очистка от загрязнений» при каждом их
преобразовании
Обязательная нормализация и индексация данных по внутренним
правилам хранилища
Модели данных создаются (конструируются) под каждый
пользовательский запрос, система правил может постоянно
расширяться
Ракурс: технологии
Инструменты интеграции данных, OLAP, инструменты отчётности
Пакетная обработка, распределённые вычисления
SQL
Java, Python
Инфраструктура
База данных, сервер интеграции
HDFS, объектно-ориентированное хранилище, хранилище метаданных и
контекстов
Быстродействие
Долгая загрузка, быстрая обработка
Быстрая загрузка, долгая обработка
Платформы

10. Таким образом, Озеро данных…

Что такое Озеро данных
Таким образом, Озеро данных…
• Дальнейшее развитие корпоративного ландшафта данных
• Шаг в сторону повышения гибкости работы с данными
различной природы, а также снятия существующих
ограничений на объёмы и форматы хранения.
• Использование распределённых хранилищ и
распределённой обработки данных при повсеместном
доступе к информационным услугам
• Формируют фокус на облачные сервисы в плане
реализации и эксплуатации корпоративных решений
10

11. На что обратить внимание при создании

Что такое Озеро данных
На что обратить внимание при создании
• Не превращать в «болото»
Целесообразно сразу организовывать пространство для хранения и размещать данные по категориям.
Увеличение скорости поиска и использования данных
• Безопасность
Защита персональных данных и конфиденциальной информации сразу должна стать первостепенной
задачей
• Инструменты работы с озером – аналитикам
Развитые инструменты для исследования, профилирования и получения ответов на запросы к Озеру
Данных.
Инструменты формирования запросов и представления информации должны быть рассчитаны на
применение бизнес-правил, а не программируемых процедур
• Поддержка доверия
Исчерпывающим образом фиксировать происхождение данных. Внимание к составу, структуре и
качеству метаданных
• Минимальная стоимость хранения
Данные должны храниться неопределённо долго, но с минимальными издержками. Уделять внимание
методам компактизации данных без потери существенной части информации
11

12. Архитектура Озера данных

Уровни Озера данных

13. Уровни Озера данных

Архитектура Озера данных
Уровни
Озера данных
Основной принцип – локализовать
специфические функции работы с
данными в пределах одного уровня,
обмен командами и пакетами данных в
рамках стандартных протоколов
Преимущества:
Независимость разработки отдельных
компонент
Возможность плавной замены версий
программного обеспечения
Упрощение управления и
сопровождения всей конструкции на
протяжении жизненного цикла
Пользовательские запросы
отрабатываются уровнями
последовательно, сверху вниз

14. Уровень сбора

Архитектура Озера данных
Уровень сбора
Различные источники, различные
форматы, различные процедуры
сбора
Идентификация данных с помощью
метаданных (источник, формат,
время, способ получения) на всем
жизненном цикле
Идентификация источника с
помощью НСИ
Пакетный или потоковый режим
сбора данных
Соотнесение данных с контекстом
(партия продукции, этап бизнеспроцесса,..) для последующего
более глубокого анализа
14

15. Уровень хранения

Архитектура Озера данных
Уровень хранения
Размещение, хранение, поиск, перемещение и выборка
данных по запросам, поступающим от смежных уровней:
нижележащего уровня сбора данных и вышележащего
уровня представления данных
Анализ частоты обращения к данным (анализ
востребованности) и перемещение данных в соответствии
с их востребованностью между различными хранилищами
(ONLINE, NEARLINE и OFFLINE)
Автоматизированный поиск и локализация
невостребованных данных с подготовкой перечней данных,
подлежащих уничтожению на основании заданных
критериев
Взаимодействие с корпоративным архивом данных для
своевременного и полного перемещения в архив данных,
не подлежащих уничтожению
Организация распределённого хранения данных (облачного
хранения), обеспечивающая одинаковую актуальность и
достоверность данных, независимо от того, из какой точки
поступают запросы на размещение и представление
информации
15

16. Уровень предоставления

Архитектура Озера данных
Уровень
предоставления
Два аспекта предоставления данных
пользователям: во-первых, надо знать, что
предоставлять, а во-вторых – как
предоставлять.
На вопрос «что?» отвечают механизмы
Магазина данных, на вопрос «как?» механизмы Магазина представлений
Интерпретатор данных связывает результаты
поиска со схемой обработки (подготовки)
данных – выполняются необходимые
упорядочения, идентификации, выборки,
преобразования и слияния данных
Магазин данных хранит типовые схемы
подготовки данных
Магазин представлений хранит различные
способы представлений данных для их
последующего использования
16

17. Для кого Озеро данных?

17
Для кого Озеро данных?
Роли пользователей

18.

Для кого Озеро данных?
18
Поставщик
Исследователь
Администратор
Описывает источники
(включая создание типовых
шаблонов метаданных и
привязки этих шаблонов к
источникам данных)
Загружает данные в Озеро
(вручную, автоматически и
полуавтоматически)
Описание форматов
загружаемых данных
Верификация результатов
загрузки
Доступ к данным Озера в
пределах области интересов
и набора применяемых
политик безопасности
Формирование статических
выборок и динамических
потоков данных, выполнять
их слияние, применение к
полученным наборам
данных аналитических
методов
Не может выполнять
выгрузку данных из Озера в
отчуждаемые файлы либо
направляемые вовне потоки
Доступ ко всем метаданным
Редактирование метаданных
Переформатирование
данных (создание новых
наборов данных из
имеющихся)
Не должен изменять саму
нормативно-справочную
информацию
Не должен иметь доступ к
значениям по всему массиву
данных (использует для
отладки правил только
модельные выборки данных
небольшого объёма)

19. Cloud vs. On-Premise

Преимущества использования облачных решений

20. Что такое облачное решение?

Cloud vs. On-Premise
Что такое облачное решение?
• Облачное решение – предоставление IT-ресурсов и
приложений по запросу через Интернет, по модели «плати
только за то, что потребил»
• Обеспечивается быстрый доступ к разнообразным, гибким и
относительно недорогим ИТ-ресурсам
• Нет необходимости делать значительные инвестиции в
собственную инфраструктуру и тратить много времени на
её обслуживание
• Приобретается ровно столько ресурсов, сколько
необходимо в данный момент
20

21. Каковы преимущества облачных решений?

Cloud vs. On-Premise
Каковы преимущества облачных решений?
• Возможность быстро реконфигурировать окружение, чтобы
адаптироваться к новым требованиям и при этом
оптимизировать затраты
• Мощности могут быть автоматически масштабированы
вверх или вниз, чтобы соответствовать изменяющимся
моделям использования
• Сервисы могут быть выключены или приостановлены, в
соответствии с потребностями
• «Платишь за то, что потребляешь» - это значит
капитальные расходы можно заменить на операционные
21

22. Каковы недостатки облачных решений?

Cloud vs. On-Premise
Каковы недостатки облачных решений?
• Возможность быстро реконфигурировать окружение, чтобы
адаптироваться к новым требованиям и при этом
оптимизировать затраты
• Мощности могут быть автоматически масштабированы
вверх или вниз, чтобы соответствовать изменяющимся
моделям использования
• Сервисы могут быть выключены или приостановлены, в
соответствии с потребностями
• «Платишь за то, что потребляешь» - это значит
капитальные расходы можно заменить на операционные
22

23. 1. Операционные расходы вместо капитальных

Cloud vs. On-Premise. Преимущества
1. Операционные расходы вместо капитальных
• Вместо того, чтобы усиленно вкладывать в датацентры и
серверы пока даже не знаешь как собираешься их
использовать, можно платить только за то что необходимо
23

24. 2. Эффект масштаба

Cloud vs. On-Premise. Преимущества
2. Эффект масштаба
• Организация может сэкономить от эффекта масштаба
• Используя облачную среду вы достигаете переменных
издержек ниже чем могли бы достичь сами
• Так как использование от сотен и тысяч клиентов
агрегируется в облаке, провайдер может достичь большей
экономии на масштабе, которая транслируется в низкие
цены для клиентов
24

25. 3. Хватит угадывать плановые мощности!

Cloud vs. On-Premise. Преимущества
3. Хватит угадывать
плановые мощности!
Когда вы принимаете решение о
необходимой мощности до
развёртывания приложения,
обычно это кончается тем, что вы
сидите на куче избыточной
мощности или сталкиваетесь с её
недостатком
В облачной среде вы всегда
получаете столько мощностей,
сколько необходимо и не платите за
избыток или недостаток
Изменение мощности – минутное
дело
25

26. 4. Увеличение скорости и гибкости

Cloud vs. On-Premise. Преимущества
4. Увеличение скорости и гибкости
• Работа в облаке значительно увеличивает скорость работы
и гибкость организации
• Снижается стоимость и время необходимое на разработку,
эксперименты, тестирование
26

27. 5. Запуск систем в продуктив за минуты

Cloud vs. On-Premise. Преимущества
5. Запуск систем в продуктив за минуты
• За несколько кликов можно развернуть сложные системы.
Подготовка таких систем в собственном ЦОД, монтаж,
настройка, заняли бы месяцы. В любом случае в
собственном датацентре невозможно достичь той
надежности, что получается в распределенных ЦОД
27

28. 6. Фокус на основном бизнесе

Cloud vs. On-Premise. Преимущества
6. Фокус на основном бизнесе
• Cloud computing позволяет организациям сфокусироваться
на приоритетах собственного бизнеса, вместо того, чтобы
думать о монтаже, наращивании и электропитании
серверов
28

29. Преимущества облачных решений

Cloud vs. On-Premise
Преимущества облачных решений
29

30. Что может сдерживать от перехода в облака

Cloud vs. On-Premise
Что может сдерживать от перехода в облака
Полное отсутствие или низкая скорость канала интернет
Требования к миллисекундной производительности
Бизнес-приложения в основном остаются On-Premise
Собственный ЦОД новым оборудованием
Большая часть данных рождается в периметре компании
Значительные расходы на миграцию в облако по сравнению со
сроком жизни данных
Конфиденциальность данных
Корпоративные политики, запрещающие выводить данные за
периметр компании
Риск перехвата данных «на пути в/из облака»
Риск соседства в облаке с данными конкурента

31. А можно ли комбинировать?

Cloud vs. On-Premise
А можно ли
комбинировать?
• Действительно, некоторые
данные не могут быть
перенесены в облако
• Но все остальные – могут!
• Озеро данных может быть
комбинированным
31
English     Русский Rules