Similar presentations:
Ver2_Управление данными и их аналитикой
1.
УПРАВЛЕНИЕДАННЫМИ И ИХ
АНАЛИТИКОЙ
DATA CATALOGS/DATA MANAGEMENT
Данные — это кровь любой организации и основа её
коммерческого успеха.
2.
В ЧЕМ ПРОБЛЕМА? С ЧЕМ СТАЛКИВАЕТСЯБИЗНЕС?
Управление доступом к
Хранение метаданных (кто,
данным
что, когда и где создал)
Например, когда в том же Confluence пытаешься найти какую-то информацию,
поиск выдает множество результатов, абсолютно не подходящих под запрос.
Намного удобнее будет поиск, наполненный фильтрами, доступом к "пути"
данных, а
также историей изменений (создания/ удаления/редактирования)
сущностей
К кому можно обратиться с вопросами об определенных данных?
Трудозатраты
Точность анализа
сотрудников
Поиск данных
На что чаще всего тратят время аналитики:
• Ручной сбор данных для построения
отчетности
• Актуализация данных (избавление от
мусора)
•Ручное выделение приоритетных данных
2
3.
РАССМОТРИМ ПРИМЕРЫ КЕЙСОВ. РИТЕЙЛ3
4.
РАССМОТРИМ ПРИМЕРЫ КЕЙСОВ. ФИНАНСОВЫЙ СЕКТОР4
5.
РАССМОТРИМ ПРИМЕРЫ КЕЙСОВ. МЕДИЦИНА5
6.
«Счастлив тот аналитик, у которого в компании есть датакаталог»6
7.
ВВЕДЕМ ОПРЕДЕЛЕНИЯData Governance – системный подход к управлению данными, охватывающий процессные, организационные и технические аспекты,
направленные на то, чтобы данные были качественными, прозрачными и соответствовали внутренним стандартам и нормативным
требованиям.
Data Catalog - это центральное хранилище информации о структуре, свойствах и отношении между данными. Оно используется для
каталогизации источников данных и их компонентов, витрин данных и процессов преобразования данных.
7
8.
ВВЕДЕМ ОПРЕДЕЛЕНИЯData Warehouse DWH - это хранилище, в которое из разных систем хранения собираются исторические
данные компании. Это некая библиотека, в которой упорядочена и каталогизирован весь объем
информации. Она может быть в основе, например, платформы обработки данных.
Business Intelligence BI - набор инструментов и программ для бизнеса, которые собирают данные из
разных источников, обрабатывают их и представляют в наглядном виде.
Data Lineage - это инструмент (процесс) отслеживания и визуализации перемещения данных от их
источника до конечных точек, включая все промежуточные этапы трансформации и обработки данных.
8
9.
ВВЕДЕМ ОПРЕДЕЛЕНИЯТехнические
метаданные
Метаданные
безопасности
Бизнес –
метаданные
Метаданные
качества данных
предоставляют информацию
о структуре и технических
характеристиках данных.
- описывают правила
доступа, разграничения
прав и уровни
конфиденциальности для
каждого набора данных.
- описывают данные в
терминах, понятных для
бизнес-пользователей.
- описывают состояние и
свойства данных, которые
влияют на их достоверность,
актуальность и готовность к
использованию.
Операционные
метаданные
- связаны с процессами
создания, изменения и
обновления данных.
10.
1011.
КТО ПОЛЬЗОВАТЕЛЬ?Аналитики данных
Исследователи данных
Инженеры данных
предоставляем
метаинформацию и
историю использования
данных, что помогает
улучшать модели
IT-администраторы/
специалисты по
безопасности
даем возможность
отслеживать
происхождение данных
(data lineage) и находить
узкие места или точки
отказа
Бизнес-аналитики
Менеджеры данных
обеспечиваем доступ к
информации о доступах,
аудитах и контролях,
помогаем поддерживать
безопасность данных
облегчаем доступ к
актуальной и точной
информации, необходимой
для создания
отчетов/принятия
стратегических решений
помогаем управлять
каталогизацией, устранением
дублирующихся наборов
данных и поддержанием
актуальности и точности
данных
помогаем аналитикам
быстро находить нужные
данные и понимать их
контекст
Пользователи бизнес-приложений
(финансисты, маркетологи и т.д.)
Руководители и топ-менеджмент
обеспечиваем независимый
доступ к данным для
ускорения повседневных
задач
помогаем в принятии
стратегических решений на
основе достоверных и
актуальных аналитических
отчетов
12.
ПОКОЛЕНИЯ DATA-CATALOGПараметр
1-е поколение
Управление метаданными и
базовый поиск
2-е поколение
Автоматизация метаданных,
машинное обучение(зачатки)
3-е поколение
Интеграция данных и управление
Основная цель
качеством в реальном времени
Все типы данных
Типы данных, с которыми Статические метаданные
Статические и динамические данные, (структурированные,
работает
(например, таблицы, файлы)
улучшенные метаданные
неструктурированные, потоки
данных)
Да, для классификации,
Да, для обнаружения аномалий,
Использование
Нет
рекомендаций, обогащения
рекомендаций, автоматической
машинного обучения
метаданных
обработки данных
Высокая (интеграция с
Средняя (автоматическое извлечение
Автоматизация
Низкая
платформами аналитики,
и обновление метаданных)
поддержка в реальном времени)
Полная интеграция с облачными
Интеграция с другими
Ограниченная (основной фокус на Улучшенная интеграция с
сервисами, платформами
системами
метаданных)
аналитическими системами
аналитики и BI
Минимальная (поиск по
метаданным)
Улучшенная, включая базовую
аналитику и lineage
Полная поддержка анализа и
lineage в реальном времени
Управление качеством
данных
Нет
Ограниченная (через метаданные и
классификацию)
Активное управление качеством,
использование алгоритмов для
исправлений
Простота внедрения
Очень простое внедрение и
настройка
Требуется больше времени для
настройки, но с меньшими
трудозатратами в будущем
Высокая сложность внедрения,
требует значительных
инвестиций в инфраструктуру
Плюсы
- Простота и дешевизна
внедрения
- Автоматизация обновления
метаданных
- Улучшенные функции поиска
- Рекомендации на основе данных
- Полная интеграция с
аналитическими инструментами
- Поддержка данных в реальном
времени
- Автоматическое улучшение
качества данных
Минусы
- Ошибки в автоматической
- Ограниченная функциональность
классификации
- Ручная работа для обновления
- Требует повышенных
метаданных
вычислительных мощностей
Поддержка анализа
данных
12
- Высокая стоимость внедрения и
обслуживания
- Требования к безопасности
данных
13.
ПОКОЛЕНИЯ DATA-CATALOGI
Фокусируются на статической информации о данных (бизнес-словари)
Упрощают навигацию и поиск информации
о данных
II
Ограничены в возможностях автоматизации, требуют ручной работы и не предоставляют
глубокого анализа данных
Фокусируются на автоматизации сбора, обогащение и классификации метаданных
Автоматизация процессов, улучшение поиска и классификации данных,
возможность предсказания потребностей пользователей.
III
Ошибки в классификации из-за недостаточно развитых
алгоритмов
Глубокие интеграции с другими платформами, максимальная автоматизация процессов
Глубокая интеграция с аналитическими инструментами, высокая степень автоматизации, поддержка реального времени.
*Высокая сложность внедрения, потребность в продвинутой инфраструктуре и защите данных.
13
*
14.
АРХИТЕКТУРА КАТАЛОГОВ ПЕРВОГОПОКОЛЕНИЯ
Есть источники данных — например, база данных и логи (запросов, очередей, приложений).
Есть ETL-инструмент для поиска по индексу или полнотекстового поиска.
Есть приложение с интерфейсом, через которое можно обращаться к разрозненным данным «под капотом» приложения.
В таких каталогах можно использовать только pullмодель, что приводит к «хрупкости» доставки до
источника метаданных.
При увеличении количества источников данных надо
создавать новые обработчики, что повышает нагрузку
на команду поддержки.
При увеличении объема данных и, соответственно,
количества запросов к источникам есть риск перегрузки
и необходимости перестроения процессов выгрузки.
При pull-модели извлечения данных часто приходится
работать с устаревшими данными, поставляемыми с
определенной задержкой.
14
15.
АРХИТЕКТУРА КАТАЛОГОВ ВТОРОГОПОКОЛЕНИЯ
Ключевые компоненты системы:
хранилище данных и логов;
ETL-инструмент;
хранилище метаданных;
приложение с интерфейсом.
Алгоритм их работы примерно следующий:
1.
данные из хранилища поступают (push model) в слой кастомных ETLпроцессов;
2.
выполняется обработка/очистка данных с утвержденными контрактами
загрузки;
3.
данные доставляются (push model) в хранилище метаданных.
16.
АРХИТЕКТУРА КАТАЛОГОВ ТРЕТЬЕГОПОКОЛЕНИЯ
Поставщик метаданных может использовать
потоковый API или выполнять CRUD-операции с
сервисным API каталога;
Изменения в метаданных приводят к созданию
журнала изменений метаданных;
Позволяет компании совместно определять
расширяемые модели метаданных со строгой
типизацией и взаимосвязями;
Гарантированная «свежесть» данных;
Поддержка полнотекстового и ранжированного
поиска;
Возможность «пристраивания» ETL-процессов
поверх метаданных без ущерба их
согласованности и «свежести»;
Возможность обработки в отдельной таблице
метаданных.
16
17.
КАКИЕ НУЖНЫ ФУНКЦИИТребование
Функция
Задача
Необходимо обеспечить центральное
хранилище для всех метаданных и
описание данных
Поддержка интеграции с различными
источниками данных: базы данных,
хранилища, облачные сервисы
Отслеживание происхождения данных:
исполнение пайплайнов подготовки данных,
запросов в БД и/или API, логи API, схемы API
Возможность быстрого и
эффективного поиска внутри каталога
данных
Поиск с использованием алгоритмов
для «предсказания» потребностей
пользователей и улучшения поиска
Операции с данными: выполнение
последовательностей
преобразования/подготовки данных (ETL),
обработка разделов данных, статистика по
наборам данных.
Управление доступом и безопасность
данных для предотвращения
несанкционированного доступа
Поддержка ролевой модели
управления доступом
Контроль доступа к данным: группами и
обычными пользователями, политики доступа
policies.
Автоматическое обновление
метаданных и синхронизация с
изменениями в источниках данных
Реализация управления изменениями
и автоматизация процесса
обновления данных
Контроль изменений метаданных на основе
обновленного ETL
Предоставление аналитических
инструментов для оценки
использования данных и построения
отчетов по метаданным
Встроенные интерактивные панели
управления и отчетность для
отслеживания показателей
Обеспечение и контроль качества
предоставляемых данных: установка правил
для повышения качества данных, статистика
результатов работы правил, статистика по
данным.
Поддержка классификации данных по
различным
17критериям для упрощения
их каталогизации и обнаружения
Автоматическое тегирование на
основе контекста и пользовательских
настроек
Поиск и исследование данных: схемы данных,
имена полей БД, теги, информация об
использовании и запросах тех или иных
данных
18.
«РУЧНАЯ» И АВТОМАТИЧЕСКАЯ РАБОТА ПРИИСПОЛЬЗОВАНИИ DC 3ГО ПОКОЛЕНИЯ
Что по автоматизации?
Алгоритмы
автоматически
извлекают метаданные
Каталог может
рекомендовать наборы
данных на основе
действий пользователей,
истории запросов и
контекста задачи
В каталоге используются
алгоритмы для анализа
содержания данных и
добавления
контекстуальной
информации (например,
анализ значений для
выявления дополнительных
признаков данных)
Обнаружение и интеграция данных
Сбор и обновление
метаданных
Рекомендации
Обогащение метаданных и
семантический анализ
Современные каталоги
могут автоматически
обнаруживать аномалии
и неточности в данных
(например, пропуски,
дубликаты) и отправлять
уведомления
Каталог анализирует
связи между наборами
данных, строит графы
зависимостей и
автоматически
отслеживает влияние
изменений в одних
данных на другие
Системы могут
автоматически
классифицировать
данные по уровням
безопасности и
предлагать ограничить
доступ к
конфиденциальной
информации
Алгоритмы машинного
обучения могут
автоматически определять
категории данных,
выявлять чувствительные
данные и
классифицировать их
Каталог может
автоматически
подключаться к
источникам данных
(базам данных, файлам,
облачным хранилищам)
и извлекать из них
информацию
Управление качеством данных
18
Обнаружение связей и
зависимостей
Обнаружение и управление
доступом
Автоматическая классификация и
категоризация данных
19.
«РУЧНАЯ» И АВТОМАТИЧЕСКАЯ РАБОТА ПРИИСПОЛЬЗОВАНИИ DC 3ГО ПОКОЛЕНИЯ
Что по ручной работе?
19
При первоначальной
настройке нужно
вручную указать все
источники данных, к
которым будет
подключаться каталог, и
задать базовые
параметры интеграции
Определение политик
доступа к данным,
настройки внутрисистемных
ролей и разрешений для
пользователей
выполняются вручную
(доступ к БД можно
подтягивать из самих БД)
Несмотря на
автоматические функции
мониторинга качества,
нужно вручную определить
правила и стандарты
качества для данных, чтобы
задать допустимые уровни
ошибок и аномалий
Некоторые автоматически
классифицированные
данные могут требовать
корректировки, особенно
если алгоритмы не точно
определили категории или
метки
Определение источников данных
Настройка пользовательских ролей
и прав доступа
Настройка политики качества
данных
Ручная корректировка классификации и
категоризации
Для сложных интеграций
(например, с BIсистемами,
платформами для
анализа данных)
требуется ручная
настройка и
периодическое
сопровождение
Если каталог данных
позволяет создавать
бизнес-словарь или
добавлять бизнестермины, это обычно
делается вручную для
согласования
терминологии с целями
компании
Организация должна
вручную отслеживать
изменения в политике
безопасности и
применять их к каталогу,
чтобы поддерживать
актуальные требования к
доступу и хранению
данных
Современные
каталоги позволяют
создавать и добавлять
к метаданным
пользовательские
атрибуты внутри
Поддержка и настройка интеграций
с другими системами
Создание бизнес-словаря
Поддержка и обновление моделей
безопасности
Добавление кастомных полей
метаданных
20.
МОДУЛИ DATA CATALOGПодключение и интеграция различных
источников данных (базы данных,
облачные хранилища, API).
Автоматически обнаруживает новые
источники и извлекает данные.
Модуль интеграции данных
Модуль классификации и категоризации
Классифицирует и
организует данные на
основе содержания.
Использует машинное
обучение для
автоматического
определения категорий и
тегов
Модуль управления
метаданными
Модуль управления качеством данных
Автоматически
отслеживает качество
данных, обнаруживает
аномалии (пропуски,
дубликаты) и уведомляет о
них
Рекомендации наборов данных и связанных
ресурсов для пользователей на основе истории
использования и анализа поведения.
Модуль рекомендаций
20
Автоматическое извлечение и
обновление метаданных.
Сохраняет полную информацию
о данных: название, типы,
структуры и описание столбцов.
21.
МОДУЛИ DATA CATALOGКонтекстный и текстовый поиск по
данным и метаданным. Помогает
пользователям быстро находить
нужные наборы данных
Модуль поиска и навигации
Модуль безопасности и управления
доступом
Определение политик
доступа, управление
ролями и разрешениями
пользователей,
ограничение доступа к
конфиденциальным
данным
Модуль обнаружения связей и зависимостей
Построение графов связей
и зависимости между
данными, отслеживание
влияния изменений в
одном наборе данных на
другие
Создание и управление бизнес-терминами
Модуль поддержки бизнессловаря
21
Модуль мониторинга и отчетности
Обеспечивает мониторинг
активности в каталоге и
формирует отчеты по
использованию данных и статусу
качества
22.
ЧТО ТАМ У КОНКУРЕНТОВ?22
23.
ПОИСК23
24.
ПРОСМОТР24
25.
LINEAGE25
26.
ПРОВЕРКА КАЧЕСТВА26
27.
СТАТИСТИКА ПРОВЕРОК27
28.
ТЕКУЩИЕ ИНЦИДЕНТЫ28
29.
БИЗНЕС-ГЛОССАРИЙ29
30.
АВТОМАТИЗАЦИЯ РУТИНЫ30
31.
ПРИМЕРНЫЙ МАКЕТ ФУНКЦИОНАЛА31
32.
ПРИМЕРНЫЙ МАКЕТ ФУНКЦИОНАЛА32