Similar presentations:
Интеграция данных в Arenadata Catalog для обеспечения согласованности в распределенных системах
1.
Интеграция данных в ArenadataCatalog для обеспечения
согласованности в распределенных
системах
Сабитова Алина Булатовна
Студент
2.
СОДЕРЖАНИЕ1. Анализ предметной области
2. Постановка проблемы и ее решение
3. Проведение проверок эффективности решения
3.
ОСНОВНЫЕ ТЕРМИНЫИнтеграция данных – это объединение данных, находящихся в различных источниках, и
предоставление их пользователям в стандартизированном виде.
Согласованность данных – это целостность и непротиворечивость данных.
Распределенная система — это система, состоящая из нескольких взаимосвязанных
компонентов, которые находятся на разных физических устройствах и могут находиться в разных
географических местах. Эти компоненты взаимодействуют друг с другом через сеть для
достижения общей цели или выполнения определенных задач. п
4.
ИНФОРМАЦИОННАЯ СИСТЕМА ARENADATA CATALOGArenadata Catalog – это платформа, предоставляющая пользователям возможность объединять
информацию из различных источников и анализировать ее, организовывать совместную работу с
данными в компаниях. Данный инструмент помогает улучшить понимание данных, способствует
соблюдению норм и стандартов и позволяет организациям максимально использовать свои
ресурсы и принимать обоснованные решения.
5.
АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИКомпания OBI – международная торговая сеть
магазинов строительных и хозяйственных
товаров,
принадлежащая
немецкой
компании OBI. Владеет более 570 магазинами
в одиннадцати странах.
Анализ компании позволил определить
бизнес-процесс, эффективность и скорость
осуществления которого можно повысить с
помощью внедрения интеграции данных в
Arenadata Catalog. Им является онлайн
продажа товаров.
Функциональная структура компании OBI
Схема движения информации при реализации
бизнес-процесса онлайн продажа товаров
6.
ТЕХНОЛОГИЧЕСКИЙ СТЕК КОМПАНИИ7.
ПОСТАНОВКА ПРОБЛЕМЫПри реализации бизнес-процесса «продажа товара онлайн» часто возникает проблема нарушения
согласованности данных, то есть их целостности и непротиворечивости. Передача информации от
одного отдела к другому приводит к возникновению пропущенных значений, исчезновению
названий полей, дублированию данных. Всё это может возникать из-за разных типов данных,
отсутствия контроля версий, задержек обновления. Кроме того, в базе данных хранится много
неактуальных данных, а в пики обращений доступ к ней затрудняется. Все это замедляет работу
сотрудников и снижает ее эффективность.
Внедрение в систему интеграции данных, то есть их выгрузку в Arenadata Catalog решит эти
проблемы, позволив упорядочить и актуализировать все имеющиеся данные, контролировать
версии данных и восстанавливать их в случае необходимости. Также это предоставит возможность
выявить наиболее часто используемые и проблемные таблицы и усовершенствовать структуру
базы данных.
8.
НАСТРОЙКА ПОДКЛЮЧЕНИЯ И ЗАГРУЗКИ МЕТАДАННЫХПеред началом загрузки данных в Arenadata Catalog
необходимо настроить подключение к источнику
данных – базе данных. Это реализуется в настройках,
создается новый сервис и вводится необходимая для
подключения информация.
После этого нужно перейти в созданный сервис и
настроить загрузку метаданных. Метаданные – это
информация о данных, а именно об их составе,
содержании,
статусе,
происхождении,
местонахождении, формате, объёме, условиях доступа
и пр. Установим параметры так, чтобы их интеграция
осуществлялась каждый час.
Настройка загрузки метаданных
9.
ИСХОДНЫЕ ДАННЫЕДанные, необходимые для реализации бизнеспроцесса «онлайн продажи товаров» хранятся в шести
таблицах базы данных:
• users – данные о клиентах;
• categories – данные о категориях товаров;
• products – данные о товарах;
• orders – данные о заказах;
• orderitems – данные о позициях заказов;
• payments – данные об оплате заказов.
Их мы загружаем в Arenadata Catalog с помощью
встроенных инструментов.
Загруженная в Arenadata Catalog таблица users
10.
НАИБОЛЕЕ ПРОБЛЕМНЫЕ ТАБЛИЦЫ И ПОЛЯАнализ метаданных показал, что наиболее часто используемые таблицы – orders, products и payments.
Показатель частоты использования – количество запросов к таблицам. Также определим наиболее
«проблемные поля» по количеству пропущенных значений.
Поле
Таблица
% пропущенных
значений
description
products
41
status
payments
40,3
delivery_status
orders
28
quantity_in_stock
products
18,6
transaction_method
payments
18,5
date_created
orders
15,5
transaction_date
payments
11,3
quantity
orderitems
9
Диаграмма наиболее проблемных полей
11.
НАИБОЛЕЕ ПРОБЛЕМНЫЕ ТАБЛИЦЫ И ПОЛЯРезультаты проведенного анализа отразили необходимость проведения изменений в структуре базы
данных для улучшения ее производительности и согласованности данных. Для реализации этой задачи
нужно создать представления для наиболее часто используемых и проблемных таблиц.
Представление – это виртуальная таблица, которая создается на основе результата выполнения SQLзапроса. Они не хранят данные, а только предоставляют к ним доступ.
Скрипты создания представлений для таблиц Products, Orders и Payments
12.
РЕЗУЛЬТИРУЮЩАЯ СТРУКТУРА БАЗЫ ДАННЫХПосле создания представлений структура базы данных выглядит следующим образом:
13.
ПРОВЕРКА СОГЛАСОВАННОСТИДля реализации проверок согласованности воспользуемся встроенной в Arenadata Catalog функцией. Она
позволяет узнать процент пропущенных, уникальных и отличительных значений, общее количество
значений, минимум, максимум, медиану и стандартное отклонение.
14.
ПРОВЕРКА СОГЛАСОВАННОСТИСравним качество данных до внедрения интеграции данных в Arenadata Catalog и после. Результаты
проверки согласованности показали, что качество данных в среднем повысилось на 7,7% - с 75,3% до
83%. Показателями в данном случае являются: отсутствие пропущенных значений, дублирования и
выбросов.
Диаграмма изменения качества данных
15.
ЗАКЛЮЧЕНИЕВнедрение интеграции данных на платформу Arenadata Catalog позволило:
• повысить качество данных;
• увеличить производительность распределенной системы благодаря изменению структуры базы
данных;
• улучшить коммуникацию между отделами путем хранения данных на одной платформе и настройке
прав доступа;
• упростить мониторинг и управление данными благодаря появлению возможности анализировать
метаданные.
Таким образом, использование интеграции данных в Arenadata Catalog для обеспечения согласованности в
распределенных системах эффективно. Данная платформа обладает большим количеством встроенных
функций, позволяющих реализовывать задачу сохранения точности, актуальности и непротиворечивости
данных.
software