1.44M
Category: softwaresoftware

Интеграция данных в Arenadata Catalog для обеспечения согласованности в распределенных системах

1.

Интеграция данных в Arenadata
Catalog для обеспечения
согласованности в распределенных
системах
Сабитова Алина Булатовна
Студент

2.

СОДЕРЖАНИЕ
1. Анализ предметной области
2. Постановка проблемы и ее решение
3. Проведение проверок эффективности решения

3.

ОСНОВНЫЕ ТЕРМИНЫ
Интеграция данных – это объединение данных, находящихся в различных источниках, и
предоставление их пользователям в стандартизированном виде.
Согласованность данных – это целостность и непротиворечивость данных.
Распределенная система — это система, состоящая из нескольких взаимосвязанных
компонентов, которые находятся на разных физических устройствах и могут находиться в разных
географических местах. Эти компоненты взаимодействуют друг с другом через сеть для
достижения общей цели или выполнения определенных задач. п

4.

ИНФОРМАЦИОННАЯ СИСТЕМА ARENADATA CATALOG
Arenadata Catalog – это платформа, предоставляющая пользователям возможность объединять
информацию из различных источников и анализировать ее, организовывать совместную работу с
данными в компаниях. Данный инструмент помогает улучшить понимание данных, способствует
соблюдению норм и стандартов и позволяет организациям максимально использовать свои
ресурсы и принимать обоснованные решения.

5.

АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ
Компания OBI – международная торговая сеть
магазинов строительных и хозяйственных
товаров,
принадлежащая
немецкой
компании OBI. Владеет более 570 магазинами
в одиннадцати странах.
Анализ компании позволил определить
бизнес-процесс, эффективность и скорость
осуществления которого можно повысить с
помощью внедрения интеграции данных в
Arenadata Catalog. Им является онлайн
продажа товаров.
Функциональная структура компании OBI
Схема движения информации при реализации
бизнес-процесса онлайн продажа товаров

6.

ТЕХНОЛОГИЧЕСКИЙ СТЕК КОМПАНИИ

7.

ПОСТАНОВКА ПРОБЛЕМЫ
При реализации бизнес-процесса «продажа товара онлайн» часто возникает проблема нарушения
согласованности данных, то есть их целостности и непротиворечивости. Передача информации от
одного отдела к другому приводит к возникновению пропущенных значений, исчезновению
названий полей, дублированию данных. Всё это может возникать из-за разных типов данных,
отсутствия контроля версий, задержек обновления. Кроме того, в базе данных хранится много
неактуальных данных, а в пики обращений доступ к ней затрудняется. Все это замедляет работу
сотрудников и снижает ее эффективность.
Внедрение в систему интеграции данных, то есть их выгрузку в Arenadata Catalog решит эти
проблемы, позволив упорядочить и актуализировать все имеющиеся данные, контролировать
версии данных и восстанавливать их в случае необходимости. Также это предоставит возможность
выявить наиболее часто используемые и проблемные таблицы и усовершенствовать структуру
базы данных.

8.

НАСТРОЙКА ПОДКЛЮЧЕНИЯ И ЗАГРУЗКИ МЕТАДАННЫХ
Перед началом загрузки данных в Arenadata Catalog
необходимо настроить подключение к источнику
данных – базе данных. Это реализуется в настройках,
создается новый сервис и вводится необходимая для
подключения информация.
После этого нужно перейти в созданный сервис и
настроить загрузку метаданных. Метаданные – это
информация о данных, а именно об их составе,
содержании,
статусе,
происхождении,
местонахождении, формате, объёме, условиях доступа
и пр. Установим параметры так, чтобы их интеграция
осуществлялась каждый час.
Настройка загрузки метаданных

9.

ИСХОДНЫЕ ДАННЫЕ
Данные, необходимые для реализации бизнеспроцесса «онлайн продажи товаров» хранятся в шести
таблицах базы данных:
• users – данные о клиентах;
• categories – данные о категориях товаров;
• products – данные о товарах;
• orders – данные о заказах;
• orderitems – данные о позициях заказов;
• payments – данные об оплате заказов.
Их мы загружаем в Arenadata Catalog с помощью
встроенных инструментов.
Загруженная в Arenadata Catalog таблица users

10.

НАИБОЛЕЕ ПРОБЛЕМНЫЕ ТАБЛИЦЫ И ПОЛЯ
Анализ метаданных показал, что наиболее часто используемые таблицы – orders, products и payments.
Показатель частоты использования – количество запросов к таблицам. Также определим наиболее
«проблемные поля» по количеству пропущенных значений.
Поле
Таблица
% пропущенных
значений
description
products
41
status
payments
40,3
delivery_status
orders
28
quantity_in_stock
products
18,6
transaction_method
payments
18,5
date_created
orders
15,5
transaction_date
payments
11,3
quantity
orderitems
9
Диаграмма наиболее проблемных полей

11.

НАИБОЛЕЕ ПРОБЛЕМНЫЕ ТАБЛИЦЫ И ПОЛЯ
Результаты проведенного анализа отразили необходимость проведения изменений в структуре базы
данных для улучшения ее производительности и согласованности данных. Для реализации этой задачи
нужно создать представления для наиболее часто используемых и проблемных таблиц.
Представление – это виртуальная таблица, которая создается на основе результата выполнения SQLзапроса. Они не хранят данные, а только предоставляют к ним доступ.
Скрипты создания представлений для таблиц Products, Orders и Payments

12.

РЕЗУЛЬТИРУЮЩАЯ СТРУКТУРА БАЗЫ ДАННЫХ
После создания представлений структура базы данных выглядит следующим образом:

13.

ПРОВЕРКА СОГЛАСОВАННОСТИ
Для реализации проверок согласованности воспользуемся встроенной в Arenadata Catalog функцией. Она
позволяет узнать процент пропущенных, уникальных и отличительных значений, общее количество
значений, минимум, максимум, медиану и стандартное отклонение.

14.

ПРОВЕРКА СОГЛАСОВАННОСТИ
Сравним качество данных до внедрения интеграции данных в Arenadata Catalog и после. Результаты
проверки согласованности показали, что качество данных в среднем повысилось на 7,7% - с 75,3% до
83%. Показателями в данном случае являются: отсутствие пропущенных значений, дублирования и
выбросов.
Диаграмма изменения качества данных

15.

ЗАКЛЮЧЕНИЕ
Внедрение интеграции данных на платформу Arenadata Catalog позволило:
• повысить качество данных;
• увеличить производительность распределенной системы благодаря изменению структуры базы
данных;
• улучшить коммуникацию между отделами путем хранения данных на одной платформе и настройке
прав доступа;
• упростить мониторинг и управление данными благодаря появлению возможности анализировать
метаданные.
Таким образом, использование интеграции данных в Arenadata Catalog для обеспечения согласованности в
распределенных системах эффективно. Данная платформа обладает большим количеством встроенных
функций, позволяющих реализовывать задачу сохранения точности, актуальности и непротиворечивости
данных.
English     Русский Rules