17.10M
Category: softwaresoftware

Актуальные вопросы построения витрин данных и актуализации инструментов для автоматизации

1.

Актуальные вопросы
построения витрин данных
и актуализации
инструментов для
автоматизации
КП

2.

Сущность и экономическое значение витрин
данных
Объем данных
Скорость обработки
Объем данных в мире вырос с 1 зеттабайта в 2000 году
Скорость обработки данных становится критическим
до прогнозируемых 1 75 зеттабайт к 2025 году.
фактором в условиях реального времени, особенно в
таких областях, как высокочастотная торговля.

3.

Преимущества витрин данных
Быстрый доступ
Интеграция данных
Упрощение доступа
Витрины данных обеспечивают
Витрины данных интегрируют
Витрина данных предлагает
быстрый и удобный доступ к
информацию из различных
пользователю доступ к данным,
информации для конкретных
источников, структурируя ее в
уже очищенным,
пользователей или
удобном для пользователя виде.
агрегированным и приведенным
подразделений.
в удобный для анализа формат.

4.

Архитектура витрины данных
Источник данных
Внутренние и внешние источники
Этап интеграции и очистки
данных
информации, такие как транзакционные
Очистка данных от ошибок, дублирующих
системы, ERP-системы, CRM, а также
записей и других аномалий. Интеграция
данные, полученные от внешних
данных из разных источников.
поставщиков или открытых источников.
Хранилище данных
Место, где данные хранятся в
агрегированном и подготовленном
формате. Они могут быть организованы в
виде таблиц, кубов или других форматов,
удобных для обработки.

5.

Методические основы построения витрин данных
Определение требований
1
Выявление бизнес-задач, которые будут решаться с помощью
витрины данных. Определение ключевых показателей
эффективности (KPI).
2
Проектирование архитектуры
Выбор модели витрины данных и определение источников
ETL (Extract, Transform, Load)
данных. Классификация моделей витрин данных: зависимые,
3
независимые и гибридные.
4
Оптимизация производительности и
масштабируемости
Извлечение данных из различных источников, их
преобразование в структурированный формат и загрузка в
конечное хранилище данных.
Обеспечение эффективной работы витрины данных при
Обеспечение качества и консистентности данных
Гарантия точности, полноты и согласованности данных.
Автоматизация процессов построения витрин данных с
использованием инструментов, таких как Apache Airflow, Talend и
Informatica.
5
увеличении объемов информации. Основные подходы к
оптимизации производительности.

6.

Инструментарий для
автоматизации витрин данных
Языки программирования
Python, R, SQL, Java, Scala.
Библиотеки
Pandas, NumPy, scikit-learn, Dask, Spark.
Платформы
Apache Airflow, Luigi, Dagster, Knime, Alteryx, Kafka, Nifi, Talend,
TensorFlow, PyTorch, Matplotlib, Tableau, Power BI.

7.

Экономическая эффективность
автоматизации витрин данных
40%
90%
Снижение затрат
Повышение точности
Автоматизация ETL-процессов снижает
Использование технологий машинного
вероятность ошибок и сокращает время
обучения и искусственного интеллекта
выполнения задач.
позволяет компаниям прогнозировать
рыночные тенденции с точностью до 90%.
40%
Сокращение затрат на
инфраструктуру
Использование облачных платформ позволяет
сократить капитальные затраты на
инфраструктуру до 40% по сравнению с
традиционными решениями.

8.

Анализ деятельности
крупного провайдера и
требований к подсчёту
прибыли продуктов ТВконтента
КП

9.

Общая характеристика деятельности ПАО
«Вымпелком»
Крупнейший оператор связи
Бренд «Билайн»
Компания известна под брендом
Международная группа
«Veon Ltd.»
ПАО «Вымпелком» — один из
«Билайн» и занимает значительное
С 2009 года компания входит в
крупнейших российских операторов
место на рынке
международную группу «Veon Ltd.»,
связи, предоставляющий широкий
телекоммуникационных услуг в
обслуживающую более 240
спектр услуг в области мобильной и
России.
миллионов абонентов.
фиксированной связи, а также
интернета и цифровых решений.

10.

Анализ бизнес-процессов расчёта вознаграждения
контрагентов
1
Ключевая роль контрагентов
2
Расчёт вознаграждения
Контрагенты играют ключевую роль в продвижении и продаже
Вознаграждение контрагентов рассчитывается на основе ряда
услуг «Билайн», включая партнёров, дистрибьюторов и агентов.
параметров, включая объём продаж, тип услуги и дополнительные
бонусы за выполнение KPI.
3
IPTV и TVE
4
Интернет и Мобильная связь
Вознаграждение за продажу услуг IPTV и TVE рассчитывается на
Вознаграждение за услуги Интернета и Мобильной связи зависит
основе количества подключённых абонентов, выбранных
от объёма продаж, типа тарифного плана и выполнения KPI.
тарифных планов и участия в акциях.

11.

Проблемы при расчете
вознаграждений
Проблема
Описание
Сложность учёта данных
Из-за большого количества услуг
и тарифных планов возникают
трудности с автоматизацией
расчётов.
Ручной ввод данных
Часть процессов до сих пор
требует ручного вмешательства,
что увеличивает вероятность
Отсутствие единой системы
ошибок.
Данные по продажам и
вознаграждениям хранятся в
разных системах, что затрудняет
их консолидацию и анализ.

12.

Этапы расчёта вознаграждения
Сбор данных
1
Сбор данных о том, как контрагент выполнил свои
обязательства: объем выполненных работ, проданные товары,
полученная выручка, другие ключевые показатели.
2
Проверка выполнения условий
Проверка, выполнил ли контрагент все условия, прописанные
Расчёт вознаграждения
в договоре, включая проверку качества выполненных работ,
3
соответствия объема или других критериев.
4
Выплата вознаграждения
Расчёт вознаграждения в оговоренной ранее форме, с учётом
возможных штрафов или дополнительных выплат в случае
нарушения условий.
Перевод средств контрагенту, с автоматизированным
процессом, соответствующим условиям договора, включая
Отчётность
Составление отчета о проведенных расчетах и выплатах,
анализ выполнения условий, оптимизация бизнес-процесса
для будущих расчетов.
5
бухгалтерскую и финансовую обработку, а также отчетность
перед налоговыми органами.

13.

Проектирование структуры витрины
данных
Цель
Интеграция
Автоматизация процессов обработки
Определение источников данных и
данных, исключение участия специалистов,
разработка механизмов их интеграции в
не связанных с обработкой данных.
витрину, исключение ручного ввода данных
и снижение вероятности ошибок.
Физическая модель
Безопасность
Определение конкретной структуры базы
Учёт требований безопасности, защита
данных, включая таблицы, индексы и
данных от несанкционированного доступа,
другие объекты, оптимизация физической
тестирование системы на реальных данных
модели для обеспечения высокой
для проверки её работоспособности и
производительности и надёжности
корректности работы всех компонентов.
системы.

14.

Техническая составляющая
автоматизации
Интеграция данных
Интеграция данных из различных источников, разработка
ETL-процессов, обеспечение надёжности и
производительности системы.
Мониторинг и поддержка
Создание механизмов мониторинга и поддержки,
использование современных инструментов и технологий
для исключения человеческого фактора, минимизации
ошибок и обеспечения эффективной работы витрины
данных.

15.

Автоматизация Витрин
Данных для Расчета
Вознаграждений

16.

Рефакторинг Кода и Оптимизация
1
1. Чтение Таблиц PostgreSQL
2
2. Обновление
Вспомогательных Таблиц
Реализована функция
Устранены лишние экзекьюторы и
JDBCHelper.jdbcRead для
оптимизировано чтение данных из
оптимизации чтения данных из
epgSubsDMP, epgFullHouseDMP,
PostgreSQL, повышая модульность и
inacIptvBaseDMP, inacIptvAddDMP,
безопасность.
inacIptvContDMP, inacCtnPoolDMP,
inacLoginsViewDMP, inacStartStopDMP,
inacServiceplDMP, inacContractspDMP,
inacPacketspDMP.
3
3. Запись Целевых Витрин Данных
Оптимизированы скрипты для записи chanelAggregatesSQL,
chanelAggregatesByTerSQL, и filmAggregateSQL, повышая производительность и
читаемость кода.

17.

Автоматизация CI/CD Процессов
Jenkins
SonarQube
Автоматизация слияния изменений в коде с основной веткой
Анализ качества кода, проверка изменений после каждого
проекта, проверка актуальности версии сборки витрины.
коммита, pull request и других операций.

18.

Развертывание Среды Разработки
1
2
3
Kubernetes
Docker
Docker Compose
Сервисы
4
Airflow, PostgreSQL, Vault, Hadoop, Spark, Jenkins, SonarQube,
Jupyter Notebook, Scala

19.

ETL-Процесс для Загрузки и Обновления Данных
EmailOperator
1
Отправка электронных писем оповещающих о состоянии выполнения DAG на
корпоративную почту.
2
VaultSecretsManager
Получение доступа к хранилищу секретов для изъятия паролей для учётных записей.
SQLExecuteQueryOperator
3
Проверка существования таблиц с помощью SQL оператора CREATE TABLE IF NOT
EXIST.
4
SparkJDBCOperator
Перекладка данных из нецелевой базы данных Oracle в целевую PostgreSQL.
BranchPythonOperator
5
Принятие решения о продолжении или прерывании выполнения DAG на основе
отправленного письма.
6
PostgresSensor
Проверка изменений после обновления данных из Oracle таблицы.
HiveOperator
7
Проверка существования таблиц с помощью SQL оператора CREATE TABLE IF NOT
EXIST.
8
SparkSubmitOperator
Запуск основного исполняемого файла.
SimpleHttpOperator
Взаимодействие с Victoria Metrics для мониторинга работы DAG.
9

20.

Тестирование Витрин
Данных
3
100%
Витрины
Совпадение
filmAggregateSQL,
Данные полностью совпадают с
chanelAggregatesByTerSQL,
ручной выборкой и не поступали
chanelAggregatesSQL
жалобы от бизнес-заказчика.

21.

Экономическая Эффективность
1
2
3
4
Затраты
До Автоматизации
144420 рублей/год
После Автоматизации
131124 рублей
Срок Окупаемости
11 месяцев

22.

Автоматизация Витрин
Данных: Кейс «Билайн»
КП

23.

Проектирование и Разработка
1
Понимание БизнесЗадач
2
Методические Подходы
Проектирование витрин
В работе были предложены
данных требует глубокого
методические подходы к
понимания бизнес-задач и
построению витрин данных,
специфики данных.
учитывающие технические и
бизнес-аспекты.
3
Современные Технологии
Использование Apache Spark, Apache Airflow и Docker позволило
автоматизировать процессы обработки данных, повысить их точность
и надёжность.

24.

Преимущества
Автоматизации
Сокращение
Временных Затрат
Снижение Ошибок
Автоматизация процессов
количество ошибок,
обработки данных
связанных с человеческим
значительно сократила
фактором.
Автоматизация снизила
временные затраты.
Повышение Качества Данных
Внедрение предложенных решений способствовало повышению
качества данных, что положительно сказалось на бизнес-процессах
компании.

25.

Положительное Влияние на
Бизнес
Повышение Качества
Решений
Снижение Рисков
Улучшение точности данных и
ошибками в расчётах.
скорости их обработки
способствовало повышению
качества принимаемых бизнесрешений.
Снижение рисков, связанных с

26.

Ключевые Выводы
1
Техническая Реализация
Успешное внедрение витрин данных и их автоматизация
требуют не только технической реализации, но и глубокого
понимания бизнес-задач.
2
Современные Технологии
Современные технологии, такие как Apache Spark, Apache
Airflow и Docker, позволяют значительно повысить
эффективность работы с данными.
3
Устойчивое Развитие
Повышение эффективности работы с данными способствует
устойчивому развитию компании.

27.

Перспективы Дальнейшего Развития
Внедрение технологий искусственного интеллекта и машинного обучения для повышения точности анализа и
прогнозирования делает данную область ещё более перспективной для дальнейших исследований и внедрения.

28.

Спасибо за внимание!
English     Русский Rules