Similar presentations:
Актуальные вопросы построения витрин данных и актуализации инструментов для автоматизации
1.
Актуальные вопросыпостроения витрин данных
и актуализации
инструментов для
автоматизации
КП
2.
Сущность и экономическое значение витринданных
Объем данных
Скорость обработки
Объем данных в мире вырос с 1 зеттабайта в 2000 году
Скорость обработки данных становится критическим
до прогнозируемых 1 75 зеттабайт к 2025 году.
фактором в условиях реального времени, особенно в
таких областях, как высокочастотная торговля.
3.
Преимущества витрин данныхБыстрый доступ
Интеграция данных
Упрощение доступа
Витрины данных обеспечивают
Витрины данных интегрируют
Витрина данных предлагает
быстрый и удобный доступ к
информацию из различных
пользователю доступ к данным,
информации для конкретных
источников, структурируя ее в
уже очищенным,
пользователей или
удобном для пользователя виде.
агрегированным и приведенным
подразделений.
в удобный для анализа формат.
4.
Архитектура витрины данныхИсточник данных
Внутренние и внешние источники
Этап интеграции и очистки
данных
информации, такие как транзакционные
Очистка данных от ошибок, дублирующих
системы, ERP-системы, CRM, а также
записей и других аномалий. Интеграция
данные, полученные от внешних
данных из разных источников.
поставщиков или открытых источников.
Хранилище данных
Место, где данные хранятся в
агрегированном и подготовленном
формате. Они могут быть организованы в
виде таблиц, кубов или других форматов,
удобных для обработки.
5.
Методические основы построения витрин данныхОпределение требований
1
Выявление бизнес-задач, которые будут решаться с помощью
витрины данных. Определение ключевых показателей
эффективности (KPI).
2
Проектирование архитектуры
Выбор модели витрины данных и определение источников
ETL (Extract, Transform, Load)
данных. Классификация моделей витрин данных: зависимые,
3
независимые и гибридные.
4
Оптимизация производительности и
масштабируемости
Извлечение данных из различных источников, их
преобразование в структурированный формат и загрузка в
конечное хранилище данных.
Обеспечение эффективной работы витрины данных при
Обеспечение качества и консистентности данных
Гарантия точности, полноты и согласованности данных.
Автоматизация процессов построения витрин данных с
использованием инструментов, таких как Apache Airflow, Talend и
Informatica.
5
увеличении объемов информации. Основные подходы к
оптимизации производительности.
6.
Инструментарий дляавтоматизации витрин данных
Языки программирования
Python, R, SQL, Java, Scala.
Библиотеки
Pandas, NumPy, scikit-learn, Dask, Spark.
Платформы
Apache Airflow, Luigi, Dagster, Knime, Alteryx, Kafka, Nifi, Talend,
TensorFlow, PyTorch, Matplotlib, Tableau, Power BI.
7.
Экономическая эффективностьавтоматизации витрин данных
40%
90%
Снижение затрат
Повышение точности
Автоматизация ETL-процессов снижает
Использование технологий машинного
вероятность ошибок и сокращает время
обучения и искусственного интеллекта
выполнения задач.
позволяет компаниям прогнозировать
рыночные тенденции с точностью до 90%.
40%
Сокращение затрат на
инфраструктуру
Использование облачных платформ позволяет
сократить капитальные затраты на
инфраструктуру до 40% по сравнению с
традиционными решениями.
8.
Анализ деятельностикрупного провайдера и
требований к подсчёту
прибыли продуктов ТВконтента
КП
9.
Общая характеристика деятельности ПАО«Вымпелком»
Крупнейший оператор связи
Бренд «Билайн»
Компания известна под брендом
Международная группа
«Veon Ltd.»
ПАО «Вымпелком» — один из
«Билайн» и занимает значительное
С 2009 года компания входит в
крупнейших российских операторов
место на рынке
международную группу «Veon Ltd.»,
связи, предоставляющий широкий
телекоммуникационных услуг в
обслуживающую более 240
спектр услуг в области мобильной и
России.
миллионов абонентов.
фиксированной связи, а также
интернета и цифровых решений.
10.
Анализ бизнес-процессов расчёта вознагражденияконтрагентов
1
Ключевая роль контрагентов
2
Расчёт вознаграждения
Контрагенты играют ключевую роль в продвижении и продаже
Вознаграждение контрагентов рассчитывается на основе ряда
услуг «Билайн», включая партнёров, дистрибьюторов и агентов.
параметров, включая объём продаж, тип услуги и дополнительные
бонусы за выполнение KPI.
3
IPTV и TVE
4
Интернет и Мобильная связь
Вознаграждение за продажу услуг IPTV и TVE рассчитывается на
Вознаграждение за услуги Интернета и Мобильной связи зависит
основе количества подключённых абонентов, выбранных
от объёма продаж, типа тарифного плана и выполнения KPI.
тарифных планов и участия в акциях.
11.
Проблемы при расчетевознаграждений
Проблема
Описание
Сложность учёта данных
Из-за большого количества услуг
и тарифных планов возникают
трудности с автоматизацией
расчётов.
Ручной ввод данных
Часть процессов до сих пор
требует ручного вмешательства,
что увеличивает вероятность
Отсутствие единой системы
ошибок.
Данные по продажам и
вознаграждениям хранятся в
разных системах, что затрудняет
их консолидацию и анализ.
12.
Этапы расчёта вознагражденияСбор данных
1
Сбор данных о том, как контрагент выполнил свои
обязательства: объем выполненных работ, проданные товары,
полученная выручка, другие ключевые показатели.
2
Проверка выполнения условий
Проверка, выполнил ли контрагент все условия, прописанные
Расчёт вознаграждения
в договоре, включая проверку качества выполненных работ,
3
соответствия объема или других критериев.
4
Выплата вознаграждения
Расчёт вознаграждения в оговоренной ранее форме, с учётом
возможных штрафов или дополнительных выплат в случае
нарушения условий.
Перевод средств контрагенту, с автоматизированным
процессом, соответствующим условиям договора, включая
Отчётность
Составление отчета о проведенных расчетах и выплатах,
анализ выполнения условий, оптимизация бизнес-процесса
для будущих расчетов.
5
бухгалтерскую и финансовую обработку, а также отчетность
перед налоговыми органами.
13.
Проектирование структуры витриныданных
Цель
Интеграция
Автоматизация процессов обработки
Определение источников данных и
данных, исключение участия специалистов,
разработка механизмов их интеграции в
не связанных с обработкой данных.
витрину, исключение ручного ввода данных
и снижение вероятности ошибок.
Физическая модель
Безопасность
Определение конкретной структуры базы
Учёт требований безопасности, защита
данных, включая таблицы, индексы и
данных от несанкционированного доступа,
другие объекты, оптимизация физической
тестирование системы на реальных данных
модели для обеспечения высокой
для проверки её работоспособности и
производительности и надёжности
корректности работы всех компонентов.
системы.
14.
Техническая составляющаяавтоматизации
Интеграция данных
Интеграция данных из различных источников, разработка
ETL-процессов, обеспечение надёжности и
производительности системы.
Мониторинг и поддержка
Создание механизмов мониторинга и поддержки,
использование современных инструментов и технологий
для исключения человеческого фактора, минимизации
ошибок и обеспечения эффективной работы витрины
данных.
15.
Автоматизация ВитринДанных для Расчета
Вознаграждений
16.
Рефакторинг Кода и Оптимизация1
1. Чтение Таблиц PostgreSQL
2
2. Обновление
Вспомогательных Таблиц
Реализована функция
Устранены лишние экзекьюторы и
JDBCHelper.jdbcRead для
оптимизировано чтение данных из
оптимизации чтения данных из
epgSubsDMP, epgFullHouseDMP,
PostgreSQL, повышая модульность и
inacIptvBaseDMP, inacIptvAddDMP,
безопасность.
inacIptvContDMP, inacCtnPoolDMP,
inacLoginsViewDMP, inacStartStopDMP,
inacServiceplDMP, inacContractspDMP,
inacPacketspDMP.
3
3. Запись Целевых Витрин Данных
Оптимизированы скрипты для записи chanelAggregatesSQL,
chanelAggregatesByTerSQL, и filmAggregateSQL, повышая производительность и
читаемость кода.
17.
Автоматизация CI/CD ПроцессовJenkins
SonarQube
Автоматизация слияния изменений в коде с основной веткой
Анализ качества кода, проверка изменений после каждого
проекта, проверка актуальности версии сборки витрины.
коммита, pull request и других операций.
18.
Развертывание Среды Разработки1
2
3
Kubernetes
Docker
Docker Compose
Сервисы
4
Airflow, PostgreSQL, Vault, Hadoop, Spark, Jenkins, SonarQube,
Jupyter Notebook, Scala
19.
ETL-Процесс для Загрузки и Обновления ДанныхEmailOperator
1
Отправка электронных писем оповещающих о состоянии выполнения DAG на
корпоративную почту.
2
VaultSecretsManager
Получение доступа к хранилищу секретов для изъятия паролей для учётных записей.
SQLExecuteQueryOperator
3
Проверка существования таблиц с помощью SQL оператора CREATE TABLE IF NOT
EXIST.
4
SparkJDBCOperator
Перекладка данных из нецелевой базы данных Oracle в целевую PostgreSQL.
BranchPythonOperator
5
Принятие решения о продолжении или прерывании выполнения DAG на основе
отправленного письма.
6
PostgresSensor
Проверка изменений после обновления данных из Oracle таблицы.
HiveOperator
7
Проверка существования таблиц с помощью SQL оператора CREATE TABLE IF NOT
EXIST.
8
SparkSubmitOperator
Запуск основного исполняемого файла.
SimpleHttpOperator
Взаимодействие с Victoria Metrics для мониторинга работы DAG.
9
20.
Тестирование ВитринДанных
3
100%
Витрины
Совпадение
filmAggregateSQL,
Данные полностью совпадают с
chanelAggregatesByTerSQL,
ручной выборкой и не поступали
chanelAggregatesSQL
жалобы от бизнес-заказчика.
21.
Экономическая Эффективность1
2
3
4
Затраты
До Автоматизации
144420 рублей/год
После Автоматизации
131124 рублей
Срок Окупаемости
11 месяцев
22.
Автоматизация ВитринДанных: Кейс «Билайн»
КП
23.
Проектирование и Разработка1
Понимание БизнесЗадач
2
Методические Подходы
Проектирование витрин
В работе были предложены
данных требует глубокого
методические подходы к
понимания бизнес-задач и
построению витрин данных,
специфики данных.
учитывающие технические и
бизнес-аспекты.
3
Современные Технологии
Использование Apache Spark, Apache Airflow и Docker позволило
автоматизировать процессы обработки данных, повысить их точность
и надёжность.
24.
ПреимуществаАвтоматизации
Сокращение
Временных Затрат
Снижение Ошибок
Автоматизация процессов
количество ошибок,
обработки данных
связанных с человеческим
значительно сократила
фактором.
Автоматизация снизила
временные затраты.
Повышение Качества Данных
Внедрение предложенных решений способствовало повышению
качества данных, что положительно сказалось на бизнес-процессах
компании.
25.
Положительное Влияние наБизнес
Повышение Качества
Решений
Снижение Рисков
Улучшение точности данных и
ошибками в расчётах.
скорости их обработки
способствовало повышению
качества принимаемых бизнесрешений.
Снижение рисков, связанных с
26.
Ключевые Выводы1
Техническая Реализация
Успешное внедрение витрин данных и их автоматизация
требуют не только технической реализации, но и глубокого
понимания бизнес-задач.
2
Современные Технологии
Современные технологии, такие как Apache Spark, Apache
Airflow и Docker, позволяют значительно повысить
эффективность работы с данными.
3
Устойчивое Развитие
Повышение эффективности работы с данными способствует
устойчивому развитию компании.
27.
Перспективы Дальнейшего РазвитияВнедрение технологий искусственного интеллекта и машинного обучения для повышения точности анализа и
прогнозирования делает данную область ещё более перспективной для дальнейших исследований и внедрения.
software