3.10M
Category: informaticsinformatics

Всё о профессии Data Engineer

1.

Всё о профессии Data Engineer
Саввин Кирилл
Старший специалист ЦК BDS
©2023 Неофлекс. Все права защищены
1

2.

Кто такой Data Engineer?
Data Engineer, или инженер данных, — это специалист, который занимается построением и
обслуживанием инфраструктуры для работы с данными, а также их предварительной
обработкой. Инженер не участвует в анализе, но обеспечивает аналитиков нужными
мощностями, инструментами и подготовленными данными. Часто таких специалистов
называют Big Data Engineer, или инженерами больших данных.
©2023 Неофлекс. Все права защищены
2

3.

Чем занимается инженер данных
Разрабатывает систему для работы с данными: хранилища,
инструменты и сервисы.
Собирает данные. Источников могут быть десятки, но вся
информация из них должна попадать в общее хранилище.
Очищает данные: убирает дубли и устраняет ошибки.
Структурирует данные так, чтобы они стали пригодны для
аналитики. В чистом виде из источников данные «сырые»,
их нужно предварительно обработать.
Настраивает загрузку данных и их движение между
инструментами. Для этого он создаёт пайплайны —
процессы движения данных от источника к нужному месту.
Обновляет используемые инструменты и ищет способы
улучшения и автоматизации существующих процессов.
©2023 Неофлекс. Все права защищены
3

4.

Иерархия потребностей науки
о данных
©2023 Неофлекс. Все права защищены
4

5.

Data-engineer и Data-scientist –
в чём разница
Дата-сатанист
Дата-сайентист
Дата-инженер
Источники
данных
Источники
данных
Источники
данных
Сырые
данные
Сырые
данные
Сбор данных
Очистка
Хранение
Передача
Очищенные
данные
• Аналитика данных
• Модели машинного
обучения
• Визуализация
результатов анализа
для бизнеса
Сырые
данные
©2023 Неофлекс. Все права защищены
5

6.

Плюсы и минусы профессии
Высокие зарплаты по сравнению с
другими профессиями в сфере IT.
Дефицит специалистов. Профессия
обособилась от других недавно, и пока что
специалистов мало. При этом спрос на них
растёт, и конкуренция на этом рынке пока
невысокая.
Широкий простор для переквалификации.
Можно развиваться в MLOps, DevOps или
менеджменте.
Высокий порог входа — без опыта или
образования в IT стать дата-инженером
сложно. Нужно разбираться в
разработке, аналитике или больших
данных.
Огромное количество инструментов для
работы. Чтобы выбрать подходящий для
конкретной компании и задачи, овладеть
нужно будет всеми.
Плюсы
Минусы
©2021 Неофлекс. Все права защищены
6

7.

Data Engineer должен знать и уметь
Понимание алгоритмов
позволит общаться со
специалистами по Data Science
на одном языке и
предоставлять им данные в
удобном виде. Общие знания о
том, как именно хранятся
данные, понадобятся, чтобы
грамотно их извлекать и
обрабатывать.
Самое главное — знать Python,
потому что именно на нём
пишут алгоритмы для
обработки данных. Пригодятся
Java и Scala — на них написаны
сами инструменты для
обработки данных. Знание
языков понадобится, чтобы
дорабатывать эти инструменты
и эффективно их использовать.
Часто данные нужно будет
извлекать из классических
БД с помощью SQLзапросов, поэтому
инженер данных
обязательно должен это
уметь.
Структуры данных и
математические
алгоритмы
Языки
программирования
SQL и классические базы
данных
©2023 Неофлекс. Все права защищены
7

8.

Data Engineer должен знать и уметь
Таких инструментов много: различные
колоночные БД, экосистема Hadoop для
создания озёр данных, Spark и Kafka.
Важно освоить хотя бы некоторые
инструменты, чтобы понимать принципы
их работы. Так будет проще подстроиться
под те, которые используют в конкретной
компании.
Сейчас практически все компании
работают с большими данными в
облаках, организуют там хранение и
аналитику. Важно уметь строить
инфраструктуру на базе облачной
Инструменты для работы с большими
данными
Облачные технологии
©2023 Неофлекс. Все права защищены
8

9.

Инструменты Дата-Инженера
Хранилища данных
ETL и CDC инструменты
загрузки данных
Инструменты обработки
данных
Инструменты визуализации
данных
Инструменты оркестрации
приложений
Инструменты управления
данными
©2020 Неофлекс. Все права защищены
9

10.

САМОЛЁТ – объединенная группа строительных
компаний
ЗАДАЧА:
Объединение данных из разнообразных
источников(как корпоративных систем
компании, так и внешних) для повышения
эффективности бизнеса компании,
построения прогностических моделей,
коммерциализации данных.
АРХИТЕКТУРА:
©2023 Неофлекс. Все права защищены
10

11.

Пример одной из проектных задач
©2023 Неофлекс. Все права защищены
11

12.

Пример одной из проектных задач
©2023 Неофлекс. Все права защищены
12

13.

ОСТАЛИСЬ ВОПРОСЫ?
©2023 Неофлекс. Все права защищены
13
English     Русский Rules