3.73M
Category: informaticsinformatics

Техологии обработки больших объемов данных: вычисления

1.

Большие данные
Юрченков Иван Александрович
Старший преподаватель кафедры прикладной математики ИИТ
[email protected]

2.

Тема 4. Техологии обработки больших
объемов данных: вычисления

3.

Тема 4. Техологии обработки больших
объемов данных: вычисления
Операции обработки структурированных табличных данных

4.

Тема 4. Техологии обработки больших
объемов данных: вычисления
Операции обработки структурированных табличных данных
Шкалы данных. Обработка шкал данных

5.

Тема 4. Техологии обработки больших
объемов данных: вычисления
Операции обработки структурированных табличных данных
Шкалы данных. Обработка шкал данных
Очистка данных

6.

Тема 4. Техологии обработки больших
объемов данных: вычисления
Операции обработки структурированных табличных данных
Шкалы данных. Обработка шкал данных
Очистка данных
Фильтрация и сортировка данных

7.

Тема 4. Техологии обработки больших
объемов данных: вычисления
Операции обработки структурированных табличных данных
Шкалы данных. Обработка шкал данных
Очистка данных
Фильтрация и сортировка данных
Агрегация данных

8.

Трансформация данных

9.

Трансформация данных
Трансформация данных - это выполнение различных
преобразований данных с целью их подготовки к
анализу или моделированию

10.

Трансформация данных

11.

Трансформация данных
Выборка данных (выборка столбцов или атрибутов)

12.

Трансформация данных
Выборка данных (выборка столбцов или атрибутов)
Сортировка данных

13.

Трансформация данных
Выборка данных (выборка столбцов или атрибутов)
Сортировка данных
Фильтрация данных

14.

Трансформация данных
Выборка данных (выборка столбцов или атрибутов)
Сортировка данных
Фильтрация данных
Вычисления столбцов

15.

Трансформация данных
Выборка данных (выборка столбцов или атрибутов)
Сортировка данных
Фильтрация данных
Вычисления столбцов
Агрегация данных (группировка)

16.

Трансформация данных
Выборка данных (выборка столбцов или атрибутов)
Сортировка данных
Фильтрация данных
Вычисления столбцов
Агрегация данных (группировка)
Обогащение данных

17.

Трансформация данных
Выборка данных (выборка столбцов или атрибутов)
Сортировка данных
Фильтрация данных
Вычисления столбцов
Агрегация данных (группировка)
Обогащение данных
Транспонирование данных

18.

Задачи трансформации

19.

Задачи трансформации
В OLTP системах (системы оперативной обработки данных):
• обеспечение поддержки корректности форматов и типов данных
• оптимизация процессов доступа к данным и выгрузки данных

20.

Задачи трансформации
На этапе ETL-процесса:
• приведение данных в соответствие с моделью, которая
используется в хранилище
• обеспечение процесса консолидации и согласованности данных
для их загрузки в хранилище

21.

Задачи трансформации
В аналитическом приложении:
• подготовка данных к анализу
• объединение и выделение наиболее ценной информации
• обеспечение корректной работы аналитических алгоритмов

22.

Задачи трансформации

23.

Задачи трансформации
Стадии трансформации данных:
очистка и подготовка данных перед загрузкой в хранилище данных

24.

Задачи трансформации
Стадии трансформации данных:
очистка и подготовка данных перед загрузкой в хранилище данных
организация витрин данных на стадии подготовки схем витрин данных для
разных отделов разработки

25.

Задачи трансформации
Стадии трансформации данных:
очистка и подготовка данных перед загрузкой в хранилище данных
организация витрин данных на стадии подготовки схем витрин данных для
разных отделов разработки
оптимизация данных для моделирования

26.

Задачи трансформации
Стадии трансформации данных:
очистка и подготовка данных перед загрузкой в хранилище данных
организация витрин данных на стадии подготовки схем витрин данных для
разных отделов разработки
оптимизация данных для моделирования
организация подведения аналитических отчетностей

27.

Задачи трансформации

28.

Шкалы данных

29.

Шкалы данных
Шкала измерения в статистике — это способ представления
переменных и их группировки в различные категории
Она определяет характер значений, присвоенных переменным в
наборе данных.

30.

Шкалы данных

31.

Свойства шкал
Основными свойствами шкал измерений
являются:

32.

Свойства шкал
Основными свойствами шкал измерений
являются:
Идентифицируемость

33.

Свойства шкал
Основными свойствами шкал измерений
являются:
Идентифицируемость
Величина

34.

Свойства шкал
Основными свойствами шкал измерений
являются:
Идентифицируемость
Величина
Равенство интервалов

35.

Свойства шкал
Основными свойствами шкал измерений
являются:
Идентифицируемость
Величина
Равенство интервалов
Абсолютный ноль

36.

Номинальная шкала
Номинальная шкала: описание групп статистик, подписи
визуализации.

37.

Порядковая шкала
Порядковая шкала: то же, что и номинальная шкала, плюс расчет
квантилей, исследование градации.

38.

Интервальная шкала

39.

Шкала отношений

40.

Свойства шкал

41.

Дискретные данные

42.

Дискретные данные
Дискретные данные являются значениями признака,
общее число которых конечной или бесконечно, но
может быть подсчитано при помощи натуральных чисел.

43.

Непрерывные данные
Непрерывные данные – это данные, которые могут принимать любые значения в
некотором интервале.
Тип данных
Числовой
Строковый
Логический
Дата/время
Вид данных
Непрерывный
Дискретный
+
+
+
+
+
+

44.

Очистка данных

45.

Грязные данные

46.

Грязные данные
Грязные данные - это неверные, недостаточные, не несущие
никакой пользы. К таковым относится информация, представленная
в некорректном формате или несоответствующая критериям. Они
появились вместе с системой ввода данных.

47.

Грязные данные
Причины появления грязных данных:
• ошибка во время ввода

48.

Грязные данные
Причины появления грязных данных:
• ошибка во время ввода
• противоречие критериям

49.

Грязные данные
Причины появления грязных данных:
• ошибка во время ввода
• противоречие критериям
• отсутствие оперативного обновления

50.

Грязные данные
Причины появления грязных данных:
• ошибка во время ввода
• противоречие критериям
• отсутствие оперативного обновления
• неправильное обновление копий данных

51.

Чистые данные
Чистые данные представляют собой табличный набор
наблюдений в котором каждой строке данных
соответствует
полный
перечень
атрибутов
c
адекватными значениями.

52.

Чистые данные

53.

Чистые данные

54.

Чистые данные

55.

Чистые данные

56.

Профайлинг данных
Профайлинг данных – процесс изучения данных с целью
достижения понимания их структуры, содержимого и оценки
качества

57.

Профайлинг данных
Профайлинг данных включает в себя следующие этапы:
• Подведение общих описательных статистик по выборке.

58.

Профайлинг данных
Профайлинг данных включает в себя следующие этапы:
• Подведение общих описательных статистик по выборке.
• Обнаружение пропусков.

59.

Профайлинг данных
Профайлинг данных включает в себя следующие этапы:
• Подведение общих описательных статистик по выборке.
• Обнаружение пропусков.
• Обнаружение выбросов и экстремальных значений.

60.

Профайлинг данных
Профайлинг данных включает в себя следующие этапы:
• Подведение общих описательных статистик по выборке.
• Обнаружение пропусков.
• Обнаружение выбросов и экстремальных значений.
• Обнаружение дубликатов и противоречий.

61.

Профайлинг данных
Профайлинг данных включает в себя следующие этапы:
• Подведение общих описательных статистик по выборке.
• Обнаружение пропусков.
• Обнаружение выбросов и экстремальных значений.
• Обнаружение дубликатов и противоречий.
• Сложные проверки.

62.

Профайлинг данных

63.

Пропуски данных

64.

Пропуски данных
ФИО
Иванова Н.А.
Семенов Л.И.
Пол
Жен
Муж
Доход
Возраст
17000
39
15000
56
41000
45

65.

Пропуски данных
ФИО
Иванова Н.А.
Семенов Л.И.
Пол
Жен
Муж
Доход
Возраст
17000
39
15000
56
41000
45

66.

Стратегии борьбы с пропусками

67.

Стратегии борьбы с пропусками
Число пропусков:
• Очень малое (до 0.5 - 1%) – можно удалить примеры

68.

Стратегии борьбы с пропусками
Число пропусков:
• Очень малое (до 0.5 - 1%) – можно удалить примеры
• Незначительное (1 - 1.5%) – рекомендуется восстановление пропусков

69.

Стратегии борьбы с пропусками
Число пропусков:
• Очень малое (до 0.5 - 1%) – можно удалить примеры
• Незначительное (1 - 1.5%) – рекомендуется восстановление пропусков
• Среднее (1.5-30%) и большое (30-50%) – пропуски необходимо восстановить,
результаты могут быть неадекватны

70.

Стратегии борьбы с пропусками
Число пропусков:
• Очень малое (до 0.5 - 1%) – можно удалить примеры
• Незначительное (1 - 1.5%) – рекомендуется восстановление пропусков
• Среднее (15-30%) и большое (30-50%) – пропуски необходимо восстановить,
результаты могут быть неадекватны
• Очень большое (50% и выше) – лучше отказаться от анализа набора данных

71.

Выбросы и экстремальные значения

72.

Выбросы
Выбросы представляют собой высокие значения, которые являются адекватными
для измерения данных в пределах атрибута.

73.

Выбросы
Выбросы представляют собой высокие значения, которые являются адекватными
для измерения данных в пределах атрибута.
Экстремальные – значения выходящие за пределы физической адекватности
измерений.

74.

Выбросы
Выбросы представляют собой высокие значения, которые являются адекватными
для измерения данных в пределах атрибута.
Экстремальные – значения выходящие за пределы физической адекватности
измерений.

75.

Выбросы
Выбросы представляют собой высокие значения, которые являются адекватными
для измерения данных в пределах атрибута.
Экстремальные – значения выходящие за пределы физической адекватности
измерений.

76.

Идентификация

77.

Идентификация
1. Визуальный анализ

78.

Идентификация
1. Визуальный анализ
2. Статистические методы

79.

Идентификация
1. Визуальный анализ
2. Статистические методы
3. Машинное обучение

80.

Обработка

81.

Обработка
1. Удаление выбросов

82.

Обработка
1. Удаление выбросов
2. Замена выбросов

83.

Обработка
1. Удаление выбросов
2. Замена выбросов
3. Использование специализированных моделей

84.

Обработка
1.
2.
3.
4.
Удаление выбросов
Замена выбросов
Использование специализированных моделей
Интерпретация выбросов

85.

Фильтрация и сортировка данных

86.

Сортировка данных

87.

Сортировка данных
Сортировка табличных данных – преобразование,
упорядочивающее набор объектов (строк) или
наблюдений в связи с правилом упорядочивания по
выбранным атрибутам.

88.

Сортировка строк

89.

Иерархическая сортировка

90.

Иерархическая сортировка
SELECT
марка машины,
миль на галлон топлива,
число циллиндров,
водоизмещение,
лошадиные силы
FROM
машины
ORDER BY
число циллиндров ASC,
водоизмещение DESC;

91.

Применение

92.

Применение
• Визуализация данных

93.

Применение
• Визуализация данных
• Вычисления определенных статистических процедур (ABCанализ, XYZ-анализ)

94.

Применение
• Визуализация данных
• Вычисления определенных статистических процедур (ABCанализ, XYZ-анализ)
• Упорядочивания данных для обеспечения логической
адекватности набора данных (если данные собираются не
синхронно)

95.

Фильтрация

96.

Фильтрация
Фильтрация данных — операция выборки строк
(объектов) или наблюдений из таблицы данных в
соответствии с логическим правилом сравнения
значений выбранного атрибута с определенным
значением.

97.

Фильтрация

98.

Фильтрация

99.

Фильтрация
Сравнения >=, >, = (==), !=, <, <=;

100.

Фильтрация
Сравнения >=, >, = (==), !=, <, <=;
В интервале, вне интервала, в полуинтервале, вне полуинтвервала (сложные
фильтры по одному столбцу);

101.

Фильтрация
Сравнения >=, >, = (==), !=, <, <=;
В интервале, вне интервала, в полуинтервале, вне полуинтвервала (сложные
фильтры по одному столбцу);
В списке, вне списка (для строк);

102.

Фильтрация
Сравнения >=, >, = (==), !=, <, <=;
В интервале, вне интервала, в полуинтервале, вне полуинтвервала (сложные
фильтры по одному столбцу);
В списке, вне списка (для строк);
Содержит, не содержит (для строк);

103.

Фильтрация
Сравнения >=, >, = (==), !=, <, <=;
В интервале, вне интервала, в полуинтервале, вне полуинтвервала (сложные
фильтры по одному столбцу);
В списке, вне списка (для строк);
Содержит, не содержит (для строк);
Возможно использование сложных фильтров, содержащих несколько условий,
связанных логическими операциями «И», «ИЛИ», «НЕ», и использующих для
отбора несколько значений из разных столбцов.

104.

Фильтрация

105.

Фильтрация
Пример на языке SQL по фильтрации таблицы users:
• SELECT
PersonID,
Salary,
Profession
• FROM
users
• WHERE
Salary < 55000 AND
PersonID LIKE “AD[89]_%”;

106.

Фильтрация
Примеры применения фильтрации наблюдений:

107.

Фильтрация
Примеры применения фильтрации наблюдений:
1. Выборка актуальных наблюдений по временному периоду

108.

Фильтрация
Примеры применения фильтрации наблюдений:
1. Выборка актуальных наблюдений по временному периоду
2. Выборка данных с заранее заданными значениями
категориальных атрибутов или столбцов

109.

Фильтрация
Примеры применения фильтрации наблюдений:
1. Выборка актуальных наблюдений по временному периоду
2. Выборка данных с заранее заданными значениями категориальных атрибутов
или столбцов
3. Выборка данных с определенными номерами строк индексированной строковой
таблицы данных

110.

Регулярные выражения

111.

Шаблон

112.

Шаблон
Основные классы символов:
• Указатели ^, $

113.

Шаблон
Основные классы символов:
• Указатели ^, $
• Метасимволы ., |, \

114.

Шаблон
Основные классы символов:
• Указатели ^, $
• Метасимволы ., |, \
• Классы символов [.], [^.], [:alpha:], ...
[:alnum:], [:alpha:], [:digit:], [:punct:], [:print:], [:space:], [:word:]

115.

Шаблон
Основные классы символов:
• Указатели ^, $
• Метасимволы ., |, \
• Классы символов [.], [^.], [:alpha:], ...
• Классы условных символов
\w, \s, \d, \W, \S, \D

116.

Шаблон
Основные классы символов:
• Указатели ^, $
• Метасимволы ., |, \
• Классы символов [.], [^.], [:alpha:], ...
• Классы условных символов
\w, \s, \d, \W, \S, \D
• Группа (...)

117.

Шаблон
Основные классы символов:
• Указатели ^, $
• Метасимволы ., |, \
• Классы символов [.], [^.], [:alpha:], ...
• Классы условных символов
\w, \s, \d, \W, \S, \D
• Группа (...)
• Квантификаторы {n}, {n, m}, ?

118.

Вычисления новых столбцов

119.

Вычисления новых столбцов

120.

Вычисления новых столбцов

121.

Вычисления новых столбцов
SELECT
Отчетная дата,
Суммарный объем,
Количество,
(Суммарный объем / Количество) AS Удельный объем
FROM grouped_table;

122.

Агрегация данных

123.

Агрегация данных
Группировка данных – процесс получения обобщенных
статистик для некоторой большой выборки табличных
данных с целью получить важную информацию по
уникальным группам категорий объектов.

124.

Агрегация данных
Группа – столбец, значения которого выбираются за
уникальные сущности в пределах которого считается
агрегированный показатель.
Синоним: измерение, категория

125.

Агрегация данных
Показатель – столбец, значения которого берутся за
основу подсчитанной агрегированной меры на основе
статистических функций агрегации.

126.

Агрегация данных
Группа: IDчека
Показатель:
Стоимость
(сумма)

127.

Агрегация данных
Группа: IDчека
Показатель:
Стоимость
(сумма)

128.

Агрегация данных
Подсчёт суммарного чека по
транзакционным данным
• SELECT
IDчека,
SUM(Стоимость),
• FROM
pizza_transactions,
• GROUP BY IDчека;

129.

Дискретизация данных

130.

Дискретизация данных
Дискретизация
данных

процесс измерения показателя
в
дискретные
моменты
времени с заранее заданной
частотой дискретизации, так
чтобы перевести непрерывную
или аналоговую информацию в
цифровой вид.

131.

Квантование данных

132.

Квантование данных
Квантование данных –
разбиение
диапазона
значений непрерывной или
дискретной величины на
конечное
число
интервалов. Шаг по оси
измерения
имеет
фиксированный шаг.

133.

Задачи группировки

134.

Задачи группировки
• Визуализация данных

135.

Задачи группировки
• Визуализация данных
• Глубокое понимание структуры данных (профайлинг данных)

136.

Задачи группировки
• Визуализация данных
• Глубокое понимание структуры данных (аудит данных)
• Уменьшение гранулярности данных

137.

Задачи группировки
Визуализация данных
Глубокое понимание структуры данных (аудит данных)
Уменьшение гранулярности данных
Подведение итогов

138.

Задачи группировки
Визуализация данных
Глубокое понимание структуры данных (аудит данных)
Уменьшение гранулярности данных
Подведение итогов
Подсчёт статистик по уникальным категориям объектов

139.

Функции агрегации

140.

Кросс-таблица

141.

Заключение
• Чистые и грязные данные
• Шкалы и виды данных
• Профайлинг данных
• Сортировка
• Фильтрация
• Агрегация

142.

Спасибо за внимание!
ФИО лектора
Должность лектора
Контакты лектора
English     Русский Rules