Методы бизнес-аналитики
Общая схема анализа
Визуализация данных
Применение методов визуализации позволяет:
Цели и задачи визуализации
Визуализация (Visualization)
группы методов визуализации
Стандартная таблица с возможностью сортировки, фильтрации и экспорта данных
Статистические показатели набора данных
Histogram
Гистограмма-график разброса показателей; предназначен для оценки распределения данных
Box Plot
Box Plot
Pie Charts
Pie Charts
Line Graph
Диаграмма, поддерживающая множество типов отображения: линии, столбцы, круговые диаграммы, области и прочее
Bar chart
Bar Chart
Line Graph
Визуализация данных при моделировании
Визуализаторы для оценки качества моделей
Типичный набор визуализаторов для оценки качества моделей
Scatter plot
Scatter plot
График отклонения прогнозируемых при помощи модели значений от реальных с автоматическим построением гистограммы распределения
Bubble Chart
Bubble Chart
Матрица классификации, или таблица сопряженности (confusion matrix)
Матрица классификации (таблица сопряженности)
Построение ROC-кривой для анализа результатов бинарной классификации
Визуализация контроля процесса обучения моделей
Визуализаторы для интерпретации результатов анализа
Визуализация информации
Визуализация дерева решений, построенного при помощи соответствующего алгоритма
Визуализатор «нейросеть»
Визуализация связей
Визуализатор «Карта Кохонена»
Сложные визуализаторы общего назначения
Оперативный анализ данных OnLine Analytical Processing Эдгар Кодд 1993г
12 правил OLAP
12 правил OLAP
12 правил OLAP
12 правил OLAP
тест FASMI (Найджел Пендс Nigel Pendse)
тест FASMI
Многомерность в OLAP-приложениях может быть разделена на три уровня:
Хранилище данных
Объекты ХД
Объекты ХД
Многомерные хранилища данных
Преимущества многомерного подхода
Недостатки МХД:
Получение данных в виде плоской таблицы или результата выполнения SQL запроса. 2. Кэширование данных и преобразование их к
OLAP-куб
проекции или срезы исходного куба представляются в виде кросс-таблицы или кросс-диаграммы
OLAP-куб в Loginom
OLAP-анализ в аналитической платформе
построение OLAP-куба
Манипуляции с измерениями с помощью графического интерфейса
Манипуляции с измерениями с помощью графического интерфейса
детализация
Значение
Географические карты
Тепловые карты
Тепловые карты
Тепловые карты 
Тепловые карты
тепловые карты
Дерево-карта
Word Cloud
Word Cloud
Облако данных
Площадная диаграмма
Другие способы визуализации
Стандартное представление транспортных потоков
Нестандартное представление транспортных потоков
Дашборд (Dashboard)
Цифровая информационная панель
6.94M

Лекция_OLAP-технологии и Визуализация (1)

1. Методы бизнес-аналитики

Методы бизнесаналитики
OLAP-технологии
Визуализация

2. Общая схема анализа

Эксперт (специалист в предметной области)
Гипотеза (предположение)
Извлечение и
визуализация:
OLAP, таблицы,
диаграммы, карты…
Построение моделей:
прогнозирование,
кластеризация,
классификация…
Интерпретация результатов
BaseGroup Labs

3. Визуализация данных

• К способам визуального или графического представления
данных относят графики, диаграммы, схемы, карты и т.п.
• Визуализация
традиционно
рассматривалась
как
вспомогательное средство при анализе данных, однако в
последнее время все больше исследований говорят о ее
самостоятельной роли в бизнес-аналитике.

4. Применение методов визуализации позволяет:

• Представлять пользователю информацию в
наглядном виде.
• Компактно описывать закономерности,
присущие набору данных.
• Сжимать информацию.
• Обнаруживать пропуски в данных.
• Обнаруживать шумы и выбросы в данных.

5. Цели и задачи визуализации

6. Визуализация (Visualization)

В аналитических технологиях визуализация — комплекс
методов представления исходной информации и
результатов анализа данных в наиболее удобной для
восприятия и интерпретации форме. Кроме этого,
визуализация может применяться
для мониторинга процесса построения и работы различных
аналитических моделей, проверки гипотез и других целей,
связанных с проведением анализа.

7.

8. группы методов визуализации

общего назначения — применяются для решения
типовых задач анализа данных: визуальной оценки
качества и характера данных, распределения значений
признаков, статистических характеристик и т. д.;
OLAP-анализ — комплекс методов для визуализации
многомерных данных;
оценка качества моделей — позволяют оценивать
различные характеристики моделей, такие как точность,
эффективность, достоверность результатов,
интерпретируемость, устойчивость и т. д.;
интерпретация результатов анализа — служат для
представления конечных результатов анализа в виде,
наиболее удобном с точки зрения их интерпретации
пользователем.

9.

10. Стандартная таблица с возможностью сортировки, фильтрации и экспорта данных

11. Статистические показатели набора данных

12. Histogram

Гистограмма
отображает
частоту появления данных.
Позволяет установить где
концентрируются основные
данные и увидеть выбросы.

13. Гистограмма-график разброса показателей; предназначен для оценки распределения данных

14. Box Plot

15. Box Plot

A Box Plot - удобный способ
наглядного отображения групп
числовых данных с помощью
квартилей. Линии, идущие
параллельно
от
коробок,
известны как" усы", которые
используются для обозначения
изменчивости вне верхней и
нижней
квартилей.
Окрестности
иногда
прорисовываются
как
отдельные
точки,
которые
находятся на линии с усами.
Коробки с усами могут быть
нарисованы вертикально или
горизонтально.

16. Pie Charts

17. Pie Charts

Pie диаграммы помогают показать
пропорции и процентные доли между
категориями,
разделяя
круг
на
пропорциональные сегменты. Каждая
длина дуги представляет собой долю
каждой категории, а весь круг
представляет собой сумму всех данных,
равную 100%. Круговые диаграммы
идеально подходят для представления о
пропорциональном
распределении
данных.
Основным
недостатком
круговых диаграмм можно считать то,
что они не могут отображать больше,
чем несколько значений, потому что по
мере увеличения числа показанных
значений
размер
каждого
сегмента/среза становится меньше. Это
делает их непригодными для больших
объемов данных.

18. Line Graph

19. Диаграмма, поддерживающая множество типов отображения: линии, столбцы, круговые диаграммы, области и прочее

20. Bar chart

21. Bar Chart

• Column Graph - синоним.
• Bar
Chart
отображает
различные категории (выделяя
их цветом) и отвечает на
вопрос “Как много” для
каждой категории.
• Есть два варианта отображения
категорий – вертикальная и
горизонтальная.
• Категории выделяются цветом
и идентифицируются легендой.

22. Line Graph

• Линейные графики используются для отображения
количественного значения в течение непрерывного
интервала. Чаще всего он используется для
отображения тенденций и отношений между
категориями (при группировании с другими
линиями). Линейные графики также помогают
отобразить "картину в целом" за промежуток
времени, чтобы увидеть, как она развивалась за
этот период.
• При группировке нескольких линий необходимо
отображать линии разными цветами и указывать в
легенде какая линия чему соответствует.

23. Визуализация данных при моделировании

Визуализация промежуточных
результатов анализа с целью
проверки корректности используемых
моделей и алгоритмов.
Визуализация результатов анализа с
целью их интерпретации и проверки
достоверности.

24. Визуализаторы для оценки качества моделей

25. Типичный набор визуализаторов для оценки качества моделей

• диаграмма рассеяния;
• матрица классификации;
• ретропрогноз;
• графики контроля хода
обучения.

26. Scatter plot

27. Scatter plot

Синонимы - Scatter Graph,
Point Graph, X-Y Plot, Scatter
Chart или Scattergram.
Диаграммы
рассеивания
используют
декартовы
координаты для отображения
значений двух переменных.
Такое
отображение
переменных по каждой оси
позволяет
визуально
предположить, существует ли
связь или корреляция между
двумя
переменными.

28. График отклонения прогнозируемых при помощи модели значений от реальных с автоматическим построением гистограммы распределения

ошибки

29. Bubble Chart

30. Bubble Chart

Пузырьковые диаграммы очень
похожи на диаграммы рассеивания,
так как каждая позиция пузыря
определяется двумя координатами.
Кроме того, размер окружности в
каждой
точке
отражает
дополнительное измерение. Из-за
этого
пузырьковые
диаграммы
позволяют проводить сравнение
трех переменных, что позволяет
легко визуализировать сложные
взаимозависимости, которые не
видны в диаграммах для двух
переменных .
Цвета также могут использоваться
для различения категорий или для
представления
дополнительной
переменной.

31.

32.

33. Матрица классификации, или таблица сопряженности (confusion matrix)

• применяется
для
оценки
качества
классификационных моделей;
• используется для оценки качества модели
классификации
при
помощи
сравнения
реальных данных и результатов полученных
при помощи модели классификации

34.

35. Матрица классификации (таблица сопряженности)

36. Построение ROC-кривой для анализа результатов бинарной классификации

37. Визуализация контроля процесса обучения моделей

38. Визуализаторы для интерпретации результатов анализа

• древовидные
визуализаторы;
• визуализаторы связей;
• карты.

39.

40. Визуализация информации

Дерево решений
Диаграмма
«Процентное соотношение
качества вод региона»
40

41.

42. Визуализация дерева решений, построенного при помощи соответствующего алгоритма

43. Визуализатор «нейросеть»

44. Визуализация связей

45. Визуализатор «Карта Кохонена»

Классификация районов
0 – развитый
1 – развивающийся
2 – наименее развитый
45

46. Сложные визуализаторы общего назначения

47. Оперативный анализ данных OnLine Analytical Processing Эдгар Кодд 1993г


категория приложений и
технологий, которые обеспечивают сбор,
хранение, манипулирование и анализ
многомерных данных. Анализируемая
информация представляется в виде
многомерных кубов, где измерениями
служат
показатели
исследуемого
процесса, а в ячейках содержатся
агрегированные данные.
OLAP

48. 12 правил OLAP

1.
2.
3.
4.
Многомерная модель (Multidimensional model).
Прозрачность
(Transparency
of
the
server).
Пользователь
способен
получить
все
необходимые данные из OLAP-системы, даже не
подозревая, откуда они, в конечном счете,
берутся
Доступность (Accessibility).
OLAP как посредник, в качестве прослойки
между различными источниками данных и
представлением для конечного пользователя.
Устойчивость.
Постоянность
характеристик
производительности (Stable access performance).
Производительность существенно не должна
падать с ростом количества измерений и
размеров базы данных

49. 12 правил OLAP

5.
6.
Архитектура клиент/сервер (Client server architecture).
Серверный компонент должен быть достаточно
интеллектуальным для того, чтобы клиенты могли
подключаться
с
минимумом
усилий
и
программирования
Равноправие измерений (Generic Dimensionality).
Все измерения должны быть равноправны
7.
Обработка
(управление)
разреженных
матриц данных (Management of data sparsity).
OLAP-системы автоматически должны настраивать
свою физическую схему в зависимости от типа
модели, объемов данных и разреженности базы
данных

50. 12 правил OLAP

Поддержа многопользовательского режима
(Multi-user).
Инструменты OLAP должны обеспечивать
одновременный доступ (чтение и запись),
интеграцию и конфиденциальность.
9. Гибкий
мезанизм
генерации
отчетов
(Операции с измерениями) (Operation on
dimension).
(детализация,
свертка,
транспонирование, сечение,…)
10. Интуитивное
манипулирование данными
(Intuitive manipulation of data). Работа с
данными посредством прямых действий над
ячейками
в
режиме
просмотра
без
использования
меню
и
множественных
операций.
8.

51. 12 правил OLAP

11.
Гибкий механизм генерации отчетов
(Flexible posting and editing).
Должны поддерживаться различные способы
визуализации.
12.
Множественность измерений и уровней
агригации (Multiple dimensions and levels).
Неограниченное число измерений и уровней
агрегации (не менее 20)

52. тест FASMI (Найджел Пендс Nigel Pendse)

Fast Analysis of Shared Multidimensional
Information – быстрый анализ разделяемой
многомерной информации
Он включает пять критериев, которым
должно удовлетворять приложение, чтобы
относится к категории OLAP:
скорость выполнения запросов; мощность
подсистемы анализа; организация
разделенного доступа к данным;
многомерное представление данных и
доступность информации.

53. тест FASMI

Fast : ответ на запрос в течение 1-20 с
Аnalysis : любой сложный логический и
статистический анализ для бизнес –
приложений
Shared : защищенный
многопользовательский доступ
Multidimensional: многомерное
представление данных включая иерархии
Information : большое количество данных
и информации

54. Многомерность в OLAP-приложениях может быть разделена на три уровня:

Многомерное хранение - средства физической
организации
данных,
обеспечивающие
эффективное
выполнение
многомерных
запросов (не обязателен для OLAP-систем, так
как данные для многомерного представления
могут извлекаться и из обычных реляционных
структур).
Многомерная обработка - средство (язык)
формулирования многомерных запросов и
процессор, умеющий обработать и выполнить
такой запрос.
Многомерное
представление
данных
средства
конечного
пользователя,
обеспечивающие многомерную визуализацию и
манипулирование данными.

55. Хранилище данных

Определение. Б. Инмон (1990г.)
ХД - предметно-ориентированный,
интегрированный, неизменяемый и
поддерживающий хронологию набор
данных, предназначенный для
обеспечения принятия управленческих
решений.

56. Объекты ХД

Измерение – это последовательность
значений одного из анализируемых
параметров (город, клиент, дата)
Атрибут – это свойство измерения
(Например, для измерения Код_региона
атрибутом является Регион).
Факт – значение, соответствующее
измерению (численные значения,
например, сумма, количество, объем).
Ссылка на измерение – это
установленная связь между двумя и более
измерениями.

57. Объекты ХД

Процесс
– совокупность измерений,
фактов и атрибутов. Процесс описывает
определенное
действие,
например,
продажа, отгрузка, мониторинг.
Атрибут процесса – свойство процесса,
справочное значение, относящееся к
процессу.

58. Многомерные хранилища данных

Основный принцип - хранение данных в виде
многомерных кубов

59. Преимущества многомерного подхода

Представление данных в виде
многомерных кубов более наглядно,
чем совокупность нормализованных
таблиц реляционной модели;
более широкие возможности
построения аналитических запросов к
системе, использующей МХД;
Высокая скорость запросов,
практически в режиме реального
времени.

60. Недостатки МХД:

требуется больший объем памяти;
многомерная структура труднее поддается
модификации (при необходимости встроить
еще одно измерение требуется выполнить
физическую перестройку всего многомерного
куба).

61. Получение данных в виде плоской таблицы или результата выполнения SQL запроса. 2. Кэширование данных и преобразование их к

Общая схема работы настольной OLAP
1.Получение данных в виде плоской таблицы или результата выполнения SQL
запроса.
2. Кэширование данных и преобразование их к многомерному OLAP-кубу.
3. Отображение построенного куба при помощи кросс-таблицы или диаграммы

62. OLAP-куб

63. проекции или срезы исходного куба представляются в виде кросс-таблицы или кросс-диаграммы

64.

65. OLAP-куб в Loginom

66. OLAP-анализ в аналитической платформе

Интегрированный OLAP-модуль позволяет
провести многомерный анализ на любой
стадии обработки:
Произвольное размещение измерений и
фактов «на лету»
Фильтрация по любому показателю
Сортировка и группировка
Детализация (Drill-down)
Многомерные формулы
Построение графиков

67. построение OLAP-куба

Нужно указать какие измерения и факты
включать в куб;
Нужно указать методы агрегации значений
фактов.
Кросс-таблица и кросс-диаграмма
поддерживают весь набор механизмов
манипуляции: произвольное размещение,
группировка, сортировка, фильтрация,
детализация, свертка...

68. Манипуляции с измерениями с помощью графического интерфейса

Замена и добавление измерений
Удаление измерений
Скрытие измерений
Изменение порядка следования
измерений
Отбор значений измерений
Транспонирование

69. Манипуляции с измерениями с помощью графического интерфейса

70. детализация

71. Значение

OLAP-куб можно использовать не только
как метод визуализации, но и как средство
оперативного формирования отчетов и
представления информации в нужном
разрезе (так называемая аналитическая
отчетность).

72. Географические карты

73. Тепловые карты

Термин «тепловая карта» ввел разработчик
программного обеспечения Кормак Кинни в 1991
г. в описании 2D дисплея, который показывал
информацию финансового рынка в режиме
реального времени.
Тепловые карты – это тип визуализации, в
которой
цвет
выступает
в
качестве
дополнительного измерения. Тепловые карты
позволяют увидеть важные переменные в цвете
как функцию двух других переменных.

74. Тепловые карты

Плотность
населения.
Простейший пример цветовой
карты,
знакомый
нам
с
детства – карта региона, на
которой
цветом
показана
плотность населения. Можно
составить рейтинг регионов
Африки
по
плотности
населения,
а
можно
визуализировать те же данные
при помощи тепловой карты,
которая наглядно покажет эту
информацию.

75. Тепловые карты 

Тепловые карты
Тепловая карта на службе
таксистов.
Это
уже
корпоративное использование
тепловых карт – крупная служба
такси
Uber
с
помощью
тепловых карт помогает своим
водителям определить, где
сейчас находится больше всего
потенциальных клиентов. На
карте
города
красным
подсвечиваются
зоны
с
наибольшим
количеством
заказов такси за последний час.

76. Тепловые карты

Тепловые карты в таблице. Тепловые карты облегчают процесс восприятия
больших массивов данных и необязательно связаны с отображением
информации на географической карте. Ниже Вы видите, как выигрывает
простая плоская таблица от добавления тепловой карты, и насколько
облегчается первоначальное восприятие данных.

77. тепловые карты

78. Дерево-карта

79. Word Cloud

80. Word Cloud

Tag Clouds – синоним.
Метод
визуализации,
позволяющий отобразить
частоту
использования
слов в тексте. Цвет может
использоваться
для
разбивки слов на категории
(по
частоте
использования).
Не отображает точные
значения, однако весьма
удобен для восприятия.

81. Облако данных

82. Площадная диаграмма

83. Другие способы визуализации

Нет никаких ограничений в способах
представления
информации.
Существующие шаблоны в виде диаграмм и
графиков – всего лишь начальные идеи.
Главное – донести информацию в как можно
более выразительном виде. Рассмотрим
несколько примеров.

84. Стандартное представление транспортных потоков

85. Нестандартное представление транспортных потоков

86. Дашборд (Dashboard)

Дашборд — это средство визуализации, обеспечивающее интерфейс
пользователя, схожий с приборной панелью автомобиля, специально
разработанное
для
более
информации.
Особенно
удобного
полезно,
и
быстрого
считывания
когда
требуется
отслеживать
одновременно несколько информационных потоков.

87.

88.

89. Цифровая информационная панель

Преимущества:
•удобное представление различных показателей;
•возможность своевременного выявления негативных
тенденций и проблем;
•возможность оперативного формирования подробных
отчетов;
•обеспечение надежной информационной основы для
принятия управленческих решений;
•обеспечение высокой эффективности управления всей
бизнес-системой.
English     Русский Rules