Similar presentations:
Лекция_OLAP-технологии и Визуализация (1)
1. Методы бизнес-аналитики
Методы бизнесаналитикиOLAP-технологии
Визуализация
2. Общая схема анализа
Эксперт (специалист в предметной области)Гипотеза (предположение)
Извлечение и
визуализация:
OLAP, таблицы,
диаграммы, карты…
Построение моделей:
прогнозирование,
кластеризация,
классификация…
Интерпретация результатов
BaseGroup Labs
3. Визуализация данных
• К способам визуального или графического представленияданных относят графики, диаграммы, схемы, карты и т.п.
• Визуализация
традиционно
рассматривалась
как
вспомогательное средство при анализе данных, однако в
последнее время все больше исследований говорят о ее
самостоятельной роли в бизнес-аналитике.
4. Применение методов визуализации позволяет:
• Представлять пользователю информацию внаглядном виде.
• Компактно описывать закономерности,
присущие набору данных.
• Сжимать информацию.
• Обнаруживать пропуски в данных.
• Обнаруживать шумы и выбросы в данных.
5. Цели и задачи визуализации
6. Визуализация (Visualization)
В аналитических технологиях визуализация — комплексметодов представления исходной информации и
результатов анализа данных в наиболее удобной для
восприятия и интерпретации форме. Кроме этого,
визуализация может применяться
для мониторинга процесса построения и работы различных
аналитических моделей, проверки гипотез и других целей,
связанных с проведением анализа.
7.
8. группы методов визуализации
общего назначения — применяются для решениятиповых задач анализа данных: визуальной оценки
качества и характера данных, распределения значений
признаков, статистических характеристик и т. д.;
OLAP-анализ — комплекс методов для визуализации
многомерных данных;
оценка качества моделей — позволяют оценивать
различные характеристики моделей, такие как точность,
эффективность, достоверность результатов,
интерпретируемость, устойчивость и т. д.;
интерпретация результатов анализа — служат для
представления конечных результатов анализа в виде,
наиболее удобном с точки зрения их интерпретации
пользователем.
9.
10. Стандартная таблица с возможностью сортировки, фильтрации и экспорта данных
11. Статистические показатели набора данных
12. Histogram
Гистограммаотображает
частоту появления данных.
Позволяет установить где
концентрируются основные
данные и увидеть выбросы.
13. Гистограмма-график разброса показателей; предназначен для оценки распределения данных
14. Box Plot
15. Box Plot
A Box Plot - удобный способнаглядного отображения групп
числовых данных с помощью
квартилей. Линии, идущие
параллельно
от
коробок,
известны как" усы", которые
используются для обозначения
изменчивости вне верхней и
нижней
квартилей.
Окрестности
иногда
прорисовываются
как
отдельные
точки,
которые
находятся на линии с усами.
Коробки с усами могут быть
нарисованы вертикально или
горизонтально.
16. Pie Charts
17. Pie Charts
Pie диаграммы помогают показатьпропорции и процентные доли между
категориями,
разделяя
круг
на
пропорциональные сегменты. Каждая
длина дуги представляет собой долю
каждой категории, а весь круг
представляет собой сумму всех данных,
равную 100%. Круговые диаграммы
идеально подходят для представления о
пропорциональном
распределении
данных.
Основным
недостатком
круговых диаграмм можно считать то,
что они не могут отображать больше,
чем несколько значений, потому что по
мере увеличения числа показанных
значений
размер
каждого
сегмента/среза становится меньше. Это
делает их непригодными для больших
объемов данных.
18. Line Graph
19. Диаграмма, поддерживающая множество типов отображения: линии, столбцы, круговые диаграммы, области и прочее
20. Bar chart
21. Bar Chart
• Column Graph - синоним.• Bar
Chart
отображает
различные категории (выделяя
их цветом) и отвечает на
вопрос “Как много” для
каждой категории.
• Есть два варианта отображения
категорий – вертикальная и
горизонтальная.
• Категории выделяются цветом
и идентифицируются легендой.
22. Line Graph
• Линейные графики используются для отображенияколичественного значения в течение непрерывного
интервала. Чаще всего он используется для
отображения тенденций и отношений между
категориями (при группировании с другими
линиями). Линейные графики также помогают
отобразить "картину в целом" за промежуток
времени, чтобы увидеть, как она развивалась за
этот период.
• При группировке нескольких линий необходимо
отображать линии разными цветами и указывать в
легенде какая линия чему соответствует.
23. Визуализация данных при моделировании
Визуализация промежуточныхрезультатов анализа с целью
проверки корректности используемых
моделей и алгоритмов.
Визуализация результатов анализа с
целью их интерпретации и проверки
достоверности.
24. Визуализаторы для оценки качества моделей
25. Типичный набор визуализаторов для оценки качества моделей
• диаграмма рассеяния;• матрица классификации;
• ретропрогноз;
• графики контроля хода
обучения.
26. Scatter plot
27. Scatter plot
Синонимы - Scatter Graph,Point Graph, X-Y Plot, Scatter
Chart или Scattergram.
Диаграммы
рассеивания
используют
декартовы
координаты для отображения
значений двух переменных.
Такое
отображение
переменных по каждой оси
позволяет
визуально
предположить, существует ли
связь или корреляция между
двумя
переменными.
28. График отклонения прогнозируемых при помощи модели значений от реальных с автоматическим построением гистограммы распределения
ошибки29. Bubble Chart
30. Bubble Chart
Пузырьковые диаграммы оченьпохожи на диаграммы рассеивания,
так как каждая позиция пузыря
определяется двумя координатами.
Кроме того, размер окружности в
каждой
точке
отражает
дополнительное измерение. Из-за
этого
пузырьковые
диаграммы
позволяют проводить сравнение
трех переменных, что позволяет
легко визуализировать сложные
взаимозависимости, которые не
видны в диаграммах для двух
переменных .
Цвета также могут использоваться
для различения категорий или для
представления
дополнительной
переменной.
31.
32.
33. Матрица классификации, или таблица сопряженности (confusion matrix)
• применяетсядля
оценки
качества
классификационных моделей;
• используется для оценки качества модели
классификации
при
помощи
сравнения
реальных данных и результатов полученных
при помощи модели классификации
34.
35. Матрица классификации (таблица сопряженности)
36. Построение ROC-кривой для анализа результатов бинарной классификации
37. Визуализация контроля процесса обучения моделей
38. Визуализаторы для интерпретации результатов анализа
• древовидныевизуализаторы;
• визуализаторы связей;
• карты.
39.
40. Визуализация информации
Дерево решенийДиаграмма
«Процентное соотношение
качества вод региона»
40
41.
42. Визуализация дерева решений, построенного при помощи соответствующего алгоритма
43. Визуализатор «нейросеть»
44. Визуализация связей
45. Визуализатор «Карта Кохонена»
Классификация районов0 – развитый
1 – развивающийся
2 – наименее развитый
45
46. Сложные визуализаторы общего назначения
47. Оперативный анализ данных OnLine Analytical Processing Эдгар Кодд 1993г
–категория приложений и
технологий, которые обеспечивают сбор,
хранение, манипулирование и анализ
многомерных данных. Анализируемая
информация представляется в виде
многомерных кубов, где измерениями
служат
показатели
исследуемого
процесса, а в ячейках содержатся
агрегированные данные.
OLAP
48. 12 правил OLAP
1.2.
3.
4.
Многомерная модель (Multidimensional model).
Прозрачность
(Transparency
of
the
server).
Пользователь
способен
получить
все
необходимые данные из OLAP-системы, даже не
подозревая, откуда они, в конечном счете,
берутся
Доступность (Accessibility).
OLAP как посредник, в качестве прослойки
между различными источниками данных и
представлением для конечного пользователя.
Устойчивость.
Постоянность
характеристик
производительности (Stable access performance).
Производительность существенно не должна
падать с ростом количества измерений и
размеров базы данных
49. 12 правил OLAP
5.6.
Архитектура клиент/сервер (Client server architecture).
Серверный компонент должен быть достаточно
интеллектуальным для того, чтобы клиенты могли
подключаться
с
минимумом
усилий
и
программирования
Равноправие измерений (Generic Dimensionality).
Все измерения должны быть равноправны
7.
Обработка
(управление)
разреженных
матриц данных (Management of data sparsity).
OLAP-системы автоматически должны настраивать
свою физическую схему в зависимости от типа
модели, объемов данных и разреженности базы
данных
50. 12 правил OLAP
Поддержа многопользовательского режима(Multi-user).
Инструменты OLAP должны обеспечивать
одновременный доступ (чтение и запись),
интеграцию и конфиденциальность.
9. Гибкий
мезанизм
генерации
отчетов
(Операции с измерениями) (Operation on
dimension).
(детализация,
свертка,
транспонирование, сечение,…)
10. Интуитивное
манипулирование данными
(Intuitive manipulation of data). Работа с
данными посредством прямых действий над
ячейками
в
режиме
просмотра
без
использования
меню
и
множественных
операций.
8.
51. 12 правил OLAP
11.Гибкий механизм генерации отчетов
(Flexible posting and editing).
Должны поддерживаться различные способы
визуализации.
12.
Множественность измерений и уровней
агригации (Multiple dimensions and levels).
Неограниченное число измерений и уровней
агрегации (не менее 20)
52. тест FASMI (Найджел Пендс Nigel Pendse)
Fast Analysis of Shared MultidimensionalInformation – быстрый анализ разделяемой
многомерной информации
Он включает пять критериев, которым
должно удовлетворять приложение, чтобы
относится к категории OLAP:
скорость выполнения запросов; мощность
подсистемы анализа; организация
разделенного доступа к данным;
многомерное представление данных и
доступность информации.
53. тест FASMI
Fast : ответ на запрос в течение 1-20 сАnalysis : любой сложный логический и
статистический анализ для бизнес –
приложений
Shared : защищенный
многопользовательский доступ
Multidimensional: многомерное
представление данных включая иерархии
Information : большое количество данных
и информации
54. Многомерность в OLAP-приложениях может быть разделена на три уровня:
Многомерное хранение - средства физическойорганизации
данных,
обеспечивающие
эффективное
выполнение
многомерных
запросов (не обязателен для OLAP-систем, так
как данные для многомерного представления
могут извлекаться и из обычных реляционных
структур).
Многомерная обработка - средство (язык)
формулирования многомерных запросов и
процессор, умеющий обработать и выполнить
такой запрос.
Многомерное
представление
данных
средства
конечного
пользователя,
обеспечивающие многомерную визуализацию и
манипулирование данными.
55. Хранилище данных
Определение. Б. Инмон (1990г.)ХД - предметно-ориентированный,
интегрированный, неизменяемый и
поддерживающий хронологию набор
данных, предназначенный для
обеспечения принятия управленческих
решений.
56. Объекты ХД
Измерение – это последовательностьзначений одного из анализируемых
параметров (город, клиент, дата)
Атрибут – это свойство измерения
(Например, для измерения Код_региона
атрибутом является Регион).
Факт – значение, соответствующее
измерению (численные значения,
например, сумма, количество, объем).
Ссылка на измерение – это
установленная связь между двумя и более
измерениями.
57. Объекты ХД
Процесс– совокупность измерений,
фактов и атрибутов. Процесс описывает
определенное
действие,
например,
продажа, отгрузка, мониторинг.
Атрибут процесса – свойство процесса,
справочное значение, относящееся к
процессу.
58. Многомерные хранилища данных
Основный принцип - хранение данных в видемногомерных кубов
59. Преимущества многомерного подхода
Представление данных в видемногомерных кубов более наглядно,
чем совокупность нормализованных
таблиц реляционной модели;
более широкие возможности
построения аналитических запросов к
системе, использующей МХД;
Высокая скорость запросов,
практически в режиме реального
времени.
60. Недостатки МХД:
требуется больший объем памяти;многомерная структура труднее поддается
модификации (при необходимости встроить
еще одно измерение требуется выполнить
физическую перестройку всего многомерного
куба).
61. Получение данных в виде плоской таблицы или результата выполнения SQL запроса. 2. Кэширование данных и преобразование их к
Общая схема работы настольной OLAP1.Получение данных в виде плоской таблицы или результата выполнения SQL
запроса.
2. Кэширование данных и преобразование их к многомерному OLAP-кубу.
3. Отображение построенного куба при помощи кросс-таблицы или диаграммы
62. OLAP-куб
63. проекции или срезы исходного куба представляются в виде кросс-таблицы или кросс-диаграммы
64.
65. OLAP-куб в Loginom
66. OLAP-анализ в аналитической платформе
Интегрированный OLAP-модуль позволяетпровести многомерный анализ на любой
стадии обработки:
Произвольное размещение измерений и
фактов «на лету»
Фильтрация по любому показателю
Сортировка и группировка
Детализация (Drill-down)
Многомерные формулы
Построение графиков
67. построение OLAP-куба
Нужно указать какие измерения и фактывключать в куб;
Нужно указать методы агрегации значений
фактов.
Кросс-таблица и кросс-диаграмма
поддерживают весь набор механизмов
манипуляции: произвольное размещение,
группировка, сортировка, фильтрация,
детализация, свертка...
68. Манипуляции с измерениями с помощью графического интерфейса
Замена и добавление измеренийУдаление измерений
Скрытие измерений
Изменение порядка следования
измерений
Отбор значений измерений
Транспонирование
69. Манипуляции с измерениями с помощью графического интерфейса
70. детализация
71. Значение
OLAP-куб можно использовать не толькокак метод визуализации, но и как средство
оперативного формирования отчетов и
представления информации в нужном
разрезе (так называемая аналитическая
отчетность).
72. Географические карты
73. Тепловые карты
Термин «тепловая карта» ввел разработчикпрограммного обеспечения Кормак Кинни в 1991
г. в описании 2D дисплея, который показывал
информацию финансового рынка в режиме
реального времени.
Тепловые карты – это тип визуализации, в
которой
цвет
выступает
в
качестве
дополнительного измерения. Тепловые карты
позволяют увидеть важные переменные в цвете
как функцию двух других переменных.
74. Тепловые карты
Плотностьнаселения.
Простейший пример цветовой
карты,
знакомый
нам
с
детства – карта региона, на
которой
цветом
показана
плотность населения. Можно
составить рейтинг регионов
Африки
по
плотности
населения,
а
можно
визуализировать те же данные
при помощи тепловой карты,
которая наглядно покажет эту
информацию.
75. Тепловые карты
Тепловые картыТепловая карта на службе
таксистов.
Это
уже
корпоративное использование
тепловых карт – крупная служба
такси
Uber
с
помощью
тепловых карт помогает своим
водителям определить, где
сейчас находится больше всего
потенциальных клиентов. На
карте
города
красным
подсвечиваются
зоны
с
наибольшим
количеством
заказов такси за последний час.
76. Тепловые карты
Тепловые карты в таблице. Тепловые карты облегчают процесс восприятиябольших массивов данных и необязательно связаны с отображением
информации на географической карте. Ниже Вы видите, как выигрывает
простая плоская таблица от добавления тепловой карты, и насколько
облегчается первоначальное восприятие данных.
77. тепловые карты
78. Дерево-карта
79. Word Cloud
80. Word Cloud
Tag Clouds – синоним.Метод
визуализации,
позволяющий отобразить
частоту
использования
слов в тексте. Цвет может
использоваться
для
разбивки слов на категории
(по
частоте
использования).
Не отображает точные
значения, однако весьма
удобен для восприятия.
81. Облако данных
82. Площадная диаграмма
83. Другие способы визуализации
Нет никаких ограничений в способахпредставления
информации.
Существующие шаблоны в виде диаграмм и
графиков – всего лишь начальные идеи.
Главное – донести информацию в как можно
более выразительном виде. Рассмотрим
несколько примеров.
84. Стандартное представление транспортных потоков
85. Нестандартное представление транспортных потоков
86. Дашборд (Dashboard)
Дашборд — это средство визуализации, обеспечивающее интерфейспользователя, схожий с приборной панелью автомобиля, специально
разработанное
для
более
информации.
Особенно
удобного
полезно,
и
быстрого
считывания
когда
требуется
отслеживать
одновременно несколько информационных потоков.
87.
88.
89. Цифровая информационная панель
Преимущества:•удобное представление различных показателей;
•возможность своевременного выявления негативных
тенденций и проблем;
•возможность оперативного формирования подробных
отчетов;
•обеспечение надежной информационной основы для
принятия управленческих решений;
•обеспечение высокой эффективности управления всей
бизнес-системой.