Similar presentations:
Данные в экономике, их визуализация и предварительная обработка. Выбросы и их обработка в Microsoft Excel
1. Финансовый университет при Правительстве РФ Департамент анализа данных, принятия решений и финансовых технологий АНАЛИЗ ДАННЫХ
Тема 1. Данные в экономике, их визуализацияи предварительная обработка
Доцент Соловьев А.И., кандидат технических наук, доцент
Лекция
1.4 Предварительная обработка данных.
Выбросы и их обработка в Microsoft Excel.
Пропущенные значения и их обработка в Microsoft Excel.
Повторяющиеся строки и их обработка в Microsoft Excel.
Синтетические признаки.
2. В предыдущей лекции
Визуализация качественных признаков в Microsoft Excel.Сводные таблицы и сводные диаграммы в Microsoft Excel.
Таблицы сопряженности и парадокс Симпсона.
Иерархия признаков в Microsoft Excel.
3. 1. Предварительная обработка данных
В предыдущих лекциях мы рассмотрели визуализацию количественных икачественных признаков.
Это помогает правильно определить дальнейшие направления анализа данных.
Другой важной задачей является предварительная подготовка данных. Это
составляет значительную часть работы по анализу данных. Это связано с
тем, что:
Данные, с которыми мы имеем дело на практике, не идеальны (ошибки,
пропущен, повторы, выбросы), что сильно осложняющие их анализ.
Предварительная обработка данных может занимать столько же времени,
сколько их анализ с помощью различных интеллектуальных технологий, а
часто даже больше.
4. 2. Выбросы и их обработка в Microsoft Excel
Одной из самых типичных и самых важных проблем, является проблемавыбросов. Они которые искажают характеристики признаков и их взаимосвязей.
Выбросы - это значения признака, не попадающие в отрезок
[x0,25 – 1,5IQR; x0,75 + 1,5IQR].
Первым шагом при поиске выбросов является визуализация данных с помощью
диаграмм размаха и диаграмм рассеяния.
Первый вопрос – является ли «кандидат» в выбросы действительно выбросом,
либо в данных есть важные специальные подмножества, которые нужно
рассматривать отдельно.
Часто выбросы связаны с ошибками людей, участвовавших в подготовке
наборов данных – ошибки ввода данных (пропуск десятичной запятой или ввод
не в ту ячейку).
Иногда выбросы следует отбросить, чтобы избежать искажения результатов.
5. 2. Выбросы и их обработка в Microsoft Excel
В ряде ситуаций выбросы являются важнейшим предметом исследования.Например,
в задаче обнаружения мошеннических транзакций по банковским картам именно
выбросы — необычные, нетипичные транзакции — представляют основной
интерес. Если отбросить выбросы или заменить их типичными транзакциями, то,
очевидно, что задача определения мошеннических транзакций решена не будет.
В общем случае, варианты работы с выбросами:
- замена выброса значением в соответствующих границах отрезка
[x0,25 – 1,5IQR; x0,75 + 1,5IQR];
- обработка выброса как пропущенного значения.
Замечание. Как правило, для каждого признака X целесообразно добавить в
набор данных специальный признак Xвыбр., значение которого равно единице, в
случае, если значение при знака X в данной строке исходного набора данных
было классифицировано как выброс.
6. 3. Пропущенные значения и их обработка в Microsoft Excel
Следующей проблемой анализа данных является отсутствие в наборах данныхнекоторых значений. Они могут быть неизвестны по какой-либо причине, могут
быть утрачены, могут появиться в результате обработки выбросов.
ВАЖНО: Многие методы анализа данных невозможно использовать,
если набор данных содержит пустые ячейки.
Иногда можно догадаться, какое значение должно быть в соответствующей
ячейке.
Догадаться, сколько кредитов было выдано 2 августа, невозможно. В таком
случае можно, например, заполнить пропущенное значение средним, медианой
или модой.
7. 3. Пропущенные значения и их обработка в Microsoft Excel
В реальных наборах данных пропущенным значениям не всегда соответствуютпустые ячейки. Вместо пропущенных чисел могут использоваться специальные
коды.
Например:
- в Microsoft Excel используются следующие коды ошибок: «#ДЕЛ/0!», «#Н/Д»,
«#ИМЯ?», «#ПУСТО!», «#ЧИСЛО!», «#ССЫЛКА!», «#ЗНАЧ!».
- в других системах могут использоваться коды «NA» (Not Available), «NaN» (Not a
Number) и др.
- ряд систем для обозначения ошибок и отсутствующих значений числовых
признаков вставляют нули или специальные числовые коды, например, «9999»
или «99999999».
8. 3. Пропущенные значения и их обработка в Microsoft Excel
Общие варианты работы с пропущенными значениями:замена средним или медианой (это два наиболее часто используемых метода,
но только для количественных признаков);
удаление целой строки (удаление строки приводит к потере информации.
Этим методом пользуются тогда, когда потеря информации допустима);
замена специальным значением (пропуск признака «Число задержек
платежей по кредиту» в наборе данных о заемщиках банка целесообразно
заменить нулем, т.е. «Долгов нет»);
замена с помощью метода ближайших соседей (вычисление среднего, но не
по всему столбцу, а по нескольким близким строкам — ближайшим соседям);
замена модой (замена модой применяется к качественным признакам);
замена с помощью специальных методов (заполнения пропущенных
значений с помощью сингулярного разложения, линейной регрессии,
случайного леса, метода K-средних и др. — «Машинное обучение»).
Замечание. Как правило, при замене пропущенных значений для каждого признака X целесообразно добавить в набор
данных специальный признак Xпропущ., значение которого равно единице, в случае, если значение признака X в
данной строке исходного набора данных от сутствовало и было каким либо образом синтезировано.
9. 4. Повторяющиеся строки и их обработка в Microsoft Excel
Повторяющиеся в наборе данных строки искажают результаты анализа данных,усиливая тенденции, которые, часто, не соответствуют действительности.
Перед проведением анализа данных из нескольких дублирующих строк
оставляет оставить одну.
В общем случае, варианты обработки повторяющихся строк:
- сохранение первой строки с удалением оставшихся;
- сохранение последней строки с удалением оставшихся;
- объединение повторяющихся строк в одну с вычислением средних значений
для каждого количественного признака и мод для каждого качественного
признака.
10. 5. Синтетические признаки
Важным этапом решения задач анализа данных является поиск синтетическихпризнаков (проектирование признаков).
Синтетические признаки являющихся определенными функциями от исходных
признаков: удачно построенные синтетические признаки очень помогают
находить в данных закономерности, определять общие свойства объектов и
различия между ними.
Например: Если в задаче анализа данных о заемщиках известен размер
ежемесячного платежа по кредиту и средний размер месячного дохода,
то, как правило, полезно рассмотреть дополнительный признак — долю
ежемесячного платежа по кредиту в месячном доходе.
Синтез новых признаков связан не столько с содержательным смыслом задачи,
сколько с необходимостью использования статистических методов, основанных
на применении следствий из законов распределения данных.
Бывает
полезно рассмотреть синтетические признаки, являющиеся
квадратами, квадратными корнями, логарифмами исходных признаков,
произведениями и частными парами признаков и т. п.
11. 5. Синтетические признаки
Признаки в наборе данных могут иметь одинаковую природу и одинаковыеединицы измерения (сколько времени в месяц люди тратят на работу,
домашние дела и развлечения (все три признака имеют одинаковый масштаб и
в единицах времени). Анализ транзакций по пластиковым картам дает набор
данных, содержащий структуру затрат держателей пластиковых карт — сколько
люди тратят на еду, на путешествия, на развлечения и т. д., здесь все
признаки будут иметь сходный масштаб и измеряться в тыс. руб.
Но так бывает редко. Большинство реальных наборов данных, с которыми
приходится иметь дело в экономике, управлении, финансах, состоят из
нескольких признаков, имеющих принципиально разную природу и
измеряющихся в разных единицах.
При анализе данных бывают важны относительные взаимосвязи между
признаками, не только между их абсолютными значениями. Кроме того,
многие методы анализа данных работают только в том случае, когда признаки
имеют одинаковый масштаб.
12. 5. Синтетические признаки
Как правило, нужно приводить признаки к единому масштабу. Чтобы этосделать, наиболее часто используются два способа преобразования признаков:
- переход от признака X к признаку
приводит к тому, что у нового признака будет нулевое среднее и стандартное
отклонение, равное единице. Это z-преобразование;
- преобразование признака X в признак
гарантирует, что новый признак будет принимать значения из отрезка [0; 1].
Это min-max преобразование;
- может подойти и обычное нормирование Х/хмах.
13. 6. Заключение
В любом случае,-
при анализе выбросов;
-
при обработке пропущенных значений;
-
при удалении повторяющихся строк;
-
синтезировании признаков,
очень важно разбираться в предметной области, соответствующей исследуемому
набору
данных,
проектировании
и
принимать
данных
с
решения
учетом
об
очистке,
специфики
содержательного смысла конкретной ситуации и задачи.
трансформации
предметной
и
области,