Similar presentations:
Системный подход к анализу данных Statistica. Законченные решения от StatSoft
1. STATISTICA
Системный подход к анализу данных.Владимир Боровиков
®
StatSoft Russia
2. STATISTICA 2000
Windows 95, 98, NT, 2000 ReadyПолностью на русском языке
Около 30 Mb на винчестере
Существует Macintosh-версия
Клиент-серверный интерфейс
3. Законченные решения от StatSoft
База данныхSTATISTICA
Результат,
методика
решения
4.
5. Законченные решения от StatSoft
OracleSQL
Access
Excel
Хранилище
База данных
данных
Технологии
•DDE
•ODBC
•Quick Import
6. Законченные решения от StatSoft
Оценкарепрезентативности
выборки
Верификация
данных
Агрегирование
данных
Визуализация
Разведочный
анализ
Применение
специальных
методов
STATISTICA
Представление
результатов
7. Наложение результатов на географическую карту
Уникальный проектStatSoft
8.
• Департаменты ЦБ• Страховая компания РОСНО
• АК АЛРОСА (АЛМАЗЫ РОССИИ-САХА)
• Министерство Путей Сообщения
• Акционерное общество АВТОВАЗ
• Региональные подразделения Госкомстата
• Энергетическая компания Карелэнерго
• Авиатранспортное предприятие EASTLINE
• Телекоммуникационная компания
“Северо-западное GSM”
• Группа “Сибирский алюминий”
9.
Http://www.statsoft.ruHttp://www.statistica.ru
10. Структура пакета
Основноеокно
Таблицы
данных
Графики
Таблицы
результатов
11. Импорт данных
Прямое преобразование файлов избольшинства популярных форматов:
+ Excel
+ Lotus (1-2-3, Symphony)
+ Quattro Pro
+ xBase (DBase, FoxPro, Clipper)
+ Paradox
+ ASCII
12. Импорт данных
Быстрои просто
13. Импорт данных
Поддержка интерфейса открытыхбаз данных Microsoft ODBC:
+ MS Access
+ MS SQL Server
+ Oracle
+ Sybase
+ IBM DB2/2, DB2/6000
+ сотни других популярных СУБД
14.
Импорт данныхУдобно
15.
Подготовка данныхДанные Стандартизация Подмножества
Фильтрация
Текстовые значения
Формат
Веса
16.
Анализ данныхSTATISTICA
включает все
методы
статистического
анализа данных:
от классических
до самых
современных
Для удобства
анализа методы
разделены на
модули
17.
Анализ данныхОсновные
статистики
Нелинейное
Факторный
Множественная
Временные
ряды и
ирегрессия
таблицы
оценивание
анализ
прогнозирование
18.
Анализ данныхПросто
Естественно
Эффективно
Полностью на русском языке!
19. Интерактивный анализ
Весь анализ в системе проводится сиспользованием наглядных диалоговых окон,
следующих типовым сценариям обработки данных.
Стартовая
панель
Выбор
метода
Группировка
переменных
Выбор
Окно
переменных результатов
20. Интерактивный анализ
Весь анализ в системе проводится сиспользованием наглядных диалоговых окон,
следующих типовым сценариям обработки данных.
Ввод
Просмотр
Параметры
Выбор
Результат
21.
Основные статистикии таблицы
22.
Вероятностный калькулятор23.
Вероятностный калькулятор24.
Вероятностный калькулятор25. Интерактивный анализ
КистьРезультат изменился
26. Интерактивный анализ
КистьТочки автоматически помечены
27. Программы-мастера
Размещениеграфиков
28. Программы-мастера
SQL-запросык базам данных
29. Программы-мастера
Программированиена STATISTICA BASIC
30. Автоматизация
Микропрокрутка0.77
0.67
0.57
0.47
0.37
0.36
0.35
Автозаполнение
31. Автоматизация
Поиск лучшей модели32. Автоотчет
33. Графики
34. Работа с графикой
3D-вращениеи перспектива
35. Работа с графикой
Дальнейшаянастройка
36.
Гибкий интерфейс37. 7 достоинств системы
• Знакомый Windows-интерфейс• Русский язык
• Полный набор статистических методов
• Сотни типов графиков
• Облегчающие работу программы-мастера
• Объекты и соответствующие им операции
• Настройка аналитической среды в соответствии с
пожеланиями пользователей
38. Области применения
Экономика, финансыНаучные исследования
Производство
39. Пример: Оценка эффективности модернизации жилых зданий
®StatSoft Russia
40. Описание объекта и цель исследования
Анализируемый объект представляетсобой жилое здание, подвергнутое
модернизации с целью экономии ресурсов.
41. Описание объекта и цель исследования
Целью исследования является оценкаэкономии ресурсов, полученная за счет
модернизации.
42. Основные параметры объекта
Q_SUM – суммарное потребление тепла
QEL – потребление электроэнергии
T_AP – температура в квартирах
T_ENV – температура окружающей среды
TSW – температура сетевой воды
43.
Этапы исследованияПервый этап
– импорт данных из Excel в
STATISTICA
–верификация данных
– удаление выбросов (чистка
данных)
– агрегирование данных
44.
Этапы исследованияВторой этап
•Разведочный анализ данных
•Построение зависимостей
•Разработка методики расчета
экономии ресурсов
45.
Этапы исследованияТретий этап
•Оценка точности вычисления
средней температуры дома по
выбранным квартирам (оценка
репрезентативности выборки)
46.
Использование модулей системыSTATISTICA
Основные статистики и таблицы
(дескриптивный анализ, группировка)
• Нелинейное оценивание (нахождение точек
изменения зависимостей)
• Множественная регрессия (нахождение
зависимостей)
47.
• Анализ временных рядов (нахождениясезонных составляющих)
• Кластерный анализ (нахождения групп
квартир, близких по температуре)
• Планирование Эксперимента
(оптимальное размещение датчиков в
доме, позволяющее максимально точно
оценить среднюю температуру)
48.
Предварительный этап анализаExcel
Буфер обмена
STATISTICA
Организация данных
Верификация данных
Агрегирование
данных
49.
• На предварительном этапе найдены:– ложные наблюдения
– неточность временной шкалы (в
данных присутствовали значения
времени 0, 1, 2 … 24 часов для
некоторых суток)
– несоответствие точек отсчета (до
22.04.1999 17:00 отсчет велся по
Гринвичу, после этой даты - по местному
времени)
50.
Результаты анализаОценка значимости эффекта
модернизации по исходным данным
51.
• Q_SUM – суммарное потребление тепла• DELTA_T разность: T_AP (температура
квартирах) - T_ENV(температура окружающей
среды)
Сложность сравнения состояла в том,
что отопительный сезон после
модернизации был теплее, чем до
модернизации.
52.
• Среднее значение DELTA_T на отопительномсезоне до модернизации равно 25.98.
95% доверительный интервал равен (25.7, 26.2),
стандартная ошибка 0.1.
• Среднее значение DELTA_T на отопительном
сезоне после модернизации равно 21.5.
• 95% доверительный интервал равен (21.3, 21.7),
стандартная ошибка 0.9.
• Сдвиг средних значений составляет 4.4.
• Нужно провести коррекцию на сдвиг.
53.
• На следующих графиках показано,как провести коррекцию
54.
Результаты анализа55.
Результаты анализа56.
Среднечасовая экономияресурса Q_SUM составляет
примерно
7%
57.
Дальнейшие результатыНайдены оценки температур перехода из
одного состояния комфортности в другое
(«недотоп-норма-перетоп») по характеру
изменения потребления электроэнергии и
расхода тепла на отопление
Тип системы
Теплоснабжение
Электроснабжение
Температура перехода, оС
Недотоп – норма
Норма – перетоп
18,8
23,3
19,8
23,3
58.
Дальнейшие результатыОпределены зависимости суммарного потребления
тепла Q при трех состояниях комфортности от
разности температур T в квартирах и на улице
Недотоп:
Q = 516+17* T
Норма:
Q = 401+20* T
Перетоп:
Q = 553*exp(0,02* T)
59.
Дальнейшие результатыОпределены зависимости потребления
электроэнергии E от разности температур T в
квартирах и на улице при разных состояниях
комфортности
Недотоп:
E = 18,0 - 0,08* T
Норма и перетоп:
E = 11,3 + 0,09* T
60.
Дальнейшие результатыИсследованы зависимости расхода
горячей и холодной воды от температуры
теплоносителя в сети Ths
Холодное
водоснабжение:
Vcw = 0,016* Ths
Горячее
водоснабжение:
Vdhw = 0,015* Ths
61.
Дальнейшие результатыОпределены зависимости потребления тепла, и
расхода холодной и горячей воды в зависимости от
температуры теплоносителя в сети, а также
зависимость потребления электроэнергии от
температуры окружающей среды
Потребление тепла:
Q = -1145 + 19* Ths
Расход холодной воды:
Vcw = -4,5+0,086 * Ths
Расход горячей воды:
Vdhw = -4,3+0,076 * Ths
Потребление
электроэнергии:
E = 12,9 - 0,19* Tos
62.
Оценка точности вычислениясредней температуры здания
(оценка репрезентативности выборки)
Рассматривается пятиэтажное жилое
здание с 6 подъездами.
63.
Количество квартир: 79 (в крайнихподъездах по две квартиры на этаже, в
средних подъездах - по три квартиры на
этаже).
Датчики устанавливались в 16
квартирах..
64.
Измерения проводились:на 1, 3, 5 этажах
в 1-м, 3-м и 6-м подъездах
Датчики устанавливались в 2-х квартирах
на каждом этаже.
На третьем этаже первого подъезда и на
пятом этаже шестого подъезда наблюдалось
только по одной квартире.
65.
Данные находятся в файле hc41rt99.sta:66.
Описательный анализ67.
Минимальная температура наблюдается в“крайних” квартирах: на первых этажах
первого подъезда и на пятом этаже шестого
подъезда.
Температура максимальна в третьем
подъезде.
Средняя температура в квартирах
колеблется от 17.1 до 24.7 градусов.
68.
Для того чтобы найти группы квартир сблизкой средней температурой, воспользуемся
кластерным анализом, предварительно
посуточно усреднив данные.
69.
Все квартиры разбились на 2 ярковыраженных кластера:
теплые и холодные квартиры.
70.
В среднем кластеры различаются на 4.6градуса.
Среднее по теплым квартирам равно 23.5
градуса.
Среднее по холодным квартирам равно 19.9
градуса.
71.
Вычислим корреляции между температурамив квартирах.
72.
Из корреляционной матрицы видно, что междувсеми переменными имеется сильная связь.
Особенно сильная связь между переменными
кв_1_1_1 и кв_1_1_2.
73.
Для того, чтобы понять какие квартирынаиболее сильно связаны между собой
воспользуемся кластерным анализом.
74.
Квартиры образуют 4 кластера75.
Зависимость температуры от номераподъезда имеет вид:
Y = 17.64 + 2.87*X – 0.39*X*X (*)
76.
На графике зависимость имеет вид:77.
Используя формулу (*), вычислимсреднюю температуру в зависимости от
номера подъезда:
78.
Тогда средняя температура здания равна:21.8
79.
Средняя температура здания, вычисленнаяпо имеющимся данным, равна: 21.26
80.
Отсюда погрешность не превышает всреднем 0.54 градуса.
Итак, средняя температура здания
оценивается с точностью половина
градуса.