861.93K
Category: managementmanagement

Пример отчета о выполнении проекта

1.

Пример отчета о
выполнении проекта

2.

Описание набора данных
Данные описывают экономические условия в 48 городах мира в 1991 году. Данные были собраны отделом экономических
исследований банка Union (Швейцария).
Описание данных
Признак
Описание
City
Название города
Work
Взвешенное среднее числа рабочих часов, рассчитанное по
12 профессиям
Price
Индекс цен 112 товаров и услуг, включая арендную плату за
жилье (значение для Цюриха взято за 100%)
Salary
Индекс заработной платы за час работы, посчитанный по 12
профессиям после взятия налогов и вычетов (значение для
Цюриха взято за 100%)

3.

Предварительная обработка данных
Создадим проект, загрузим интересующий нас набор данных, импортируем
данные в проект и взглянем на них

4.

Предварительная обработка данных
Видно, что некоторые значения какие-то странные (сильно отличаются от
остальных, к тому же отрицательны)

5.

Предварительная обработка данных
Будем считать эти значения выбросами. Исключим их из набора данных

6.

Предварительная обработка данных
Произведем линейную нормировку признаков Work, Price, Salary

7.

Предварительная обработка данных
Приглядимся к самим данным

8.

Предварительная обработка данных
Можно предположить некоторую линейную зависимость предикторов Price и
Salary. Построим матрицу корреляций. Коэффициент корреляции для этих
признаков больше 0.8 — действительно, эти предикторы в какой-то мере
линейно-зависимы.

9.

Постановка задачи и построение модели
Наша задача — выяснить, могут ли предложенные данные быть разбиты каким-то образом на группы (кластеризованы), и, в
случае утвердительного ответа, определить смысл полученных групп.
С учетом обнаруженного, можно попробовать предложить количество кластеров, основываясь на следующих двух графиках
Визуально на обоих графиках можно выделить от трех до пяти кластеров.

10.

Постановка задачи и построение модели
Произведем по пять запусков для каждого варианта числа кластеров и доверим MS Azure подбор лучшего
варианта

11.

Постановка задачи и построение модели
MS Azure считает наиболее оптимальным использование пяти кластеров (наибольшее значение
параметра Cluster Metric), однако случаи трех и четырех кластеров тоже имеют право на жизнь

12.

Постановка задачи и построение модели
Отберем только нужные столбцы и вычислим средние значения признаков в рамках каждого кластера

13.

Оценка модели и результатов
Вся модель выглядит следующим образом

14.

Оценка модели и результатов
Попробуем интерпретировать результаты
0 – Города с низким уровнем экономики и достаточно
высоким количеством рабочих часов
1 – Города с относительно неплохим уровнем экономики и
достаточно низким количеством рабочих часов
2 – Города, в которых рабочий день достаточно короток,
зарплаты на хорошем уровне, высокие цены
3 – Города, в которых количество рабочих часов очень
велико, уровень экономики — низкий
4 – Города, в которых среднее количество рабочих часов,
уровень экономики — высокий
English     Русский Rules