Similar presentations:
Программа профессиональной переподготовки
1.
Программа Профессиональной ПереподготовкиАналитик данных: с нуля до разработки прикладных решений для
бизнеса
Итоговый проект
Создание модели для прогнозирования
стоимости квартиры
Выполнил: Радюк Екатерина Викторовна
Номер потока: ДА-808
Преподаватель: Астапов Павел
Евгеньевич
2.
Постановка задачи:Разработка алгоритма моделирования стоимости
квартиры на основе известных параметров с
помощью языка программирования Python.
3.
Исходные данные:- Подключение необходимых
библиотек
- Чтение файла
4.
Предобработка данных- Уменьшение размерности
данных
- Удаление полных
дубликатов
- Удаление строк с пустыми
значениями
5.
Одномерный анализРис.1. Гистограмма по столбцу «Стоимость» (таргетный)
6.
Одномерный анализРис.2. Гистограмма по столбцу «Общая площадь»
7.
Одномерный анализРис.3. Гистограмма по столбцу «Количество комнат»
8.
Одномерный анализРис.4. Гистограмма по столбцу «Расстояние до ближайшего парка»
9.
Двумерный анализРис.5. Корреляционная матрица
10.
Двумерный анализМультиколлинеарные признаки (по корреляционной матрице):
# общая площадь и жилая площадь, площадь кухни и количество комнат;
# расстояние до центра города и расстояние до ближайшего аэропорта;
# наличие балкона ,высота потолков, общее количество этажей, этаж и
отметка о том, что квартира является аппартаментами;
# расстояние до парков и число парков в радиусе 3км и др.
11.
Двумерный анализСоздание тренировочной модели
12.
Двумерный анализ• Получили коэффициенты зависимости «Стоимости» от каждого из
признаков;
• Коэффициент детерминации для тренировочных - 0,52
• Коэффициент детерминации для тестовых - 0,42
! Модель нуждается в усовершенствовании
• Так как модель требует усовершенствования, эти коэффициенты для
записи формулы на данном этапе не применимы.
13.
Двумерный анализ• За счет перевода Стоимости в
логарифмы, увеличили точность
модели.
• Коэффициент детерминации для
тренировочных - 0,75
• Коэффициент детерминации для
тестовых - 0,6
Рис.6. Гистограмма по столбцу «Стоимость», нивелированная log
14.
Двумерный анализПо значению p-value<0,005
не попадают в интервал следующие признаки:
floor,
kitchen_area,
parks_around3000,
ponds_nearest,
под сомнением airports_nearest
15.
Двумерный анализУсовершенствование модели, за счет удаления
мультиколлинеарных признаков
Каждый мультиколлинеарный признак удаляется постепенно:
до тех пор, пока снижается BIC и сохраняется точность
модели
16.
Коэффициенты для признаков17.
Двумерный анализОшибка не имеет
закономерностей модель эффективна.
Рис.7. Среднеквадратическая ошибка
18.
Двумерный анализРаспределение ошибки
имеет нормальное
распределение – модель
эффективна
Рис.8. Гистограмма распределения ошибки
19.
Формула расчета стоимости20.
Результаты и выводы:+ Основными признаками, влияющими на увеличение ↑ стоимости
квартир являются:
# Увеличение общей площадь, увеличение количества комнат, наличие
балкона, увеличение числа водоёмов в радиусе 3 км, увеличение высоты
потолков, увеличение общей этажности здания.
- Основными признаками, влияющими на снижение ↓ стоимости квартир
являются:
# Наличие статуса квартиры - «аппартамены», увеличение жилой площади.
21.
Благодарюза внимание!