1.19M
Category: informaticsinformatics

Работа с пропусками и выбросами

1.

ЧТО БЫЛО СДЕЛАНО
В рамках проекта:
Проанализирован исходный файл с данными
Проведена работа с пропусками и выбросами
С помощью визуализаций были проверены некоторые гипотезы
Составлена и визуализирована с помощью тепловой карты корреляционная матрица числовых признаков
набора данных
Проведен АВ-тест и проверена гипотеза, что выручка не зависит от пола директора компании
Проведен АВ-тест и проверена гипотеза, что выручка не зависит от города, где расположена компания
Построена модель линейной регрессии, предсказывающая выручку исходя из численности компании
Даны рекомендации на основе полученных результатов

2.

РАБОТА С ПРОПУСКАМИ И ВЫБРОСАМИ
Что было сделано в рамках работы с пропусками и выбросами:
Оставлены необходимые для дальнейшей работы столбцы
Строки с пропусками в столбцах «ОПФ» и «вид деятельности по ОКВЭД» были удалены, т.к.
невозможно было восстановить эти данные по каким-либо критериям
Созданы дополнительно два новых столбца с суммарной выручкой и прибылью за исследуемый период
(2020-2022 гг.) и были оставлены только те компании, у которых имелась выручка за исследуемый
период, т.к. когда показатель выручки принимает нулевое значение, это значит, что бизнес приостановил
свою деятельность: ничего не производит и не оказывает никаких услуг и выявить какой-то «инсайт» по
данной компании при этом невозможно
Удалены нулевые значения в столбце «пол руководителя», а цифра 3 была заменена на 2, т.к. обе цифры
означали, что руководитель женщина. В итоге в столбце осталось два числовых признака для
дальнейшего анализа и вычислений: 1 – мужчина и 2 – женщина
Так же для удобства и вычислений в столбце «размер МСП» значения были заменены на числовые
признаки: 0 – не в МСП, 1 – микро предприятие, 2 – малое предприятие и 3 – среднее предприятие
После этого приступили к поиску «инсайтов» и проверке гипотез

3.

ВИЗУАЛЬНАЯ ПРОВЕРКА ГИПОТЕЗ
Выручка зависит от Господдержки
Выручка зависит от типа МСП
0 – не в МСП
1 – микро предприятие
2 – малое предприятие
3 – среднее предприятие
гипотеза не подтвердилась
гипотеза подтвердилась
Выручка зависит от количества лицензий
гипотеза подтвердилась
Выручка зависит от количества торговых знаков
Связь лицензий и торговых знаков
гипотеза подтвердилась
обратная зависимость

4.

КОРРЕЛЯЦИОННАЯ МАТРИЦА ЧИСЛОВЫХ ПРИЗНАКОВ НАБОРА ДАННЫХ

5.

АВ-ТЕСТ И ПРОВЕРКА ГИПОТЕЗЫ
Имеется ли статистическая разница в выручке в зависимости
от пола руководителя?

6.

АВ-ТЕСТ И ПРОВЕРКА ГИПОТЕЗЫ
Гипотеза Н0: Выручка не зависит от пола руководителя
Гипотеза Н1: Выручка зависит от пола руководителя
Для проверки гипотезы использовался тест Манна-Уитни:
Распределение выручки
С помощью теста
Шапиро-Уилка и
критерия Пирсона была
выполнена проверка
Проверка показала, что нулевая гипотеза не подтвердилась
распределения данных
и статистически выручка компаний зависит от пола
руководителя
Альтернативная проверка гипотезы:
Распределение выручки
Данные были
преобразованы и
выполнен
параметрический тест
(Т-тест Стьюдента)
Альтернативная проверка также не подтвердила нулевую
гипотезу: статистически выручка компаний зависит от пола
руководителя

7.

АВ-ТЕСТ И ПРОВЕРКА ГИПОТЕЗЫ
Имеется ли статистическая разница в выручке компаний из
Москвы и Санкт-Петербурга?

8.

АВ-ТЕСТ И ПРОВЕРКА ГИПОТЕЗЫ
Гипотеза Н0: Компании из Москвы и Санкт-Петербурга не отличаются по выручке
Гипотеза Н1: Компании из Москвы и Санкт-Петербурга отличаются по выручке
Для проверки гипотезы использовался тест Манна-Уитни:
Распределение выручки
- Москва
- С-Пб
С помощью теста
Шапиро-Уилка и
критерия Пирсона была
выполнена проверка
распределения данных
Проверка показала, что нулевая гипотеза подтвердилась и
статистически выручки компаний из Москвы и СанктПетербурга не отличаются
Альтернативная проверка гипотезы:
Распределение выручки
- Москва
- С-Пб
Данные были
преобразованы и
выполнен
параметрический тест
(Т-тест Стьюдента)
Альтернативная проверка также подтвердила нулевую
гипотезу: статистически выручки компаний из Москвы и
Санкт-Петербурга не отличаются

9.

МОДЕЛЬ ЛИНЕЙНОЙ РЕГРЕССИИ
Зависимость выручки от численности
Зависимость выручки от численности
Этапы построения модели:
Коэффициент корреляции Пирсона составил 0,5552, а
двустороннее значение р – 0,000. Поскольку значение
р меньше 0,05, можно сделать вывод что существует
статистически значимая корреляция между двумя
признаками
1.
Рассчитан коэффициент корреляции
Пирсона
2.
Определена «численность компании» как
признак Х, а выручка – как целевая
переменная
3.
Выборка была разделена на тестовую и
тренировочную
4.
Построена модель линейной регрессии
5.
Выполнена оценка модели:
Модель можно использовать для прогнозирования
выручки компании исходя из ее численности
Построена модель линейной регрессии, предсказывающая выручку исходя из численности компании

10.

ОСНОВНЫЕ РЕКОМЕНДАЦИИ НА ОСНОВЕ РЕЗУЛЬТАТОВ
Выявленный «инсайт»
Как можно с этим работать
Существует статистическая разница в выручке в
зависимости от пола руководителя. При этом
визуально, на графике, выручка компаний, в
которых руководитель женщина, меньше, чем в
компаниях, где руководитель мужчина
Создать курс по бизнесу и управлению
предприятием ориентированный на женскую
половину, предназначенный для женщиндиректоров и выйти с ним в те регионы и
отрасли, где высокая доля женщин-директоров
Статистически выручки компаний из Москвы и
Санкт-Петербурга не отличаются
Оставить шумную Москву и переехать в более
спокойный Санкт-Петербург и наслаждаться
размеренной жизнью в провинции получая ту же
выручку от своего бизнеса))
Модель линейной регрессии, предсказывающая
выручку исходя из численности компании
Модель можно использовать аналитикам,
конкурентам, либо кредиторам при прогнозе
будущей выручки имея ограниченные сведения о
компании (только данные по штату и выручке за
трехлетний период)
English     Русский Rules