164.96K
Categories: marketingmarketing internetinternet

Вводная встреча (Вебинар по снятию запроса). Проект: Прогнозирование оттока клиентов

1.

Вводная встреча
(Вебинар по снятию запроса)
Доменная область:
«Телеком»
Проект: Прогнозирование оттока клиентов
Чих Светлана
DA/DS ревьюер
тимлид DA/DS финального спринта

2.

Наши
договоренности
можно на «ты»
понятное имя и фамилия
одновременно работает 1 микрофон
уважительное отношение друг к другу
глупых вопросов не бывает

3.

Проработка запроса
Зачем?
Не всегда задача сформулирована чётко и исчерпывающе. Чтобы
решить её самостоятельно, нужно собрать больше информации.
Привыкните к тому, что это на вашей ответственности.

4.

Проработка запроса
1. Уточните, кто конечный «заказчик» результата.
2. Выясните, зачем нужен результат вашей работы.
3. Уточните все параметры, которые хочет знать заказчик задачи.
Нет ли подводных камней?
4. Проговорите и зафиксируйте образ идеального конечного результата.
5. Набросайте прототип решения (план) — и сверьтесь с заказчиком, подойдёт ли оно?
6. Предоставьте заказчику конечный результат (тетрадка / отчет).

5.

Описание задачи
Оператор связи «Ниединогоразрыва.ком» хочет научиться прогнозировать отток
клиентов. Если выяснится, что пользователь планирует уйти, ему будут предложены
промокоды и специальные условия. Команда оператора собрала персональные
данные о некоторых клиентах, информацию об их тарифах и договорах.
Оператор предоставляет два основных типа услуг:
Стационарную телефонную связь. Возможно подключение телефонного аппарата к
нескольким линиям одновременно.
Интернет. Подключение может быть двух типов: через телефонную линию (DSL) или
оптоволоконный кабель (Fiber optic).
Также доступны такие услуги:
Интернет-безопасность: антивирус (DeviceProtection) и блокировка небезопасных
сайтов (OnlineSecurity);
Выделенная линия технической поддержки (TechSupport);
Облачное хранилище файлов для резервного копирования данных (OnlineBackup);
Стриминговое телевидение (StreamingTV) и каталог фильмов (StreamingMovies).
За услуги клиенты могут платить каждый месяц или заключить договор на 1–2 года.
Доступны различные способы расчёта и возможность получения электронного чека.

6.

Описание данных
Данные состоят из файлов, полученных из разных источников:
contract_new.csv — информация о договоре;
personal_new.csv — персональные данные клиента;
internet_new.csv — информация об интернет-услугах;
phone_new.csv — информация об услугах телефонии.
Во всех файлах столбец customerID содержит код клиента.
Информация о договорах актуальна на 1 февраля 2020.

7.

• В некоторых файлах есть не все клиенты, что это значит?
В файлах internet.csv и phone.csv информация о некоторых клиентах может
отсутствовать — это значит, что клиент соответствующими услугами не
пользуется.
• В данных есть пропуски, что делать?
Это ошибки заполнения данных, используйте методы борьбы с пропусками на
своё усмотрение.
• Про некоторые данные непонятно, как их использовать (непонятно, как
превратить в признаки)
Не все данные из приведённых обязательно использовать.

8.

Данные
• BeginDate – дата начала пользования услугами,
• EndDate – дата окончания пользования услугами,
• Type – тип оплаты: ежемесячный, годовой и тд,
• PaperlessBilling – электронный платёжный документ,
• PaymentMethod – способ оплаты,
• MonthlyCharges – ежемесячные траты на услуги,
• TotalCharges – всего потрачено денег на услуги
• Dependents – наличие иждивенцев
• Senior Citizen – наличие пенсионного статуса по возрасту
• Partner – наличие супруга(и)
• MultipleLines – наличие возможности ведения параллельных линий во время звонка

9.

• Проект должен начинаться с названия и описания
• Если нет вопросов, в первой части проекта нужно написать, что вопросов нет, иначе проект
будет возвращён для получения вопросов
• Если в любом из датафремов или объединённом датафрейме происходят какие-то
изменения, мы ожидаем увидеть результаты этих действий
• Для объединённого датафрейма необходимо визуализировать распределение признаков.
• Стоит сделать корреляционный анализ.
• При разделении на выборки test_size=0.25 (деление на две выборки).
• Лучшую модель выбираем по метрике на кросс-валидации.
• Необходимо использовать как минимум две модели и хотя бы для одной из них подобрать
как минимум два гиперпараметра.

10.

• Качество выбранной модели проверяем на тестовой выборке (одной лучшей модели, не
всех, мы не меняем выбор, если у другой модели на тесте качество получилось лучше).
• Метрика roc_auc не чувствительна к дисбалансу классов, балансировать не нужно.
• Необходимо посмотреть важность признаков.
• Необходимо посмотреть accuracy (для интерпретируемости).
• Можно выполнить графический анализ «Матрица ошибок» с выведенными полнотой и
точностью на график.
• Первая часть проекта — это план + анализ данных ДО объединения таблиц в одну.
• Вторая часть проекта — это предобработка, объединение в общий датафрейм и его анализ.
В этом же проекте идёт машинное обучение.
• Третья часть проекта — отчёт. В отчёте ожидаются ответы на вопросы задания +
перечисление признаков, использованных для обучения, описание их предобработки +
гиперпараметры лучшей модели. Отчёт должен быть таким, чтобы по нему можно было
воспроизвести проект, не смотря в код.

11.

• Минимальный порог для успешной сдачи : AUC-ROC=0.85
• При делении на выборки соотношение тренировочной к тестовой = 3/1
RANDOM_STATE = 170723

12.

Чего не стоит делать
• Ориентироваться на готовые решения из сети
• Слишком формально подходить к плану
• Заполнять или не заполнять пропуски без исследования их природы
• Затягивать сроки

13.

Вопросы
• Если что-то осталось непонятным — самое время спросить!

14.

Финальный спринт

15.

Удачи!
English     Русский Rules