Similar presentations:
Прогнозирование вероятности просрочки платежа
1.
Прогнозированиевероятности просрочки
платежа
Разработка модели логистической регрессии
для прогнозирования
вероятности просрочки платежа клиентом.
2.
1. ВведениеЦель проекта: Разработка модели для прогнозирования
вероятности просрочки платежа клиентом на основе данных о займах.
Задачи:
- Предобработка данных.
- Обучение модели логистической регрессии.
- Валидация модели и оценка её качества.
Используемые технологии: Python, Apache Airflow, Pandas, Scikit-learn.
3.
2. Предобработкаданных
Цель этапа: Подготовить данные для обучения модели, устранив пропуски,
кодируя категориальные переменные и масштабируя числовые признаки.
Шаги предобработки:
- Удаление ненужных столбцов.
- Заполнение пропущенных значений:
- Для числовых столбцов пропуски заполняются медианой.
- Для категориальных столбцов пропуски заполняются модой.
- Кодирование категориальных переменных:
- Для столбцов с небольшим количеством уникальных значений (<10)
используется LabelEncoder.
- Для столбцов с большим количеством уникальных значений применяется
one-hot encoding.
- Масштабирование данных с помощью StandardScaler.
- Выбор признаков с использованием SelectKBest и mutual_info_classif.
Итог: Получен очищенный и подготовленный набор данных.
4.
3. Обучение моделиЦель этапа: Обучить модель логистической регрессии для прогнозирования
вероятности просрочки платежа.
Шаги обучения:
- Разделение данных на обучающую и тестовую выборки (80% — обучение, 20% —
тестирование).
- Подбор гиперпараметров с RandomizedSearchCV:
- C (регуляризация): Логарифмический масштаб от 10^-4 до 10^4.
- solver: liblinear, saga.
- penalty: l1, l2.
- Обучение модели с лучшими гиперпараметрами.
- Сохранение модели с помощью joblib.
Итог: Получена обученная модель, готовая к тестированию.
5.
4. Валидация результатовЦель этапа: Оценить качество модели на тестовых данных и убедиться, ч
то она хорошо обобщает данные.
Шаги валидации:
- Загрузка модели и тестовых данных.
- Прогнозирование целевой переменной.
- Оценка качества модели:
- Accuracy (точность).
- Classification Report (Precision, Recall, F1-score).
- Анализ ошибок.
Итог: Модель протестирована, результаты показывают её эффективность.
6.
5. Используемые методыи
инструменты
Предобработка данных:
- pandas для работы с данными.
- LabelEncoder и pd.get_dummies для кодирования.
- StandardScaler для масштабирования.
- SelectKBest для выбора признаков.
Обучение модели:
- LogisticRegression.
- RandomizedSearchCV.
- train_test_split для разделения данных.
Валидация:
- accuracy_score и classification_report.
- joblib для сохранения модели.
7.
6. ЗаключениеИтоги проекта:
- Данные успешно предобработаны и подготовлены.
- Модель логистической регрессии обучена с оптимальными гиперпараметрами.
- Качество модели оценено, показаны метрики точности и классификации.
finance