Прогнозирование вероятности просрочки платежа

1.

Прогнозирование
вероятности просрочки
платежа
Разработка модели логистической регрессии
для прогнозирования
вероятности просрочки платежа клиентом.

1. Введение
Цель проекта: Разработка модели для прогнозирования
вероятности просрочки платежа клиентом на основе данных о займах.
Задачи:
- Предобработка данных.
- Обучение модели логистической регрессии.
- Валидация модели и оценка её качества.
Используемые технологии: Python, Apache Airflow, Pandas, Scikit-learn.

3.

2. Предобработка
данных
Цель этапа: Подготовить данные для обучения модели, устранив пропуски,
кодируя категориальные переменные и масштабируя числовые признаки.
Шаги предобработки:
- Удаление ненужных столбцов.
- Заполнение пропущенных значений:
- Для числовых столбцов пропуски заполняются медианой.
- Для категориальных столбцов пропуски заполняются модой.
- Кодирование категориальных переменных:
- Для столбцов с небольшим количеством уникальных значений (<10)
используется LabelEncoder.
- Для столбцов с большим количеством уникальных значений применяется
one-hot encoding.
- Масштабирование данных с помощью StandardScaler.
- Выбор признаков с использованием SelectKBest и mutual_info_classif.
Итог: Получен очищенный и подготовленный набор данных.

4.

3. Обучение модели
Цель этапа: Обучить модель логистической регрессии для прогнозирования
вероятности просрочки платежа.
Шаги обучения:
- Разделение данных на обучающую и тестовую выборки (80% — обучение, 20% —
тестирование).
- Подбор гиперпараметров с RandomizedSearchCV:
- C (регуляризация): Логарифмический масштаб от 10^-4 до 10^4.
- solver: liblinear, saga.
- penalty: l1, l2.
- Обучение модели с лучшими гиперпараметрами.
- Сохранение модели с помощью joblib.
Итог: Получена обученная модель, готовая к тестированию.

5.

4. Валидация результатов
Цель этапа: Оценить качество модели на тестовых данных и убедиться, ч
то она хорошо обобщает данные.
Шаги валидации:
- Загрузка модели и тестовых данных.
- Прогнозирование целевой переменной.
- Оценка качества модели:
- Accuracy (точность).
- Classification Report (Precision, Recall, F1-score).
- Анализ ошибок.
Итог: Модель протестирована, результаты показывают её эффективность.

6.

5. Используемые методы
и
инструменты
Предобработка данных:
- pandas для работы с данными.
- LabelEncoder и pd.get_dummies для кодирования.
- StandardScaler для масштабирования.
- SelectKBest для выбора признаков.
Обучение модели:
- LogisticRegression.
- RandomizedSearchCV.
- train_test_split для разделения данных.
Валидация:
- accuracy_score и classification_report.
- joblib для сохранения модели.

7.

6. Заключение
Итоги проекта:
- Данные успешно предобработаны и подготовлены.
- Модель логистической регрессии обучена с оптимальными гиперпараметрами.
- Качество модели оценено, показаны метрики точности и классификации.

English Русский Rules