Similar presentations:
Увеличения точности прогнозирования событий на Титанике
1. Увеличения точности прогнозирования событий на Титанике
За основной код был выбран:https://www.kaggle.com/code/atulad7535/titanic-project/notebook
Автор:
2. Блок импорта библиотек
• В исследуемом коде были• Данную часть кода оставляем
выбраны основные библиотеки
без изменений
3. Блок импорта данных
• В данном блоке импортируются файлы для обучения итестирования системы, а также эти данные объединяются в один
фрейм данных для удобной работы с отсутствующими данными.
4. Представление данных
Отобразим данные при помощи команды head(), и определимколичество заполненных ячеек в столбцах при помощи команды
info() и isna().sum().
5. Заполнение столбца AGE
При помощи команды fillna() в строке возраста заполняем пустыестроки (NaN) средневзвешенным значением:
Получаем заполненные ячейки средним значением между Полом и
Классом пассажира
6. Проверка заполнения столбца места отправления «Embarked»
7. Проверка зависимости места отправки от пола
• Наиболее распространённое место отправки для женщин и мужчинявляется «S» Саутге́мптон
8. Заполнение пустых ячеек в столбце Места отправки
• Заполняем место отправки самым распространенным9. Проверка заполнения столбца пассажирской оплаты «Fare»
• И заполняем средним значением по 3 Pclass’у для нашего пустогозначения
10. Проверка пустых ячеек
11. Исключаем из фрейма данных столбцы которые не имеют информативности
12. Для повышения эффективности прогноза представим столбцы Пола и места отправки в виде 0 и 1 в исследуемом исходном коде днанная
процедура не выполнялась13. Проведем корреляционный анализ
• Определяем что столбцы "Pclass", "Fare", "Sex_female", "Sex_male","Embarked_C", "Embarked_Q", "Embarked_S” имеют зависимость с
Survived
14. Производим выбор столбцов для обучения и тестирования системы
• В примере не был произведенкорреляционный анализ и
выраны лишь столбцы
"Pclass", "Age "
• После проведения корреляции
определены столбцы которые
добавлены в обучающую и
тестовые выборки
15. Проводим проверку метрики при помощи различных алгоритмов машинного обучения
• Разница в наилучшем результате более 7 процентов16. Производим выбор наилучшего алгоритма для прогноза и получаем выходной файл с прогнозом
• В примере был выбран алгоритм случайного леса в моем случаевыбрано дерево решений