Увеличения точности прогнозирования событий на Титанике
Блок импорта библиотек
Блок импорта данных
Представление данных
Заполнение столбца AGE
Проверка заполнения столбца места отправления «Embarked»
Проверка зависимости места отправки от пола
Заполнение пустых ячеек в столбце Места отправки
Проверка заполнения столбца пассажирской оплаты «Fare»
Проверка пустых ячеек
Исключаем из фрейма данных столбцы которые не имеют информативности
Для повышения эффективности прогноза представим столбцы Пола и места отправки в виде 0 и 1 в исследуемом исходном коде днанная
Проведем корреляционный анализ
Производим выбор столбцов для обучения и тестирования системы
Проводим проверку метрики при помощи различных алгоритмов машинного обучения
Производим выбор наилучшего алгоритма для прогноза и получаем выходной файл с прогнозом
Конечная метрика в Kaggle
680.34K
Category: programmingprogramming

Увеличения точности прогнозирования событий на Титанике

1. Увеличения точности прогнозирования событий на Титанике

За основной код был выбран:
https://www.kaggle.com/code/atulad7535/titanic-project/notebook
Автор:

2. Блок импорта библиотек

• В исследуемом коде были
• Данную часть кода оставляем
выбраны основные библиотеки
без изменений

3. Блок импорта данных

• В данном блоке импортируются файлы для обучения и
тестирования системы, а также эти данные объединяются в один
фрейм данных для удобной работы с отсутствующими данными.

4. Представление данных

Отобразим данные при помощи команды head(), и определим
количество заполненных ячеек в столбцах при помощи команды
info() и isna().sum().

5. Заполнение столбца AGE

При помощи команды fillna() в строке возраста заполняем пустые
строки (NaN) средневзвешенным значением:
Получаем заполненные ячейки средним значением между Полом и
Классом пассажира

6. Проверка заполнения столбца места отправления «Embarked»

7. Проверка зависимости места отправки от пола

• Наиболее распространённое место отправки для женщин и мужчин
является «S» Саутге́мптон

8. Заполнение пустых ячеек в столбце Места отправки

• Заполняем место отправки самым распространенным

9. Проверка заполнения столбца пассажирской оплаты «Fare»

• И заполняем средним значением по 3 Pclass’у для нашего пустого
значения

10. Проверка пустых ячеек

11. Исключаем из фрейма данных столбцы которые не имеют информативности

12. Для повышения эффективности прогноза представим столбцы Пола и места отправки в виде 0 и 1 в исследуемом исходном коде днанная

процедура не выполнялась

13. Проведем корреляционный анализ

• Определяем что столбцы "Pclass", "Fare", "Sex_female", "Sex_male",
"Embarked_C", "Embarked_Q", "Embarked_S” имеют зависимость с
Survived

14. Производим выбор столбцов для обучения и тестирования системы

• В примере не был произведен
корреляционный анализ и
выраны лишь столбцы
"Pclass", "Age "
• После проведения корреляции
определены столбцы которые
добавлены в обучающую и
тестовые выборки

15. Проводим проверку метрики при помощи различных алгоритмов машинного обучения

• Разница в наилучшем результате более 7 процентов

16. Производим выбор наилучшего алгоритма для прогноза и получаем выходной файл с прогнозом

• В примере был выбран алгоритм случайного леса в моем случае
выбрано дерево решений

17. Конечная метрика в Kaggle

English     Русский Rules