Similar presentations:
Основы машинного обучения. Python для анализа данных
1.
Итоговая работаТема 3: Основы машинного обучения.
Python для анализа данных
Газизов К.Р.
2.
Цель и задачиЦель работы - анализ набора данных о самых
высокооплачиваемых спортсменах по мнению
Forbes с 1990 г. по 2020 г. и вынесение из того
выводов.
Для достижения данной цели
выполнить следующие задачи:
1.
2.
3.
4.
5.
необходимо
Первичный анализ данных на целостность,
наличие пропусков и ошибок.
Исправление и (или) удаление ненужных
данных.
Анализ распределения данных в наборе.
Выдвижение гипотез, проверка с помощью
визуальных инструментов Python.
Вынесение выводов относительно
поставленных гипотез и набора данных в
целом.
3.
Исследованиетемы
На тему анализа данных и машинного
обучения с помощью Python написано
достаточно
много
литературы.
Вот
несколько примеров:
1. “Python и анализ данных”, Уэс
Маккинни;
2. “Построение систем машинного
обучения на языке Python”, Коэлью
П.Л., Ричарт В.;
3. “Предварительная подготовка данных
с помощью Python”, Груздев А.В.;
4. “Байесовские модели”, Дауни А.Б.;
5. “Изучаем pandas”, Груздев А.В., Хейдт
М.
4.
Сложностианализа данных с
помощью Python
Python - один из самых популярных языков для
решения задач по анализу данных и машинному
обучению, но он не идеален. Вот несколько его
ограничений:
Медленная
производительность
в
сравнении с другими языками, такими как
Java или С++;
Отсутствует стандартизированная система
разработки, а от этого - проблемы
совместимости в различных системах;
Необходимость
дополнительной
оптимизации
кода
ради
повышения
производительности
и
минимизации
ошибок.
5.
Решения проблемВот несколько решений озвученных ранее
проблем:
1.
2.
Частые обновления кода. Поддерживаемый
всем сообществом, Python обновляется куда
чаще многих других языков, например, C++,
а с добавлением новых функций и
возможностей облегчается и оптимизация
кода.
Возможность создание библиотек и
использование уже существующих
открытых. Под любую задачу можно найти
библиотеку или же создать свою
собственную и предложить сообществу для
доработки и распространения.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
ВыводыОтносительно датасета:
Датасет изначально неравномерно распределен
(не только между странами, но и внутри стран),
вследствие чего при выдвижении гипотез нужно
соблюдать
некоторые
условия.
Например,
американцев сравнивать преимущественно с
американцами,
а
хоккеистов
только
со
спортсменами 90-ых годов.
Относительно
анализа
Python
для
визуализации
Python обладает широким набором инструментов
для визуализации анализа данных, однако в
сравнении со специально предназначенными для
того приложениями он несколько уступает.