125.79K
Category: programmingprogramming

Python для интеллектуального анализа данных

1.

ПРЕЗЕНТАЦИЯ КУРСА (ИОТ)
PYTHON ДЛЯ
ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА
ДАННЫХ
2 курс 4 семестр
ИРИТ-РТФ

2.

Описание
Python — один из самых популярных языков
программирования на сегодняшний день, а
инструментарий Data Science (интеллектуального
анализа данных) применяется все в новых и новых
сферах экономики, производства и повседневной
жизни. И так как, на данный момент, подавляющее
число решения Data Science создается на Python, то
в рамках курса мы рассмотрим применение именно
этого языка программирования и его ключевых
библиотек для решения задач интеллектуального
анализа данных и построение моделей машинного
обучения.

3.

Описание
Будут рассмотрены темы разведывательного анализа
данных, очистки и предварительной обработки
данных, инженерии признаков, отбора признаков,
построения моделей машинного обучения с учителем
и без учителя, а так же изучены различные метрики
качества и методы валидации и отбора лучших
моделей. Получаемые навыки будут закрепляться как
на учебных проектах, так и на реальных задачах,
выкладываемых различными организациями на
платформе Kaggle.com.

4.

Описание
В рамках курса будет разобран ряд кейсов на разные типы задач из сферы
интеллектуального анализа данных, а так же самостоятельно:
• решен кейс разведывательного анализа дынных (визуализация данных,
исследование базовых статистик по группам и совместно);
• перед построением всех моделей проведены базовые этапы очистки и
предварительной обработки данных, а так же инженерии и отбора признаков;
• построена модель классификации;
• построена модель регрессии;
• построена модель кластеризации;
• проведена валидация качества всех моделей.
• При решении поставленных задач будет использован следующий
инструментарий: pandas, numpy, scikit-learn, scipy, seaborn, matplotlib, plotly.

5.

Реализуемая технология
Традиционная (онлайн)
• Лекции и практические задания проводятся в традиционном
(возможно онлайн) формате.

6.

Структура курса
• продолжительность курса - 1 семестр
• аттестация – зачет
• лимит 30 человек (1 команда)

7.

Требования для поступления
на курс
• знание Python 3 на базовом уровне;
• знание основ работы с системами контроля версий (git)
• желательно базовое понимание математической статистики
(среднее, дисперсия, корреляция) и линейной алгебры
(вектор, матрица и базовые операции с ними).

8.

Программа курса
1.Методология CRISP-DM. Прикладные задачи решаемые специалистами по анализу данных.
Библиотеки Python для анализа данных и машинного обучения
2.Numpy. Оптимизированные векторные вычисления
3.Scipy. Статистические исследования
4.Matplotlib, seaborn, plotly. Визуальный анализ данных
5.Pandas. Форматы данных, особенности считывания и записи данных, отображение данных,
индексы, срезы, Series, DataFrame
6.Pandas. Преобразование данных, фильтрация, агрегация, обработка пропусков в данных,
статистические методы
7.Pandas. Работа с категориальными данными, работа с временными признаками, мульти
индексы, оптимизация данных и вычислений, работа с большими объёмами данных
8.Проект «Разведывательный анализ данных»
9.Задачи машинного обучения. Инструменты решения задач машинного обучения

9.

Программа курса
11. Scikit-learn. Регрессия
12.Scikit-learn. Кластеризация
13.Scikit-learn. Снижение размерности
14.Scikit-learn. Предварительная обработка данных
15.Scikit-learn. Автоматический отбор признаков
16.Scikit-learn. Оценка и выбор моделей машинного обучения
17.Проект «Решение прикладной задачи машинного обучения

10.

Результат курса
Пример готового проекта по окончанию курса - Веб-сервис “Аукционная Площадка” в
составе сборки из приложений:
Backend на Python с асинхронной обработкой JSONRPC запросов
Frontend для общения с Backend по API
Панель администратора, работающая по протоколу REST
База данных PostgreSQL
Интеграция с Redis в качестве сессионного хранилища
Асинхронная общение с брокером сообщений RabbitMQ (если используется)
Обработка сообщений из внешних источников
Требования к построению архитектуры приложения:
Весь исходный код хранится в репозитории на Github/Gitlab/Pornhub
Код покрыт тестами
Приложения завернуты в Docker, сборка приложений запускается в docker-compose
Прогон тестов и сборка новой версии приложения осуществляется через CI/CD

11.

Требования к проектам
• весь исходный код храниться в репозитории;
• код хранится в виде рабочих блокнотов jupyter;
• для всех проектов связанных с моделями машинного обучения проведены все
изученные этапы: визуализация данных, изучение базовых статистик, очистка
данных, заполнение пропущенных данных, предварительная обработка
признаков, отбор признаков, применено несколько моделей машинного
обучения и проведено обоснование выбора лучшей из них на основе
указанной метрики качества.

12.

СПАСИБО ЗА ВНИМАНИЕ!
English     Русский Rules