Similar presentations:
Обсуждение: Как извлечь из датасета скрытые данные? Модуль 3. Урок 3. Очистка данных. Feature engineering
1.
Модуль 3. Урок 3. Очистка данных. Feature engineeringОбсуждение:
Как извлечь из датасета
скрытые данные?
2.
ОбсуждениеРассмотрим DataFrame с данными для
продажи квартир конкретного дома.
3.
ЭтажГод
постройки
Длина в
метрах
Ширина в
метрах
Стоимость в
долларах
1
2010
13.2
3.1
26920
1
2008
10.6
4.9
37688
2
2015
18.3
2.2
25400
...
...
...
...
Обсуждение
DataFrame «Недвижимость»
4.
Можно ли это сделать с помощьюимеющихся данных?
Обсуждение
Необходимо исследовать DataFrame и
выявить факторы, которые влияют на
цену недвижимости.
5.
Что можно сделать с DataFrame, чтобыработать с ним стало удобнее?
Обсуждение
Мы привыкли соотносить стоимость с
площадью недвижимости, а не с её
длиной и шириной.
6.
Добавим в DataFrame столбец«Площадь в кв. м»
Этаж
Год
постройки
Длина в
метрах
Ширина в
метрах
Площадь в
кв. м
Стоимость в
долларах
1
2010
13.2
3.1
40.92
26920
1
2008
10.6
4.9
51.94
37688
2
2015
18.3
2.2
40.26
25400
...
...
...
...
...
Обсуждение
Этот столбец будет вычисляться на основании данных двух
других столбцов.
7.
ОбсуждениеТакой подход называется генерацией
новых признаков или Feature
engineering.
8.
Модуль 3. Урок 3. Очистка данных. Feature engineeringНовая тема:
Feature engineering
9.
Как это сделать?Feature engineering
Вычислим, сколько долларов
разработчики заработали на каждом
платном приложении.
10.
Создадим столбец Profitdf['Profit'] = df['Installs'] * df['Price']
Имя нового
столбца
Арифметическое действие
со столбцами
Feature engineering
Перемножим количество установок ('Installs') и цену
за одно приложение ('Price').
11.
AppCategory
Rating
Reviews
Size
Installs
Type
Price
Content
Rating
Genres
Last
Updated
Current
Ver
Android
Ver
0
Photo
Editor &
Candy
Camera
& Grid &
ScrapBo
ok
ART_AND_
DESIGN
4.1
159
119M
10,000+
Free
0
Everyone
Art &
Design
January 7,
2018
1.0.0
4.0.3 and
up
1
Coloring
book
moana
ART_AND_
DESIGN
3.9
967
14M
500,000+
Free
0
Everyone
Art &
Design;
Pretend
Play
January
15, 2018
2.0.0
4.0.3 and
up
Feature engineering
Количество жанров для всех приложений
одинаковое?
12.
AppCategory
Rating
Reviews
Size
Installs
Type
Price
Content
Rating
Genres
Last
Updated
Current
Ver
Android
Ver
0
Photo
Editor &
Candy
Camera
& Grid &
ScrapBo
ok
ART_AND_
DESIGN
4.1
159
119M
10,000+
Free
0
Everyone
Art &
Design
January 7,
2018
1.0.0
4.0.3 and
up
1
Coloring
book
moana
ART_AND_
DESIGN
3.9
967
14M
500,000+
Free
0
Everyone
Art &
Design;
Pretend
Play
January
15, 2018
2.0.0
4.0.3 and
up
Если жанров
несколько, то они
разделены ';'
Feature engineering
Количество жанров
13.
И какую гипотезу можно проверить наосновании новой категории?
Feature engineering
Какую новую категорию можно создать
на основании столбца с жанрами?
14.
Гипотеза: чем больше количествожанров, тем популярнее приложение
(больше рейтинг и количество установок).
Feature engineering
Новая категория: количество жанров.
15.
Как посчитать количество жанров?Значение — это
object (текст)
Feature engineering
Art & Design;Pretend Play
16.
Какую структуру мы будемиспользовать?
Feature engineering
Необходимо сохранить все жанры
одного приложения в какую-то
структуру, а потом посчитать её длину.
17.
Список — это структура данных, котораясодержит упорядоченный набор
элементов.
Feature engineering
Количество жанров
18.
Feature engineeringПри помощи какого метода можно
преобразовать строку в список?
19.
Метод split()s = 'Art & Design;Pretend Play'
s = s.split()
Результат: ['Art', '&', 'Design;Pretend', 'Play']
Какой параметр необходимо указать, чтобы разделить
элементы по ';'?
Feature engineering
Если не задать значения параметров метода, строка будет
разделена по пробелам.
20.
Метод split()s = s.split(';')
Результат: ['Art & Design', 'Pretend Play']
Feature engineering
s = 'Art & Design;Pretend Play'
21.
Feature engineeringПри помощи какой функции можно
посчитать длину списка?
22.
len(['Art & Design', 'Pretend Play'])2
Feature engineering
Функция len()
23.
Feature engineeringСоставим план по созданию нового
столбца с количеством жанров.
24.
План по созданию нового столбца2. Применить функцию для преобразования типа
к столбцу при помощи метода apply().
3. Создать новый столбец, в котором будет
храниться количество жанров при помощи
метода apply() и встроенной функции len().
Feature engineering
1. Написать функцию, которая преобразует жанры
строки в список.
25.
Модуль 3. Урок 3. Очистка данных. Feature engineeringVSC + Платформа. Feature
engineering
26.
Выполните практическое задание«VSC + Платформа. Feature engineering»
Работа
в VS Code
mars.algoritmika.org
27.
Модуль 3. Урок 3. Очистка данных. Feature engineeringЗавершение
урока
28.
Завершениеурока
➔ Чему вы сегодня научились?
➔ Что понравилось больше всего?
➔ Что для вас было легко, а что — сложно?
➔ Что было необычного в том, что мы прошли
сегодня?
➔ Как вы могли бы использовать то, что
узнали сегодня?
➔ Какие новые идеи у вас появились?