Similar presentations:
3_МО_1-2мерный_анализ_данных (1)
1. Машинное обучение
Евгения НовиковаМАШИННОЕ ОБУЧЕНИЕ
Тема: Данные и этапы их предобработки
2. Наборы данных и типы данных
НАБОРЫ ДАННЫХ И ТИПЫ ДАННЫХDataset (правильно писать раздельно, хотя сейчас часто пишут слитно)
— это обработанный и структурированный набор данных,
представленный в табличном виде.
Строки такой таблицы называются объектами,
а столбцы — признаками (фичами (features)).
В совокупности они составляют
размеченные данные, на основе
которых происходит машинное обучение.
3. Наборы данных и типы данных
НАБОРЫ ДАННЫХ И ТИПЫ ДАННЫХВиды признаков
• независимые переменные — обычно их называют предикторами, факторами,
• целевые (зависимые) переменные – признаки, которые вычисляются на основе
одного или нескольких предикторов.
Типы признаков
• Количественные (численные, вариационные). Измеряются в непрерывной (например,
температура) или в интервальной шкале (попадание в определенный интервал
значений, например, возраст).
• Частный случай — бинарные (дихотомические) признаки, имеющие два
значения {0, 1}.
• Порядковые (признаки с упорядоченными состояниями, ординальные признаки),
например: горячо, тепло, холодно. Здесь имеет значение порядок.
• Номинальные признаки (признаки с неупорядоченными состояниями,
классификационные, категориальные, факторные), например: яблоко, груша, арбуз.
Взаимный порядок здесь уже не имеет значения. Важна принадлежность классу.
4. Исследование данных: Однофакторный анализ
ИССЛЕДОВАНИЕ ДАННЫХ: ОДНОФАКТОРНЫЙ АНАЛИЗX - числовой атрибут интереса, причем