Введение
Заключение
4.59M

итзи лелек

1.

КРАСНОДАРСКОЕ ВЫСШЕЕ ВОЕННОЕ ОРДЕНОВ
ЖУКОВА И ОКТЯБРЬСКОЙ РЕВОЛЮЦИИ
КРАСНОЗНАМЕННОЕ УЧИЛИЩЕ
ИМЕНИ ГЕНЕРАЛА АРМИИ С.М. ШТЕМЕНКО
14 кафедра
Учебная дисциплина
«ИТЗИ»

2.

2
ДОКЛАД НА ТЕМУ:
«Подготовка данных для алгоритмов
машинного обучения(бинаризация) »
Подготовил курсанты 341 учебной
группы:
Васильченко В.В.
Лелеко А.А.

3. Введение

Подготовка данных — один из ключевых этапов
машинного обучения. От качества и корректности
предварительной обработки данных напрямую зависят
эффективность и точность модели. Одним из важных
методов предварительной обработки является
бинаризация — преобразование числовых признаков в
бинарные (0 или 1) на основе заданного порога.

4.

5.

Бинаризация — это процесс преобразования числовых значений в
бинарные метки (обычно 0 и 1) по определённому критерию. Чаще всего
используется пороговое значение: если значение признака больше или
равно порогу — присваивается 1, иначе — 0.
Зачем нужна бинаризация?
Упрощение модели: Бинарные признаки упрощают интерпретацию и могут
ускорить обучение некоторых алгоритмов.
Работа с категориальными данными: Бинаризация позволяет преобразовать
числовые данные в категориальные (например, "высокий/низкий", "да/нет").
Совместимость с алгоритмами: Некоторые алгоритмы (например, наивный
байесовский классификатор с бернуллиевским распределением) требуют
бинарных входных данных.
Обработка выбросов и шумов: Бинаризация может смягчить влияние
экстремальных значений, сводя всё к двум классам.

6. Заключение

Примеры применения
Пример 1: Возраст → совершеннолетие
Исходные данные: возраст пользователей — [15, 22, 17, 30,
12]
Порог: 18
Результат бинаризации: [0, 1, 0, 1, 0]
Интерпретация: 0 — несовершеннолетний, 1 —
совершеннолетний.

7.

9
Пример 2: Доход → высокий доход
Доходы: [25000, 80000, 45000, 120000, 30000]
Порог: 50000
Результат: [0, 1, 0, 1, 0]
Этапы подготовки данных с бинаризацией
1. Сбор данных – осуществляется в соответствии с ФЗ-152 и ФЗ-149, с соблюдением
принципов минимизации и целевого характера обработки.
2. Очистка данных – удаление ошибок, дубликатов, некорректных значений.
3. Кодирование и бинаризация признаков:
• Label Encoding (преобразование категорий в целые числа);
• One-Hot Encoding (создание бинарных признаков для каждой категории);
• Thresholding (бинаризация числовых значений по порогу);
• Image binarization (например, метод Отсу для выделения объектов на изображениях).
4. Нормализация и стандартизация – доведение бинаризованных данных до единой
шкалы.
5. Хранение и защита – регламентируется ФЗ-152 и ГОСТами по информационной
безопасности.

8.

9.

Преимущества бинаризации
Простота и интерпретируемость.
Устойчивость к масштабу данных (не требует нормализации).
Может улучшить производительность на разреженных данных.
Полезна для текстовых данных (например, присутствие/отсутствие слова).
Недостатки и ограничения
Потеря информации: Все детали внутри интервалов теряются. Например, разница между
19 и 60 годами игнорируется.
Чувствительность к выбору порога: Неправильно выбранный порог может исказить
данные и ухудшить качество модели.
Не подходит для всех задач: В регрессии или задачах, где важна градация значений,
бинаризация может быть контрпродуктивной.

10.

Когда применять бинаризацию?
✅ Когда нужно выделить факт наличия/отсутствия признака.
✅ Когда данные содержат много шумов или выбросов.
✅ Когда алгоритм требует бинарных входов (например, BernoulliNB).
✅ Для создания логических флагов на основе числовых показателей.
⛔ Не применять, если важны градации значений.
⛔ Не применять без обоснования выбора порога.

11.

Выбор порога
Выбор порога — ключевой момент. Он может быть:
Экспертным (на основе предметной области, например, 18 лет — совершеннолетие).
Статистическим (медиана, среднее, квартили).
Оптимизированным (через кросс-валидацию, подбор по метрике качества модели).
Бинаризация vs One-Hot Encoding
Не путать бинаризацию с one-hot encoding:
Бинаризация применяется к числовым признакам и создаёт один бинарный признак на
основе порога.
One-Hot Encoding применяется к категориальным признакам и создаёт несколько бинарных
признаков (по одному на каждую категорию)
English     Русский Rules