4.30M

ml_metrics

1.

Метрики качества
моделей
Академия Аналитиков Авито
Логинов Роман, 2025

2.

ПЛАН ЛЕКЦИИ
Метрики качества регрессии
Метрики качества классификации
Перерыв
Примеры нестандартных метрик
Статистическое сравнение
Отбор признаков

3.

МЕТРИКА КАЧЕСТВА
Пусть обучили несколько моделей линейной регрессии
На исходных признаках
На признаках, возведённых в квадрат
На исходных признаках, но с другой функцией потерь
Вообще без признаков — предсказали константой
Чтобы понять, какая из моделей лучше, вычисляют метрику качества
Обычно считают на валидационной и тестовой выборке

4.

ХОРОШАЯ МЕТРИКА КАЧЕСТВА
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

5.

МЕТРИКИ КАЧЕСТВА РЕГРЕССИИ
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

6.

MSE
Чувствительная
Позволяет
увидеть
различия
между
качеством
разных
— выборка, признаки n
моделей
объектов
— ответы
для n
Интерпретируемая
Можно
показать заказчику «В среднем прогноз
объектов
отличается от
на 5%»модели
—факта
предсказания
для
n
объектов
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

7.

MSE
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
Используется как функция потерь
отличается от факта на 5%»
Неустойчива к выбросам
Соотносится
с
бизнес-требованиями
к
решению
задачи
Понятна
Неинтерпретируема
ценность
для
продукта
«Заменив
одну
модель
на
другую
мы
вырастим
Обладает теоретическими свойствами
выручку
на 3%»
Оценивает

8.

MSE: BIAS-VARIANCE РАЗЛОЖЕНИЕ
MSE можно разложить на 2 компоненты: смещение (bias) и разброс (variance)

9.

RMSE
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз

отличается
факта
наи 5%»
Имеет тот же от
масштаб,
что
ответ
Неустойчива к свыбросам
Соотносится
бизнес-требованиями к решению задачи Понятна
Обладаетдля
теоретическими
свойствами
ценность
продукта «Заменив
одну модель на другую мы вырастим
выручку на 3%»

10.

КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ (R2)
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»

Соотносится
с бизнес-требованиями
к решению
задачи Понятна
Чем больше диcперсия
таргета, тем больше
MSE
Показывает
долю
дисперсии,
которую
модель
смогла
ценность
для
продукта
«Заменив
одну
модель
на объяснить
другую мы вырастим
Знаменатель

MSE
при
константном
предсказании
выручку на 3%»

11.

АБСОЛЮТНАЯ ОШИБКА (MAE)
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
Более устойчива
выбросам,
чем RMSE
отличается
от кфакта
на 5%»
Имеет тот же масштаб, что и таргет
Соотносится с бизнес-требованиями к решению задачи Понятна
Можно использовать, когда допустимы большие ошибки
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

12.

MAPE
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
Более устойчива
выбросам,
чем RMSE
отличается
от кфакта
на 5%»
Хорошо интерпретируется
Соотносится с бизнес-требованиями к решению задачи Понятна
Учитывает, что одинаковая абсолютная ошибка по-разному критична
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

13.

КВАНТИЛЬНАЯ ОШИБКА
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
Более устойчива к выбросам, чем RMSE
выручку
Имеет тотнаже3%»
масштаб, что и таргет
Оптимальная константная оценка по такой метрике — квантиль

14.

МЕТРИКИ КАЧЕСТВА КЛАССИФИКАЦИИ
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

15.

ACCURACY

Чувствительная
Позволяет
различия между
разных
Бинарная классификация:
ответувидеть
либо правильный,
либокачеством
нет
моделей
В общем случае невозможно измерить силу ошибки
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Просто вычислим долю правильных ответов
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Проблема — несбалансированные классы Если в датасете 90% единиц,
константная модель будет иметь хорошее качество

16.

CONFUSION MATRIX

Чувствительная
Позволяет
увидетьPositive,
различия
между качеством разных
Разделим объекты по
предсказаниям:
Negative
моделей
Ошибка подразделяется на 2: False Positive, False Negative Похоже на ошибки
Интерпретируемая Можно показать заказчику «В среднем прогноз
1 и 2 рода в стат.критериях
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

17.

PRECISION/RECALL

Чувствительная
увидеть
различия между
качеством разных
Precision НасколькоПозволяет
можно верить
положительным
предсказаниям
модели
Интерпретируемая Можно показать заказчику «В среднем прогноз
моделей
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
Recall
Какую
положительных
мы смогли
выявить
ценность
длячасть
продукта
«Заменивобъектов
одну модель
на другую
мы вырастим
выручку на 3%»

18.

АНАЛОГИЯ СО СТАТ.КРИТЕРИЯМИ
Гипотеза
H0:
объект
принадлежит
классу
0
Чувствительная Позволяет увидеть различия между качеством разных
Критерий
S:
модель
предсказывает
класс
1
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

19.

ЧТО ВЫБРАТЬ ДЛЯ ОПТИМИЗАЦИИ?

Чувствительная
Позволяет увидеть
различия
качеством разных
Одновременно оптимизировать
Precision
и Recall между
невозможно
моделей
Выбирать нужно исходя из здравого смысла
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается
от
факта
на
5%»
Пример 1: распознавание заболеваний на снимках или МРТ
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Пример 2: кредитный скоринг

20.

ЧТО ВЫБРАТЬ ДЛЯ ОПТИМИЗАЦИИ?

Чувствительная
Позволяет увидеть
различия
качеством разных
Одновременно оптимизировать
Precision
и Recall между
невозможно
моделей
Выбирать нужно исходя из здравого смысла
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается
от
факта
на
5%»
Пример 1: распознавание заболеваний на снимках или МРТ
Соотносится с бизнес-требованиями к решению задачи Понятна
False Positive: врачу придётся проверить вручную False
Negative:
пациент
останется
без лечения
ценность
для
продукта
«Заменив
одну модель на другую мы вырастим
=> важнее метрика Recall
выручку на 3%»
Пример 2: кредитный скоринг

21.

ЧТО ВЫБРАТЬ ДЛЯ ОПТИМИЗАЦИИ?

Чувствительная
Позволяет увидеть
различия
качеством разных
Одновременно оптимизировать
Precision
и Recall между
невозможно
моделей
Выбирать нужно исходя из здравого смысла
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается
от
факта
на
5%»
Пример 1: распознавание заболеваний на снимках или МРТ
Соотносится с бизнес-требованиями к решению задачи Понятна
False Positive: врачу придётся проверить вручную False
Negative:
пациент
останется
без лечения
ценность
для
продукта
«Заменив
одну модель на другую мы вырастим
=> важнее метрика Recall
выручку на 3%»
Пример 2: кредитный скоринг
False Positive: клиент не вернул деньги — потеря
прибыли False Negative: потеряем только проценты
=> важнее метрика Precision

22.

ЧТО ВЫБРАТЬ ДЛЯ ОПТИМИЗАЦИИ?
Пример
3:
блокировка
мошенников
на
Авито
Чувствительная Позволяет увидеть различия между качеством разных
моделей
False Positive: заблокировали честного селлера —
жалобы False Negative:
пропустили
жалобы
Интерпретируемая
Можно
показатьмошенника
заказчику—«В
среднем прогноз
=> важнее метрика непонятно какая
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
F-мера Скомбинируем Precision и Recall через среднее гармоническое
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

23.

F-МЕРА
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Важнее recall
Важнее
precision

24.

ЧТО ВЫБРАТЬ ДЛЯ ОПТИМИЗАЦИИ?
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»

Аналитик
Отлично,
тогда оптимизирует recall
с ограничением
на precision
Соотносится
с бизнес-требованиями
к решению
задачи
Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

25.

ПОДБОР ПОРОГА
Типичная
Чувствительная
Позволяет увидеть различия между качеством разных
ситуация:
моделей
Классификатор предсказывает вероятность
Интерпретируемая
заказчику «В среднем прогноз
Ответ получается наМожно
основе показать
порога
отличается
от факта
на 5%»
Выбираем порог
по F-мере
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Как без подбора порога понять качество модели?

26.

PR CURVE
При росте порога возрастает recall, но может падать
Чувствительная
Позволяет увидеть различия между качеством разных
precision
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC PR

27.


Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ПЕРЕРЫВ
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

28.

ROC CURVE
В зависимости от порога считаем Recall (TPR) и FPR
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC

29.

ROC CURVE
В зависимости от порога считаем Recall (TPR) и FPR
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Для случайного предсказатора AUC ROC
Интерпретируемая Можно показать заказчику
«В
среднем
прогноз
= 0.5
отличается от факта на 5%»
Cмысл: вероятность того, что случайно
объектзадачи
класса 1Понятна
имеет оценку
Соотносится с бизнес-требованиямивзятый
к решению
к классу
1 выше, чем
ценность для продукта «Заменив одну принадлежности
модель на другую
мы вырастим
выручку на 3%»
случайно взятый объект класса 0
Площадь под этой кривой — AUC ROC

30.

ИНТЕРПРЕТАЦИЯ AUC ROC
Предсказание вероятности в классификации упорядочивает объекты
Чувствительная
различия между качеством разных
Предположим,
есть поПозволяет
3 объекта увидеть
разных классов
моделей по убыванию предсказаний
Отсортируем
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»

31.

ИНТЕРПРЕТАЦИЯ AUC ROC
Предсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC

32.

ИНТЕРПРЕТАЦИЯ AUC ROC
Предсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC

33.

ИНТЕРПРЕТАЦИЯ AUC ROC
Предсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC

34.

ИНТЕРПРЕТАЦИЯ AUC ROC
Предсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC

35.

ИНТЕРПРЕТАЦИЯ AUC ROC
Предсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC

36.

ИНТЕРПРЕТАЦИЯ AUC ROC
Предсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC

37.

ИНТЕРПРЕТАЦИЯ AUC ROC
Предсказание вероятности в классификации упорядочивает объекты
порог дляПозволяет
предсказания
•Перебираем
Чувствительная
увидеть различия между качеством разных
моделей
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
выручку на 3%»
Площадь под этой кривой — AUC ROC

38.

ИНТЕРПРЕТАЦИЯ AUC ROC
Чувствительная Позволяет увидеть различия между качеством разных
моделей
Доля правильно упорядоченных пар
Интерпретируемая Можно показать заказчику «В среднем прогноз
отличается от факта на 5%»
Соотносится с бизнес-требованиями к решению задачи Понятна
ценность для продукта «Заменив одну модель на другую мы вырастим
Вероятность
того, что случайно взятый объект класса 1
выручку
на 3%»
имеет оценку принадлежности к классу 1 выше, чем
случайно взятый объект класса 0

39.

ПРИМЕР, КОГДА AUC ROC НЕИНФОРМАТИВЕН
В предположениях гауссовской линейной модели
можно получить доверительный интервал на MSE
Модель 1
Описание
AUC ROC
Оценка
выручки
Модель 2
Даёт класс 1 десяти Ставит релевантных
релевантным
на позиции 10, 20, …,
клиентам
100
1.00
0.999
English     Русский Rules