Similar presentations:
Предсказание магнитных свойств наночастиц для биомедицинских применений
1.
Предсказание магнитныхсвойств наночастиц для
биомедицинских применений
Деревья принятия решений.
Ансамбли
2.
Что такое дерево принятия решений?Решающее дерево предсказывает значение целевой переменной с помощью применения последовательности
простых решающих правил (которые называются предикатами). Этот процесс очень схож с естественным для
человека процессом принятия решений.
• дерево решений не сможет экстраполировать зависимости за границы области значений обучающей
выборки
• дерево решений способно идеально приблизить обучающую выборку и ничего не выучить
2
3.
Зачем нам деревья принятия решений?Решающие деревья часто используют как кирпичики для построения ансамблей — моделей, делающих
предсказания на основе агрегации предсказаний других моделей
Бэггинг (Bagging)
• Равновероятно выбираем n примеров с повторами
• На полученных n-данных строим дерево решений, однако в каждой вершине выбираем случайное
подпространство признаков, из которых уже ищем оптимальный
• Повторяем данную процедуру k раз, получаем k моделей
• Итоговые ответ – усреднение всех предсказаний
Поздравляем, вы получили Random Forest. У ExtraTrees признаки выбираются случайно
Важно понимать, сколько образцов в одном
листе и какая глубина деревьев
3
4.
Бустинг (Boosting)Каждый следующий базовый алгоритм в бустинге обучается так, чтобы уменьшить общую ошибку всех
своих предшественников.
LightGBM, XGB и тд являются реализациями идеи градиентного
бустинга с деревьями решений в качестве базовых алгоритмов
LightGBM строит деревья
по принципу: «На каждом
шаге делим вершину с
наилучшим скором»
XGBoost строит деревья по
принципу: «Строим дерево
последовательно по
уровням до достижения
максимальной глубины»
Важные параметры моделей – глубина
деревьев и скорость обучения
4
5.
Гиперпараметры моделей МО• параметры настраиваются в процессе обучения модели на данных. Например, структура решающего
дерева;
• гиперпараметры — это характеристики модели, которые фиксируются до начала обучения: глубина
решающего дерева, learning rate для градиентного бустинга
Качество модели очень сильно варьируется в зависимости от гиперпараметров
Очень важно настроить гиперпараметры модели. Для этого есть несколько способов:
• Grid search – последовательный перебор
• Random search – рандомный набор гиперпараметров
• Bayes search – использование вероятностных моделей
Занимает какое-то
большое время
5
6.
Интерпретируемость моделиПолучили модель с хорошей предсказательной точностью – всё? НЕТ. Нужно понять, как
работает наша модель, интерпретировать её предсказания (очень важно там, где требуется
понимание процессов: наука/бизнес)
Знаем, как работает модель, значит можем понять зависимости, недоступные естественному
интеллекту + доверие к предсказываемому результату
SHAP – очень сильный инструмент
Сортировка по
важности
Значение SHAP для i-ого параметра
Рассчитывается
на всех
возможных
комбинациях
параметров
Предсказание с i-ым
параметром
Предсказание
без него
Цвет
отвечает за
значение
параметра
Чем дальше по горизонтали – тем важнее фича
(право – предсказание увеличивается, лево –
уменьшается)
6
7.
Практикаhttps://colab.research.google.com/drive/1p3Wcb1lCpvIPP53JpW5d1Mcc5PanfFEg?usp=sharing
7