Similar presentations:
Применение множества Парето для выбора оптимальных параметров сложных систем
1.
Левичев Александр СергеевичПрименение множества Парето для выбора
оптимальных параметров сложных систем
Выпускная квалификационная работа
Научный руководитель: к.ф-м.н., доцент Е.Ю.Ечкина
Москва, 2025
2.
Актуал ь ность и проблематикаСложность систем
Современный мир характеризуется стремительным ростом сложности систем в разных сферах деятельности.
Гонка за процентами эффективности
Если есть возможность что-то хоть чуть-чуть улучшить, то непременно найдётся конкурент, который так и сделает.
Требуется постоянный пересмотр существующих решений.
Цифровизация
Количество данных растёт с каждым днём, всё больше предприятий подвергаются цифровизации.
Смысл
Оптимизация одного критерия часто бессмысленна, т.к. не учитывает множество других важных параметров.
А задача оптимизации нескольких конфликтующих критериев уже требует изобретения специфических
подходов.
3.
Методология оптимизации по Парето и этапы решениязадачи
Решение Б будем называть доминирующим над А, если Б по всем критериям не хуже, а хотя бы по одному лучше, чем А.
Множество решений, над которыми никто не доминирует называется множеством Парето (или Парето-фронтом)
Постановка задачи
Определение целевых критериев и ограничений
Определение типа задачи и выбор алгоритма
Задачи могут быть статические и динамические
Выделение Парето-фронта
Применение алгоритма к данным
Результаты
Анализ параметров или самих оптимальных решений
4.
Плюсы , минусы , подводны е камниГибкость применения. К любой задаче максимизации/минимизации
Сужение пространства поиска. Анализ только лучших решений
Прозрачность и наглядность. Однозначные методы выявления лучших. Если решение недоминируемо, то оно
недоминируемо.
Объективность выявления оптимумов. Изначально (без введения коэффициентов или ограничений) непредвзято
выделяются даже заведомо непригодные оптимумы.
Сложность. Для четырёх и более критериев задача вычислительно затратна для больших данных
Несамостоятельность. Оптимальные решения по определению несравнимы между собой
Ошибка выжившего. Пропуски данных в распределениях критериев могут критически влиять на картину оптимальных
решений
5.
Испол ь зованны е материал ыOf Finding the Maxima of a Set of Vectors, H.T. Kung, F. Luccio, F.P. Preparata
Journal of the Association for Computing Machinery. October 1975, [https://dl.acm.org/doi/pdf/10.1145/321906.321910]
A Fast and Elitist Multiobjective Genetic Algorithm: NSGA-II
2002. Kalyanmoy Deb, Amrit Pratap, Sameer Agarwal, T. Meyarivan.
[https://sci2s.ugr.es/sites/default/files/files/Teaching/OtherPostGraduateCourses/Metaheuristicas/Deb_NSGAII.pdf]
Luke S. Essentials of Metaheuristics. A Set of Undergraduate Lecture Notes. Zeroth Edition
Online Version 0.5. October, 2009. Перевод – Юрий Цой. [https://qai.narod.ru/GA/meta-heuristics_7.pdf]
Pareto Optimization or Cascaded Weighted Sum: A Comparison of Concepts
2014. Wilfried Jakob, Christian Blume. [https://www.mdpi.com/1999-4893/7/1/166]
NSGA II: Non-Dominated Sorting Genetic Algorithm II.
[https://www.thearmchaircritic.org/mansplainings/nsga-ii-non-dominated-sorting-genetic-algorithm-ii]
6.
Испол ь зованны е материал ыOptimizing fairness and accuracy: a Pareto optimal approach for decision-making
2024. Rashmi Nagpal, Rasoul Shahsavarifar, Vaibhav Goyal, Amar Gupta1. [https://link.springer.com/article/10.1007/s43681024-00508-4]
Построение компромиссных решений и определение эффективности Парето в многокритериальных системах
[https://habr.com/ru/companies/otus/articles/750038]
Модели и методы проактивной поддержки принятия решений при управлении техническим состоянием
оборудования
2020, Сай Ван Квонг
Разработка структуры данных для инкрементальной недоминирующей сортировки
2015, Якупов И.Ю.
7.
Цел ь и составл яющая работыЦель - разработка применений множества Парето в промышленности для выявления аномалий, предиктивного анализа,
определения оптимальных и критических параметров.
Статический подход
Динамический подход
Получение данных, постановка задачи, формирование
Получение и обработка данных, формирование критериев,
признаков, обучение модели машинного обучения,
решение задачи линейного программирования.
обработка результатов и оценка. Применение генетического
Определение задач и их решение, анализ результатов,
алгоритма для выявления оптимумов и их параметров.
мотивация перехода к динамическому анализу.
8.
АлгоритмыПолный перебор и алгоритм Кунга
Непосредственное определение недоминируемых решений. Алгоритм Кунга предполагает сортировку по одному из
критериев и последующий отбор по остальным.
Взвешенная сумма критериев и ограничения критериев
Упрощение задачи и уменьшение количества критериев. Детальное исследование Парето-фронта.
NSGA-II
Генетический алгоритм. Формирование случайной популяции, отбор по степени доминируемости и по
разнообразию. Формирование потомков.
9.
Практическая задачаName - идентификатор агрегата
Amax, Vmax, Smax максимальные в данный момент
вибропараметры (ускорение,
скорость, перемещение)
Fault1, Fault2, Fault3 - некоторые
численные показатели поломок
ITC - категориально размеченнный
индекс технического состояния
10.
Схема устройства базы данных11.
Обработка в ременны х рядовСтатистические метрики
имеет смысл изобретать и
считать для данных,
которые имеют хоть какуюто, но структуру.
Изначальные записи очень
хаотичны, однако была
выделена некая базовая
линия проведения
замеров: каждые 12 часов.
Замеры именно за такой
промежуток и были
усреднены для выявления
аномалий.
12.
Формирование статистических параметров13.
Кластеризация и вычисление аномальностейКластер 6
0.0166
Кластер 5
0.6991
Кластер 1
0.1852
Наиболее аномальными будем считать такие кластеры, которые находятся дальше всех от нормальных и в которых
наименьшее количество точек.
14.
Данны е дл я задачи л инейного программированияБез дополнительных данных
задача линейного
программирования с заданными
ограничениями не решается. Для
каждой точки агрегата и каждой
величины вычислены среднее
значение, дисперсия и
статистическая аномальность.
15.
Уточнённые индексы технического состояния16.
Применение взвешенной суммыАномалии в значениях
виброскоростей в точках 2 и 3
оказались значительно
влияющими (снижающими, т.к.
корреляция отрицательна) на
индекс технического состояния.
17.
Статистические данные для Парето анализа18.
Первое применениеМожно заметить, что
агрегат с
идентификатором
"341" выбивается из
общей картины:
близкий к значению 90
индекс технического
состояния обычно
соответствует
меньшей
аномальности.
Аномальность больше
0.4 соответствует
сильно уступающему
техническому
состоянию.
19.
Второе применениеВ этом случае можно
аппроксимировать
оптимальные решения
обычной параболой. Для
каждого агрегата,
лежащего выше параболы,
можно спрогнозировать
максимальное падение
значений ITC.
20.
Конец?Выявлять особенности распределений
четырех параметров (частот валов и
мощности) и их взаимосвязи
представляется сомнительной задачей,
т.к. в Парето фронте оказалось всего 7
решений, тем более, когда имеются
много совпадающих по параметрам
агрегатов.
Если с достаточной точностью
научиться моделировать поведение
агрегатов, можно не просто выявить
реальные оптимальные параметры, но
и спрогнозировать гипотетически ещё
более эффективные или гораздо более
критические.
21.
Подготовка данных для машинного обученияВ процессе подготовки
статистических данных
было совершено много
жертв в пользу сохранения
временной структуры.
Предлагается теперь
выжать максимум не
структурный, а численный,
т.е. ничего не усреднять, а
неким образом
дискретизировать данные
с сохранением
оригинальных значений.
22.
Парето оптимизация Парето оптимизации. Выбор моделимашинного обучения
Классические модели регрессии (линейная, полиномиальная, ridge, lasso, и т.д.)
Быстро учатся, легко интерпретируются. Плохо работают для сложных зависимостей
Ансамбли на основе деревьев
Моделируют сложные нелинейные зависимости, хорошо работают с категориальными переменными. Хорошо
интерпретируемы. Склонны к переобучению, требуют детальной настройки гиперпараметров
Нейронные сети
Лучшая точность, выявление самых нетривиальных зависимостей. Требуется подбор архитектуры.
Интерпретируемость на уровне "черный ящик"
23.
Модел ь градиентного бустингаГипотетически, в
будущем с ростом
вычислительных
мощностей можно будет
полностью перейти на
построение нейросетей.
Сейчас бустинг универсальный, быстрый
и мощный алгоритм для
табличных данных. Стоит
учесть, что деревья
решений строят кусочнопостоянную
аппроксимацию
24.
Модель градиентного бустингаR2 (R - квадрат) доля дисперсии
зависимой
переменной,
объясняемая
моделью
MAE - среднее
абсолютное
отклонение
25.
Обработка признаковВклад признака в CatBoost
(по умолчанию)
высчитывается как среднее
отклонение при его
изменении. Далее
происходит нормировка.
26.
Обработка признаковТребуется избавиться от
категориальных
признаков, иначе не
совсем понятно как
должен работать
механизм мутаций,
подразумевающий
непрерывное изменение
параметров (генов)
27.
Обработка признаковВсе признаки приведены к
непрерывному виду.
Получено 4 признака,
которые гораздо сильнее
других влияют на результат
модели. Их и будем
анализировать в
дальнейшем.
28.
Оценка полученной моделиОбучение
R2 = 0.962
MAE = 1.447
Тест
R2 = 0.900
MAE = 3.168
29.
Первое применениеРезультаты первого
эксперимента надо
перепроверить. Вполне могло
так получиться, что гены,
приводящие к перегреву на
средних частотах просто не
успели появиться и были
поглощены отбором в сторону
увеличения частоты либо в
сторону меньших частот и
повышения температуры.
30.
Ограничение параметров для уточнения результатов31.
Ограничение параметров дл я уточнения резул ьтатовПолучили, что
решения из среднего
кластера тоже вполне
могут быть
перегреты, однако
гораздо более
вероятным является
перегрев в других
зонах, т.к. при
появлении высоких
или низких частот -
решения мгновенно
убегают на их
территорию и охотно
мутируют там
32.
Второе применениеНатренирована вторая модель для
предсказания температуры
подшипника со стороны
полумуфты.
Переменные сильно коррелируют,
однако есть крайние решения, по
которым можно предложить
несколько иную задачу.
33.
В торое применениеРешения, попавшие в зону
отрицательных температур не
будем учитывать, как заведомо
нереалистичные, исходя из
исторических данных.
34.
Выявление параметров35.
В ы явление параметровОграничения
частоты
промежуточного
вала были
выбраны от 125 до
215.
Видно, что
выделенные
решения
соответствуют
частотам от 180
36.
Тригонометрические параметры времениТригонометрические переменные
необходимы, чтобы близкие
календарные дни оценивались близкими
по значению метриками.
Эти переменные выражаются как синус и
косинус от числа прошедших дней с
начала года, умноженного на 2π.
Данные сконцентрированы в начале
декабря и конце июля.
37.
ИтогиПредобработка
Рассмотрены разные подходы к обработке данных, реализован комплекс программ для подготовки данных к разным
алгоритмам
Парето анал из
Применены методы статического выявления оптимальных решений, сделаны выводы, рассмотрен переход к
динамическому анализу и выявлены критические и оптимальные параметры
Пространство дл я улучшения
Предложены оптимальные способы дальнейшего улучшения анализа для непосредственного применения на
практике.
Дал ь нейшее применение
Реализованный программный модуль будет использован для повышения эффективности реального
производства
38.
Фрагменты эпической поэмы об оптимизационной войнеМуза, скажи мне о том многоопытном муже, который
Бустингом мощно владел и святой датасет подготовил,
Много испробовал разных обычаев медных и в генах
Грозно сбирал только те, что конвейер нагреют несчастный!
Метрики скорбь насылали, над нами ходящие боги:
Признаки слабые были великим позором для стана
Ахейцев. Плакали жёны много эпох безутешно.
Ныне же Гарпии взяли бесславных и быстроходных:
Валов отбросили часть и время разбили когтями.
Уничтожение неоптимального конвейера
Все уж другие, погибели верной избегшие,были
Сладким нектаром для многих деревьев решений глубоких.
39.
Ф рагменты эпической поэмы об оптимизационной войнеВстала из мрака младая и средняя по абсолютным
Числам ошибка модели и стала готова для генов
Почва. Конвейеров часть зловещий туман ощутила:
«О необузданный, снова замыслил найти оптимальных;
Снова о бое мечтает и рад он с богами сразиться.»
Что за наглец неотступный! Прикладных математик потомок!
Скрещивал мощности он, виброскоростью правил всевластно.
Всё на земле изменяется, всё скоротечно; когда же
Температур достигали подшипники, корпус нагрелся
Гнев народа из-за поломки в результате аномалий
Безумный! Скажи поскорее, Зевесова дщерь, кто избегнул
Смерти бесславной от рук кибернетики дивного сына.
informatics