12.17M
Category: informaticsinformatics

Применение множества Парето для выбора оптимальных параметров сложных систем

1.

Левичев Александр Сергеевич
Применение множества Парето для выбора
оптимальных параметров сложных систем
Выпускная квалификационная работа
Научный руководитель: к.ф-м.н., доцент Е.Ю.Ечкина
Москва, 2025

2.

Актуал ь ность и проблематика
Сложность систем
Современный мир характеризуется стремительным ростом сложности систем в разных сферах деятельности.
Гонка за процентами эффективности
Если есть возможность что-то хоть чуть-чуть улучшить, то непременно найдётся конкурент, который так и сделает. Требуется
постоянный пересмотр существующих решений.
Цифровизация
Количество данных растёт с каждым днём, всё больше предприятий подвергаются цифровизации.
Смысл
Задача оптимизации одного конкретного критерия часто бессмысленна, т.к. не учитывает множество других важных параметров. А
задача оптимизации нескольких конфликтующих критериев уже требует изобретения специфических подходов.

3.

Методол огия оптимизации по Парето и этапы решения задачи
Решение Б будем называть доминирующим над А, если Б по всем критериям не хуже, а хотя бы по одному лучше, чем А. Множество решений, над
которыми никто не доминирует называется множеством Парето (или Парето-фронтом)
Постанов ка задачи
Определение целевых критерив и ограничений
Определ ение типа задачи и вы бор ал горитма
Задачи могут быть статические и динамические
В ы деление Парето-ф ронта
Применение алгоритма к данным
Результаты
Анализ параметров или самих
оптимальных решений

4.

Плюсы, минусы, подводные камни
Гибкость применения. К любой задаче максимизации/минимизации
Сужение пространства поиска. Анализ только лучших решений
Прозрачность и наглядность. Однозначные методы выявления лучших. Если решение недоминируемо, то оно
недоминируемо.
Объективность выявления оптимумов. Изначально (без введения коэффициентов или ограничений) непредвзято
выделяются даже заведомо непригодные оптимумы.
Сложность. Для четырёх и более критериев задача вычислительно затратна для больших данных
Несамостоятельность. Оптимальные решения по определению несравнимы между собой
Ошибка выжившего. Пропуски данных в распределениях критериев могут критически влиять на картину оптимальных
решений

5.

Испол ь зованны е материал ы
Of Finding the Maxima of a Set of Vectors, H.T. Kung, F. Luccio, F.P. Preparata
Journal of the Association for Computing Machinery. Vol 22, No 4, October 1975. [https://dl.acm.org/doi/pdf/10.1145/321906.321910]
A Fast and Elitist Multiobjective Genetic Algorithm: NSGA-II
2002. Kalyanmoy Deb, Amrit Pratap, Sameer Agarwal, T. Meyarivan. [https://sci2s.ugr.es/sites/default/files/files/Teaching/OtherPostGraduateCourses/Metaheuristicas/Deb_NSGAII.pdf]
Luke S. Essentials of Metaheuristics. A Set of Undergraduate Lecture Notes. Zeroth Edition
Online Version 0.5. October, 2009. Перевод – Юрий Цой. [https://qai.narod.ru/GA/meta-heuristics_7.pdf]
Pareto Optimization or Cascaded Weighted Sum: A Comparison of Concepts
2014. Wilfried Jakob, Christian Blume. [https://www.mdpi.com/1999-4893/7/1/166]
NSGA II: Non-Dominated Sorting Genetic Algorithm II.
[https://www.thearmchaircritic.org/mansplainings/nsga-ii-non-dominated-sorting-genetic-algorithm-ii]
Optimizing fairness and accuracy: a Pareto optimal approach for decision-making
2024. Rashmi Nagpal, Rasoul Shahsavarifar, Vaibhav Goyal, Amar Gupta1. [https://link.springer.com/article/10.1007/s43681-024-00508-4]
Построение компромиссных решений и определение эффективности Парето в многокритериальных системах
[https://habr.com/ru/companies/otus/articles/750038]
Модели и методы проактивной поддержки принятия решений при управлении техническим состоянием оборудования
2020, Сай Ван Квонг.
Разработка структуры данных для инкрементальной недоминирующей сортировки
2015, Якупов И.Ю.

6.

Цел ь и составл яющая работы
Цель - разработка применений множества Парето в промышленности для выявления аномалий, предиктивного анализа,
определения оптимальных и критических параметров.
Статический подход
Динамический подход
Получение данных, постановка задачи, формирование
Получение и обработка данных, формирование критериев,
признаков, обучение модели машинного обучения,
решение задачи линейного программирования.
обработка результатов и оценка. Применение
Определение задач и их решение, анализ результатов,
генетического алгоритма для выявления оптимумов и их
мотивация перехода к динамическому анализу.
параметров.

7.

Алгоритмы
Полный перебор и алгоритм Кунга
Непосредственное определение недоминируемых решений. Алгоритм Кунга предполагает сортировку по одному из
критериев и последующий отбор по следующим.
Взвешенная сумма критериев и ограничения
Упрощение задачи и уменьшение количества критериев. Детальное исследование Парето-фронта.
NSGA-II
Генетический алгоритм. Формирование случайной популяции, отбор по степени доминируемости и по
разнообразию. Формирование потомков.

8.

Практическая задача
Name - идентификатор агрегата
Amax, Vmax, Smax - максимальные в
данный момент вибропараметры
(ускорение, скорость, перемещение)
Fault1, Fault2, Fault3 - некоторые
численные показатели поломок
ITC - категориально размеченнный
индекс технического состояния

9.

Схема устройства базы данных

10.

Обработка в ременны х рядов
Статистические метрики
имеет смысл изобретать и
считать для данных,
которые имеют хоть
какую-то, но структуру.
Изначальные записи
очень хаотичны, однако
была выделена некая
базовая линия проведения
замеров: каждые 12
часов. Замеры именно за
такой промежуток и были
усреднены для выявления
аномалий.

11.

Формирование статистических параметров

12.

Кл астеризация и в ы числение аномал ь ностей
Наиболее аномальными
будем считать такие
кластеры, которые
находятся дальше всех от
нормальных и в которых
наименьшее количество
точек.
Аномальности кластеров:
Кластер 6:
0.0166
Кластер 5:
0.6991
Кластер 1:
0.1852

13.

Данные для задачи линейного программирования
Без дополнительных данных задача
линейного программирования с
заданными ограничениями не
решается. Для каждой точки агрегата
и каждой величины вычислены
среднее значение, дисперсия и
статистическая аномальность.

14.

Уточнённы е индексы тех нического состояния

15.

Применение взвешенной суммы
Аномалии в значениях
виброскоростей в точках 2 и 3
оказались значительно
влияющими (снижающими, т.к.
корреляция отрицательна) на
индекс технического состояния.

16.

Статистические данны е дл я Парето анал иза

17.

Первое применение
Можно заметить, что
агрегат с
идентификатором "341"
выбивается из общей
картины: близкий к
значению 90 индекс
технического состояния
обычно соответствует
меньшей аномальности.
Аномальность больше
0.4 соответствует сильно
уступающему
техническому состоянию.

18.

Второе применение
В этом случае можно
аппроксимировать
оптимальные решения
обычной параболой. Для
каждого агрегата, лежащего
выше параболы, можно
спрогнозировать
максимальное падение
значений ITC.

19.

Конец?
Выявлять особенности распределений
четырех параметров (частот валов и
мощности) и их взаимосвязи
представляется сомнительной задачей,
т.к. в Парето фронте оказалось всего 7
решений, теем более, когда имеются
много совпадающих по параметрам
агрегатов.
Если с достаточной точностью
научиться моделировать поведение
агрегатов, можно не просто выявить
реальные оптимальные параметры, но и
спрогнозировать гипотетически ещё
более эффективные или гораздо более
критические.

20.

Подготов ка данны х дл я машинного обучения
В процессе подготовки
статистических данных
было совершено много
жертв в пользу
сохранения временной
структуры. Предлагается
теперь выжать максимум
не структурный, а
численный, т.е. ничего не
усреднять, не
аппроксимировать время,
а неким дискретизировать
данные с сохранением
оригинальных значений.

21.

Парето оптимизация Парето оптимизации. Вы бор модел и
машинного обучения
Классические модели регрессии (линейная, полиномиальная, ridge, lasso, и т.д.)
Быстро учатся, легко интерпретируются. Плохо работают для сложных зависимостей
Ансамбли на основе деревьев
Моделируют сложные нелинейные зависимости, хорошо работают с категориальными переменными. Хорошо
интерпретируемы. Склонны к переобучению, требуют детальной настройки гиперпараметров
Нейронны е сети
Лучшая точность, выявление самых нетривиальных зависимостей. Требуется подбор архитектуры.
Интерпретируемость на уровне "черный ящик"

22.

Модель градиентного бустинга
Гипотетически, в будущем
с ростом вычислительных
мощностей можно будет
полностью перейти на
построение нейросетей.
Сейчас бустинг универсальный, быстрый и
мощный алгоритм для
табличных данных. Стоит
учесть, что деревья
решений строят кусочнопостоянную
аппроксимацию, т.е.
гиперкубами в
пространстве

23.

Модел ь градиентного бустинга
R2 (R - квадрат) доля дисперсии
зависимой
переменной,
объясняемая
моделью
MAE - среднее
абсолютное
отклонение

24.

Обработка признаков
Вклад в признаков в
CatBoost высчитывается
следующим образом:
Значение признака для
каждого объекта в выборке
меняется на случайное и
измеряется отклонение
результата модели.
Усреднённые значения
отклонений для признаков
нормируются.

25.

Обработка признаков
Требуется избавиться от
категориальных
признаков, иначе не
совсем понятно как
должен работать механизм
мутаций,
подразумевающий
непрерывное изменение
параметров (генов)

26.

Обработка признаков
Все признаки приведены к
непрерывному виду. Получено
4 признака, которые гораздо
сильнее других влияют на
результат модели. Их и будем
анализировать в дальнейшем.

27.

Оценка пол ученной модел и
Обучение
R2 = 0.962
MAE = 1.447
Тест
R2 = 0.900
MAE = 3.168

28.

Первое применение
Результаты первого эксперимента
надо перепроверить. Вполне могло
так получиться, что гены,
приводящие к перегреву на
средних частотах просто не успели
появиться и были поглощены
отбором в сторону увеличения
частоты либо в сторону меньших
частот и повышения температуры.

29.

Ограничение параметров дл я уточнения резул ьтатов

30.

Ограничение параметров для уточнения результатов
Получили, что
решения из среднего
кластера тоже вполне
могут быть перегреты,
однако гораздо более
вероятным является
перегрев в других
зонах, т.к. при
появлении высоких
или низких частот решения мгновенно
убегают на их
территорию и охотно
мутируют там

31.

Второе применение
Натренирована вторая модель для
предсказания температуры
подшипника со стороны полумуфты.
Переменные сильно коррелируют,
однако есть крайние решения, по
которым можно предложить
несколько иную задачу.

32.

Второе применение

33.

Второе применение
Решения, попавшие в зону
отрицательных температур не будем
учитывать, как заведомо
нереалистичные исходя из
исторических данных.

34.

Выявление параметров

35.

Вы явление параметров
Ограничения
частоты
промежуточного
вала были
выбраны от 125 до
215.
Видно, что
выделенные
решения
соответствуют
частотам от 180

36.

Тригонометрические параметры времени
Тригонометрические переменные необходимы,
чтобы близкие календарные дни оценивались
близкими по значению метриками.
Эти переменные выражаются как синус и
косинус от числа прошедших дней с начала
года, умноженного на 2π.
Данные сконцентрированы в начале декабря и
конце июня

37.

Итоги
Предобработка
Рассмотрены разные подходы к обработке данных, реализован комплекс программ для подготовки данных к разным
алгоритмам
Парето анал из
Применены методы статического выявления оптимальных решений, сделаны выводы, рассмотрен переход к
динамическому анализу и выявлены критические и оптимальные параметры
Пространство дл я ул учшения
Предложены оптимальные способы дальнейшего улучшения анализа для непосредственного применения на практике.
Дал ь нейшее применение
Реализованный программный модуль будет использован для повышения эффективности реального производства

38.

Фрагмент эпической поэмы об оптимизационной войне
Муза, скажи мне о том многоопытном муже, который
Бустингом мощно владел и святой датасет подготовил,
Много испробовал разных обычаев медных и в генах
Грозно сбирал только те, что конвейер нагреют несчастный!
Метрики скорбь насылали, над нами ходящие боги:
Признаки слабые были великим позором для стана
Ахейцев. Плакали жёны много эпох безутешно.
Ныне же Гарпии взяли бесславных и быстроходных:
Уничтожение неоптимального конвейера
Валов отбросили часть и время разбили когтями.
Все уж другие, погибели верной избегшие, были
Сладким нектаром для многих деревьев решений глубоких.
Встала из мрака младая и средняя по абсолютным
Числам ошибка модели и стала готова для генов
Почва. Конвейеров часть зловещий туман ощутила:
«О необузданный, снова замыслил найти оптимальных;
Снова о бое мечтает и рад он с богами сразиться.»
Что за наглец неотступный! Прикладных математик потомок!
Скрещивал мощности он, виброскоростью правил всевластно.
Всё на земле изменяется, всё скоротечно; когда же
Гнев народа из-за поломки в результате аномалий
Температур достигали подшипники, корпус нагрелся
Безумный! Скажи поскорее, Зевесова дщерь, кто избегнул
Смерти бесславной от рук кибернетики дивного сына.
English     Русский Rules