Similar presentations:
Презентация_Реферат_ДП
1. Динамическое программирование и оптимизация траекторий движения
ДИНАМИЧЕСКОЕПРОГРАММИРОВАНИЕ И
ОПТИМИЗАЦИЯ ТРАЕКТОРИЙ
ДВИЖЕНИЯ
2. План презентации
ПЛАН ПРЕЗЕНТАЦИИ• 1. Введение
• 2. Динамическое программирование (DP)
• 3. HJB и принцип Беллмана
• 4. Принцип максимума (PMP)
• 5. Методы решения
• 6. Примеры: LQR, bang-bang
• 7. Применения и рекомендации
• 8. Заключение и источники
3. Введение
ВВЕДЕНИЕ• Актуальность: автономные системы (БПЛА, роботы,
автомобили).
• Цель: обзор DP и оптимизации траекторий.
• Задачи: теория, методы, примеры, рекомендации.
4. Динамическое программирование — суть
ДИНАМИЧЕСКОЕПРОГРАММИРОВАНИЕ —
СУТЬ
• Принцип оптимальности Беллмана: рекурсивное
разложение.
• Value function V(x,t) — cost-to-go.
• Дискретная формула: V_k(s)=min_a{c + V_{k+1}}.
5. Уравнение HJB
УРАВНЕНИЕ HJB• -∂V/∂t = min_u { L + ∇V^T f }
• Определяет оптимальную политику u*(x,t).
• Трудности: решение PDE и проклятие размерности.
6. Принцип максимума Понтрягина
ПРИНЦИП МАКСИМУМАПОНТРЯГИНА
• Гамильтониан H = p^T f + L.
• Условия: dot x = dH/dp, dot p = -dH/dx, u* = argmin H.
• Часто приводит к краевой задаче — метод стрельбы.
7. Методы решения (обзор)
МЕТОДЫ РЕШЕНИЯ(ОБЗОР)
• Дискретное DP — глобальный поиск на сетке
(высокая сложность).
• Непрямые методы — PMP + shooting (точные,
чувствительны).
• Прямые методы — collocation → NLP (IPOPT, SQP).
• MPC, RRT*, RL — современные гибриды для практики.
8. Пример: LQR
ПРИМЕР: LQR• Система: ṡx = A x + B u.
• J = 1/2 x(T)^T S x(T) + 1/2 ∫(x^T Q x + u^T R u) dt.
• u* = -R^{-1} B^T P(t) x, P — уравнение Риккати.
9. Пример: bang-bang
ПРИМЕР: BANG-BANG• Задача минимума времени с ограничением |u| ≤
u_max.
• Оптимум: u принимает граничные значения ±u_max.
• Переключения определяются сопряжёнными
переменными.
10. Дискретная DP — практический пример
ДИСКРЕТНАЯ DP —ПРАКТИЧЕСКИЙ ПРИМЕР
• Робот на сетке M×N, переходы по четырём соседям.
• Рекурсивно вычисляем V и policy — кратчайший путь.
• Связь с A*, D* при применении эвристик.
11. Применения
ПРИМЕНЕНИЯ• Автомобили: слежение и уклонение (MPC).
• БПЛА: манёвры и экономия топлива (collocation).
• Манипуляторы: оптимизация траекторий (splines +
NLP).
• Космические аппараты: минимизация топлива.
12. Рекомендации
РЕКОМЕНДАЦИИ• Малые размерности: непpямые методы (PMP).
• Линейные модели: LQR/ARE.
• Ограничения: прямые методы + NLP.
• Реальное время: MPC, model reduction.
13. Заключение
ЗАКЛЮЧЕНИЕ• DP и оптимальное управление — теоретическая
база.
• Практика: гибридные подходы (планирование +
локальная оптимизация).
• Дальнейшие шаги: иллюстрации, расчёты, ГОСТоформление.
14. Источники
ИСТОЧНИКИ• Bellman R. Dynamic Programming, 1957.
• Bertsekas D.P. Dynamic Programming and Optimal
Control.
• Pontryagin L.S. The Mathematical Theory of Optimal
Processes.
• Sutton R.S., Barto A.G. Reinforcement Learning.
15. Спасибо!
СПАСИБО!• Готова доработать презентацию: добавить схемы,
графики или анимации по запросу.