Стабилизация перевернутого маятника с помощью алгоритма машинного обучения с подкреплением

Глубокий детерминированный градиент политики (DDPG)

Безопасность и экологичность проектных решений

2.55M

Стабилизация перевернутого маятника с помощью алгоритма машинного обучения с подкреплением

1. Стабилизация перевернутого маятника с помощью алгоритма машинного обучения с подкреплением

МИНОБРНАУКИ РОССИИ
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕНННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ
«НИЖЕГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ ИМ. Р.Е. АЛЕКСЕЕВА»
АРЗАМАССКИЙ ПОЛИТЕХНИЧЕСКИЙ ИНСТИТУТ (ФИЛИАЛ)
КАФЕДРА «ПРИКЛАДНАЯ МАТЕМАТИКА»
Стабилизация перевернутого маятника с помощью алгоритма
машинного обучения с подкреплением
Выполнил: студент группы АСПМ 18-1
Морозов М.А
Научный руководитель: к.т.н., доцент
Рябов А.В.
Консультант: к.т.н., доцент
Рябов А.В.
Консультант по экономической части: д.э.н,
Глебова О.В.
Консультант по безопасности и экологичности: к.т.н., доцент
Глебов В.В.
Арзамас 2022г.

2. Актуальность работы:

Актуальность представленной темы связана с принципиально новым
подходом к решению данной задачи. Реализация данного подхода стала
возможной в связи с непрерывным ростом вычислительных возможностей и
появлению новых алгоритмов решения классических задач. Данные
технологии и алгоритмы позволяют решать известные задачи с меньшими
затратами вычислительных ресурсов, обеспечивая при этом высокую
точность
2

3. Цель и задачи

Цель работы:
Стабилизация перевернутого маятника вблизи верхнего положения
равновесия при помощи алгоритма машинного обучения с
подкреплением.
Задачи:
• Рассмотреть существующие алгоритмы стабилизации перевернутого
маятника
• Применить алгоритм машинного обучения с подкреплением для
стабилизации маятника
• Провести анализ результатов стабилизации
• Оптимизировать и ускорить стабилизацию
3

4. Постановка задачи

Мы пытаемся решить классическую проблему стабилизации перевернутого
маятника вблизи верхнего положения равновесия. В такой постановке задачи
мы можем выполнить только два действия: повернуть влево или повернуть
вправо.
Что делает эту проблему сложной для алгоритмов Q-learning, так это то, что
действия являются непрерывными, а не дискретными. То есть вместо
использования двух дискретных действий, таких как -1 или + 1, мы должны
выбирать из бесконечных действий в диапазоне от -2 до + 2.
4

5. Обучение с подкреплением

• Обучение с подкреплением (RL) является разновидностью
метода машинного обучения, в котором агент получает
отсроченную награду на следующем временном интервале для
оценки своего предыдущего действия.
5

6. Определения

1.
2.
3.
4.
5.
6.
Action (A, a): все возможные команды, которые агент может передать в Окружение
(среду)
State (S,s): текущее состояние возвращаемое Окружением
Rewrd (R,r): мгновенная награда возвращаемое Окружением, как оценка последнего
действия
Policy (π ): Политика - стратегия, которую использует Агент, для определения
следующего действия (a’) на основе текущего состояния среды.
Value (V) или Estimate (E): ожидаемая итоговая (награда) со скидкой, в отличии от
мгновенной награды R, является функцией политики Eπ(s) и определяется, как
ожидаемая итоговая награда Политики в текущем состоянии s. (Встречается в литературе
два варианта Value – значение, Estimate – оценка, что в контексте предпочтительней
использовать E – оценка. Прим. переводчика)
Q-value (Q): оценка Q аналогична оценки V, за исключением того, что она принимает
дополнительный параметр a (текущее действие). Qπ(s, a) является итоговой оценкой
политики π от состояния s и действия a
6

7. Глубокий детерминированный градиент политики (DDPG)

Это алгоритм, который одновременно изучает Q-функцию и политику. Он использует
внеполитические данные и уравнение Беллмана для изучения Q-функции, а также использует Qфункцию для изучения политики.
Этот подход тесно связан с Q-обучением: если известна оптимальная функция значения действия

English Русский Rules