Similar presentations:
ALGORITM_Q-LEARNING_I_EGO_PRIMENENIE
1. АЛГОРИТМ Q-LEARNING И ЕГО ПРИМЕНЕНИЕ
АЛГОРИТМ QLEARNING И ЕГОПРИМЕНЕНИЕ
АНУФРИЕВ Н. А. АБ-220
2. Q-LEARNING
Это алгоритм обучения с подкреплением, который позволяетагенту оптимизировать свою стратегию действий в динамичной
среде, стремясь максимизировать сумму будущих наград
Агент исследует среду, принимая решения, основанные на
предыдущем опыте, а не на предварительной модели мира
3. Q-ТАБЛИЦА
Допустим, есть простая среда с четырьмя возможнымисостояниями S1, S2, S3, S4 и двумя возможными действиями A1,
A2 в каждом состоянии
Q-таблица для этой среды выглядела бы примерно так:
4. ФОРМУЛА Q-ЗНАЧЕНИЯ
5. ПРИМЕР
Вся прелесть алгоритма Q-learning в том, что он работает тогда,когда агент даже и не знает КАК добиться желаемого результата
(«model-free»)
6. СИСТЕМА ВОЗНАГРАЖДЕНИЙ
За каждый ход агент получаетотрицательную награду (-1) —
стимулирует агента сокращать
число сделанных ходов, а за
достижение конечной точки —
положительную награду (+100)
— стимулирует агента перейти в
эту точку
7. РЕЗУЛЬТАТЫ ОБУЧЕНИЯ
После обучения в течение 99эпизодов агент уверенно
находит оптимальный маршрут