123.38K

DQN

1.

DQN
МЕНМ-130201
Семенов Артём

2.

3.

Проблема
■ От роста Q-Table растет количество требуемого свободного места
■ Помимо этого на поиск более прибыльного действия потребуется куда больше
времени

4.

5.

Этапы DQN
■ Окружающая среда: DQN взаимодействует со средой с состоянием,
пространством действий и функцией вознаграждения
■ Память воспроизведения: DQN использует буфер памяти воспроизведения для
хранения прошлого опыта
■ Глубокая нейронная сеть: DQN использует глубокую нейронную сеть для оценки
Q-значений для каждой пары (состояние, действие)
■ Исследование с эпсилон-жадностью: DQN использует стратегию исследования с
эпсилон-жадностью , чтобы сбалансировать исследование и эксплуатацию
■ Целевая сеть: DQN использует отдельную целевую сеть для оценки целевых
значений добротности

6.

■ Обучение: DQN обучает нейронную сеть, используя уравнение Беллмана, для
оценки оптимальных значений Q. Функция потерь представляет собой
среднеквадратичную ошибку между прогнозируемым и целевым значениями.
Целевое значение добротности вычисляется с использованием целевой сети и
уравнения Беллмана. Веса нейронной сети обновляются с использованием
обратного распространения и стохастического градиентного спуска
■ Тестирование: DQN использует изученную политику для принятия решений по
окружающей среде после обучения. Агент выбирает действие с наибольшим
значением Q для данного состояния

7.

Алгоритм
■ Инициализируем нейросеть со случайными весами
■ Дублируем в целевую сеть
English     Русский Rules