Similar presentations:
Пуассоновский двурукий бандит
1. Пуассоновский двурукий бандит
Костюков А.В.2. Постановка задачи
Имеются два разных действия, обычно этопредставляется как использование ручек у двурукого
игрового бандита
Применение любого действия сопровождается
случайным доходом, вероятности получения дохода
неизвестны, но фиксированы
Необходимо выбирать действия так, чтобы доход был
максимальным
2
3. Пуассоновский двурукий бандит
Отличается тем, что рассматривается не дискретноевремя, а непрерывное
Распределение Пуассона описывает вероятности
наступления событий в заданном промежутке
времени, если они порождаются простым потоком
событий.
Простой поток событий характеризуется свойствами
стационарности, ординарности и отсутствия
последействия
3
4. Стратегия выбора действия
Байесовская стратегия состоит в минимизациифункции потерь на всём множестве допустимых
значений параметра Θ = {θ1, …, θK}. Функцией потерей
является разность между максимальным возможным
и реальным полным ожидаемым доходом
Байесовский риск вычисляется по следующей
формуле
4
5. Байесовская стратегия
Апостериорное распределение вероятностейвычисляется при наличии предыстории
Это классическая Байесовская формула
Априорное распределение обычно выбирается в ходе
экспертной оценки
5
6. Байесовская стратегия
Необходимо на каждом шаге выбирать действие снаименьшим Байесовским риском. Для первой ручки
формула риска будет выглядеть так
6
7.
Спасибо за внимание7