Ответ 1
Определение правильное, хотя и не сразу очевидное, если вы видите его впервые. Позвольте мне сказать так: политика - это стратегия агента.
Например, представьте себе мир, в котором робот перемещается по комнате, и задача состоит в том, чтобы добраться до целевой точки (x, y), где она получает награду. Здесь:
- Комната - это среда.
- Текущее положение робота - это состояние
-
Политика - это то, что делает агент для выполнения этой задачи:
- немые роботы просто блуждают случайно, пока они случайно не окажутся в правильном месте (политика № 1)
- другие могут по какой-то причине научиться идти по стенам большей части маршрута (политика № 2).
- умные роботы планируют маршрут в своей "голове" и идут прямо к цели (политика № 3).
Очевидно, что некоторые политики лучше других, и есть несколько способов их оценки, а именно функция значения состояния и функция значения действия. Целью RL является изучение лучшей политики. Теперь определение должно иметь больше смысла (обратите внимание, что в контексте время лучше понимается как состояние):
Политика определяет способ обучения агента в определенный момент времени.
Формально
Более формально мы должны сначала определить процесс принятия решения Маркова (MDP) как кортеж (S
, A
, P
, R
, y
), где:
-
S
- конечный набор состояний -
A
- конечный набор действий -
P
- матрица вероятности перехода состояния (вероятность завершения в состоянии для каждого текущего состояния и каждого действия) -
R
- это функция вознаграждения с учетом состояния и действия -
y
- коэффициент дисконтирования от 0 до 1
Затем политика π
является распределением вероятности по действиям, данным состояниям. Это вероятность каждого действия, когда агент находится в определенном состоянии (конечно, я пропускаю здесь много деталей). Это определение соответствует второй части вашего определения.
Я очень рекомендую курс David Silver RL на YouTube. В первых двух лекциях основное внимание уделяется МДП и политике.