Оптимальное эпсилон (ε-жадное) значение
ε-жадная политика
Я знаю, что алгоритм Q-обучения должен стараться балансировать между разведкой и эксплуатацией. Поскольку я новичок в этой области, я хотел реализовать простую версию поведения разведки/эксплуатации.
Оптимальное значение эпсилона
В моей реализации используется ε-жадная политика, но я не понимаю, когда дело доходит до определения значения epsilon. Должен ли epsilon быть ограниченным числом раз, когда алгоритм посетил данную пару (состояние, действие) или должен быть ограничен количеством выполненных итераций?
Мои предложения:
- Понизьте значение эпсилона за каждый раз, когда была встречена пара (состояние, действие).
- Опустите значение epsilon после выполнения полной итерации.
- Опустите значение epsilon для каждого раза, когда мы сталкиваемся с состоянием s.
Очень ценно!
Ответы
Ответ 1
Хотя во многих простых случаях εk сохраняется как фиксированное число в диапазоне 0 и 1, вы должны знать, что:
Обычно исследование ослабевает с течением времени, так что политика, используемая асимптотически, становится жадной и, следовательно, (как Qk → Q *) оптимальной. Это может быть достигнуто путем приближения εk к 0 при возрастании k. Например, график ε-грейдов расписания вида εk = 1/k уменьшается до 0 при k → ∞, но при этом удовлетворяет второму условию сходимости Q-обучения, т.е. Позволяя бесконечно много посещений всего действия государства пар (Singh et al., 2000).
Что я обычно делаю:
установите начальную альфа = 1/k (рассмотрим начальные k = 1 или 2)
после того, как вы пройдете испытание методом проб, а k увеличится, альфа уменьшится.
он также гарантирует гарантированность конвергенции.
Ответ 2
Обычно разумно просто задавать ε положительной константе, если у вас нет веских оснований не делать этого.