Как я могу применить усиленное обучение к пространствам непрерывных действий?

Я пытаюсь получить агента для изучения движений мыши, необходимых для наилучшего выполнения какой-либо задачи в настройке обучения подкрепления (т.е. сигнал вознаграждения является единственной обратной связью для обучения).

Я надеюсь использовать метод Q-обучения, но пока я нашел способ распространения этого метода на непрерывные пространства состояний, я не могу похоже, выясняют, как решить проблему с непрерывным пространством действий.

Я мог бы просто заставить все движения мыши иметь определенную величину и только в определенном количестве разных направлений, но любой разумный способ сделать действия дискретными приведет к огромному пространству действий. Поскольку стандартное Q-обучение требует от агента оценки всех возможных действий, такое приближение не решает проблему в каком-либо практическом смысле.

Ответы

Ответ 1

Распространенным способом решения этой проблемы являются методы актер-критика. Они естественным образом распространяются на пространства непрерывного действия. Базовое Q-обучение может расходиться при работе с аппроксимациями, однако, если вы все еще хотите его использовать, вы можете попробовать объединить его с самоорганизующейся картой, как это сделано в разделе "Приложения самоорганизующейся карты к обучению с подкреплением". В документе также содержатся некоторые дополнительные ссылки, которые могут оказаться полезными.

Ответ 2

Ускоренная перемотка вперед в этом году, люди из DeepMind предлагают метод обучения актера-критика глубокого подкрепления для работы с и непрерывным состоянием и пространством действий. Он основан на технике, называемой детерминированным градиентом политики. См. Статью Непрерывный контроль с глубоким обучением подкреплением и некоторые реализация.

Ответ 3

Существует множество способов расширить обучение с подкреплением на непрерывные действия. Одним из способов является использование методов актер-критик. Другой способ - использовать методы градиента политики.

Довольно подробное объяснение различных методов можно найти в следующей статье, которая доступна в Интернете: Обучение усилению в непрерывном пространстве состояний и действий (Хадо ван Хасселт и Марко А. Виринг).

Ответ 4

За то, что вы делаете, я не считаю, что вам нужно работать в непрерывных пространствах действий. Хотя физическая мышь перемещается в непрерывном пространстве, внутри курсора перемещаются только дискретные шаги (обычно на уровнях пикселей), поэтому получение какой-либо точности выше этого порога кажется, что это не повлияет на производительность вашего агента. Пространство состояний все еще довольно велико, но оно конечно и дискретно.

Ответ 5

Я знаю, что этот пост несколько устарел, но в 2016 году был предложен вариант Q-обучения, применяемый к пространствам непрерывных действий, в качестве альтернативы методам актер-критик. Это называется нормализованные функции преимущества (NAF). Вот статья: Непрерывное глубокое Q-Learning с ускорением на основе моделей

Ответ 6

Еще один документ для создания списка, основанный на ценностной школе, - это Input выпуклые нейронные сети. Идея состоит в том, чтобы требовать, чтобы Q (s, a) были выпуклыми в действиях (не обязательно в состояниях). Затем решение вывода Q argmax сводится к нахождению глобального оптимума с использованием выпуклости, намного быстрее, чем исчерпывающая развертка, и проще в реализации, чем другие подходы, основанные на значениях. Тем не менее, вероятно, за счет меньшей мощности представления, чем обычные прямые или сверточные нейронные сети.