Использовать обратную связь или подкрепление в процессе машинного обучения?
Я пытаюсь решить некоторую проблему классификации. Кажется, многие классические подходы следуют аналогичной парадигме. То есть, подготовьте модель с некоторым набором тренировок, а затем используйте ее для прогнозирования ярлыков классов для новых экземпляров.
Мне интересно, можно ли ввести механизм обратной связи в парадигму. В теории управления введение петли обратной связи является эффективным способом повышения производительности системы.
В настоящее время прямой подход на мой взгляд заключается в том, что сначала мы начинаем с первоначального набора экземпляров и обучаем модель с ними. Затем каждый раз, когда модель делает неправильное предсказание, мы добавляем неверный экземпляр в обучающий набор. Это отличается от слепого увеличения учебного набора, поскольку он более нацеливается. Это можно рассматривать как некую отрицательную обратную связь на языке теории управления.
Проводится ли какое-либо исследование с использованием подхода обратной связи? Может ли кто-нибудь пролить свет?
Ответы
Ответ 1
Есть две области исследований, которые spring должны учитывать.
Первое - Укрепление обучения. Это парадигма онлайн-обучения, которая позволяет вам получать обратную связь и обновлять свою политику (в этом случае, ваш классификатор), когда вы наблюдаете результаты.
Второе - активное обучение, где классификатор получает возможность выбирать примеры из пула неклассифицированных примеров для маркировки. Ключ состоит в том, чтобы классификатор выбирал примеры для маркировки, которые лучше всего повышают его точность, выбирая сложные примеры в рамках текущей гипотезы классификатора.
Ответ 2
Я использовал такую обратную связь для каждого проекта машинного обучения, над которым я работал. Это позволяет тренироваться на меньшем количестве данных (таким образом, обучение выполняется быстрее), чем случайным выбором данных. Точность модели также улучшается быстрее, чем при использовании случайно выбранных данных обучения. Я работаю над данными обработки изображений (компьютерное зрение), поэтому другой тип выбора, который я делаю, заключается в добавлении кластерных ложных (неправильных) данных вместо добавления всех ложных данных. Это потому, что я предполагаю, что у меня всегда будет некоторая ошибка, поэтому мое определение для положительных данных - это когда оно кластерно в той же области изображения.
Ответ 3
Я видел эту статью некоторое время назад, что, похоже, является тем, что вы ищете.
Они в основном моделируют проблемы классификации как процессы принятия решений Markov и решают с помощью Алгоритм ACLA. Документ гораздо более подробный, чем то, что я мог бы написать здесь, но в конечном итоге они получают результаты, превосходящие многоаспектный персептрон так что это выглядит довольно красиво эффективный метод.