Разница между выбором функции, извлечением функции, весом функций
Я немного смущен относительно того, что означает "выбор/извлечение/весы" и разница между ними. Поскольку я иногда читаю литературу, я чувствую себя потерянной, поскольку считаю, что этот термин используется довольно свободно, мои основные проблемы -
-
Когда люди говорят о частоте функции, присутствию функции - это выбор функции?
-
Когда люди говорят об алгоритмах, таких как Information Gain, Maximum Entropy - это выбор функции.
-
Если я тренирую классификатор - с набором функций, который просит классификатор отметить позицию слова в документе в качестве примера - будет ли еще вызов этого выбора функции?
Спасибо
Рахул Дих
Ответы
Ответ 1
Рахул -
Все это хорошие ответы. Единственное, что я хотел бы упомянуть, это то, что фундаментальное различие между выбором и извлечением связано с тем, как вы обрабатываете данные.
Функция Извлечение методов является преобразовательным - то есть вы применяете преобразование к своим данным, чтобы проецировать его в новое пространство с меньшим размером. PCA и SVD являются примерами этого.
Методы выбора объектов выбирают функции из исходного набора, основанные на некоторых критериях, информация Gain, Correlation и Mutual Information - это только критерии, которые используются для фильтрации несущественных или избыточных функций. Встроенные или оберточные методы, как они называются, могут использовать специализированные классификаторы для одновременного выбора функций и классификации набора данных.
Действительно хороший обзор проблемного пространства дается здесь.
Удачи!
Ответ 2
Извлечение функции: уменьшить размерность (линейный или не-
линейная) проекция D-мерного вектора на d-мерную
вектор (d < D).
Пример: анализ основных компонентов
Выбор функции: уменьшить размерность, выбрав подмножество
исходных переменных.
Пример: выбор функции вперед или назад
Ответ 3
Выбор функций - это процесс выбора "интересных" функций из вашего набора для дальнейшей обработки.
Функция Частота - это просто частота, с которой появляется функция.
Усиление информации, максимальная энтропия и т.д. - это методы взвешивания, в которых используется функция Frequency Frequency, которая, в свою очередь, позволяет выполнять выбор функций.
Подумайте об этом так:
Вы разбираете корпус и создаете матрицу терминов/документов. Эта матрица начинается как счетчик терминов и какой документ, в котором они появляются (простая частота).
Чтобы сделать эту матрицу более значимой, вы взвешиваете термины, основанные на некоторой функции, включая частоту (например, частоту с частотно-инвертируемым периодом документа, коэффициент усиления информации, максимальную энтропию). Теперь эта матрица содержит веса или значение каждого члена по отношению к другим членам в матрице.
После этого вы можете использовать функцию выбора, чтобы сохранить только самые важные термины (если вы делаете такие вещи, как классификация или категоризация) и выполнять дальнейший анализ.