Что такое дескриптор функции в обработке изображений (алгоритм или описание)?

Меня часто путают со значением дескриптора термина в контексте функций изображения. Является ли дескриптор описанием локальной окрестности точки (например, вектором float) или является дескриптором алгоритма, который выводит описание? Кроме того, что именно является результатом вывода функции-экстрактора?

Я задавал себе этот вопрос в течение длительного времени, и единственным объяснением, которое я придумал, является то, что дескриптор - это и алгоритм, и описание. Детектор признаков используется для обнаружения отличительных точек. Однако функция-экстрактор не имеет никакого смысла.

Пожалуйста, помогите мне прояснить это недоразумение. спасибо!

Ответы

Ответ 1

Функциональный детектор - это алгоритм, который принимает изображения и выводит местоположения (то есть пиксельные координаты) значительных областей вашего изображения. Примером этого является угловой детектор, который выводит расположение углов в вашем изображении, но не сообщает вам никакой другой информации об обнаруженных признаках.

Дескриптор функции - это алгоритм, который принимает изображение и выводит дескрипторы функций/векторы признаков. Функциональные дескрипторы кодируют интересную информацию в ряд чисел и действуют как своего рода числовые "отпечатки пальцев", которые могут использоваться для дифференциации одной функции от другой. В идеале эта информация будет инвариантна относительно преобразования изображения, поэтому мы можем снова найти эту функцию, даже если изображение каким-то образом преобразуется. Примером может служить SIFT, который кодирует информацию о градиентах локального соседства с номерами вектора признаков. Другие примеры, которые вы можете прочитать, это HOG и SURF.


РЕДАКТИРОВАНИЕ. Когда дело доходит до детектора функции, "местоположение" может также содержать номер, описывающий размер или масштаб функции. Это потому, что вещи, которые выглядят как углы при "увеличении", могут не выглядеть как углы при "увеличении", поэтому важно определить масштабную информацию. Поэтому вместо того, чтобы просто использовать пару (x,y) в качестве местоположения в "пространстве изображения", у вас может быть тройной (x,y,scale) как место в "пространстве шкалы".