Распознавание логотипов в изображениях
Кто-нибудь знает о недавней академической работе, которая была сделана при распознавании логотипа в образах?
Пожалуйста, ответьте только в том случае, если вы знакомы с этим конкретным предметом (я могу лично найти Google для "признания логотипа", большое спасибо).
Любой, кто хорошо разбирается в компьютерном видении и проделал работу по распознаванию объектов, также может комментировать.
Обновление:
Пожалуйста, обратитесь к алгоритмическим аспектам (какой подход, по вашему мнению, уместен, документы на местах, должен ли он работать (и был протестирован) для данных реального мира, соображения эффективности), а не технические стороны (используемый язык программирования или был с OpenCV...)
Также может помочь работа по индексированию изображений и поиску изображений на основе контента.
Ответы
Ответ 1
Вы можете попробовать использовать локальные функции, такие как SIFT здесь:
http://en.wikipedia.org/wiki/Scale-invariant_feature_transform
Он должен работать, потому что форма логотипа обычно постоянна, поэтому извлеченные функции должны хорошо соответствовать.
Рабочий процесс будет выглядеть следующим образом:
-
Обнаружение углов (например, углового детектора Harris) - для логотипа Nike у них два резких конца.
-
Вычислить дескрипторы (например, целочисленный вектор SIFT-128D)
-
На этапе обучения запомните их; на этапе согласования найдите ближайших соседей для каждой функции в базе данных, полученной во время обучения. Наконец, у вас есть набор совпадений (некоторые из них, вероятно, неверны).
-
Исправлены неправильные совпадения с использованием RANSAC. Таким образом, вы получите матрицу, которая описывает преобразование от идеального логотипа к тому, где вы найдете логотип. В зависимости от настроек вы можете разрешать различные виды преобразований (просто перевод, перевод и вращение, аффинное преобразование).
В книге Селиски есть глава (4.1) о локальных особенностях.
http://research.microsoft.com/en-us/um/people/szeliski/Book/
P.S.
-
Я предположил, что вы хотите найти логотипы на фотографиях, например, найти все рекламные щиты Pepsi, чтобы они могли быть искажены. Если вам нужно найти логотип телеканала на экране (чтобы он не поворачивался и не масштабировался), вы могли бы сделать это проще (сопоставление с образцом или что-то еще).
-
Обычный SIFT не учитывает информацию о цвете. Поскольку логотипы обычно имеют постоянные цвета (хотя точный цвет зависит от молнии и камеры), вы можете каким-то образом рассмотреть информацию о цвете.
Ответ 2
Мы работали над обнаружением/распознаванием логотипов в реальных изображениях. Мы также создали набор данных FlickrLogos-32 и сделали его общедоступным, включая данные, основные истинные и оценочные сценарии.
В нашей работе мы рассматривали распознавание логотипов как проблему поиска, чтобы упростить распознавание нескольких классов и позволить таким системам легко масштабироваться для многих (например, тысяч) классов логотипов.
В последнее время мы разработали метод связывания, называемый Min-Hashing Bundle, который объединяет пространственные конфигурации множества локальных функций в высоко отличительные комплекты функций. Представление связки можно использовать как для поиска, так и для распознавания. См. Следующие примеры шаблонов для обнаружения логотипов:
![enter image description here]()
![enter image description here]()
Вы найдете более подробную информацию о внутренних операциях, потенциальных приложениях подхода, опытах по его эффективности и, конечно, также много ссылок на соответствующую работу в документах [1] [2].
Ответ 3
Работа над этим: сопоставление и поиск товарных знаков в базах данных спортивных видео
получить PDF-документ: http://scholar.google.it/scholar?cluster=9926471658203167449&hl=en&as_sdt=2000
Мы использовали SIFT в качестве дескрипторов товарных знаков и изображений и нормализованное пороговое соответствие для вычисления расстояния между моделями и изображениями. В нашей последней работе мы смогли значительно сократить вычисления с использованием метамоделей, создав оценку релевантности точек SIFT, которые присутствуют в разных версиях одного и того же товарного знака.
Я бы сказал, что в целом работа с видео более сложна, чем работа с фотографиями из-за очень плохого визуального качества используемых в настоящее время телевизионных стандартов.
Marco
Ответ 4
Я работал над проектом, где нам приходилось делать что-то очень похожее. Сначала я попытался использовать методы обучения Haar с помощью этого программного обеспечения.
OpenCV
Он работал, но не был оптимальным решением для наших нужд. Наши исходные изображения (где мы искали логотип) были фиксированного размера и содержали только логотип. Из-за этого мы смогли использовать cvMatchShapes с известным хорошим совпадением и сравнить возвращаемое значение, чтобы считать хорошее совпадение.