Распознавание логотипов в изображениях

Кто-нибудь знает о недавней академической работе, которая была сделана при распознавании логотипа в образах? Пожалуйста, ответьте только в том случае, если вы знакомы с этим конкретным предметом (я могу лично найти Google для "признания логотипа", большое спасибо). Любой, кто хорошо разбирается в компьютерном видении и проделал работу по распознаванию объектов, также может комментировать.

Обновление: Пожалуйста, обратитесь к алгоритмическим аспектам (какой подход, по вашему мнению, уместен, документы на местах, должен ли он работать (и был протестирован) для данных реального мира, соображения эффективности), а не технические стороны (используемый язык программирования или был с OpenCV...) Также может помочь работа по индексированию изображений и поиску изображений на основе контента.

Ответы

Ответ 1

Вы можете попробовать использовать локальные функции, такие как SIFT здесь: http://en.wikipedia.org/wiki/Scale-invariant_feature_transform

Он должен работать, потому что форма логотипа обычно постоянна, поэтому извлеченные функции должны хорошо соответствовать.

Рабочий процесс будет выглядеть следующим образом:

Обнаружение углов (например, углового детектора Harris) - для логотипа Nike у них два резких конца.
Вычислить дескрипторы (например, целочисленный вектор SIFT-128D)
На этапе обучения запомните их; на этапе согласования найдите ближайших соседей для каждой функции в базе данных, полученной во время обучения. Наконец, у вас есть набор совпадений (некоторые из них, вероятно, неверны).
Исправлены неправильные совпадения с использованием RANSAC. Таким образом, вы получите матрицу, которая описывает преобразование от идеального логотипа к тому, где вы найдете логотип. В зависимости от настроек вы можете разрешать различные виды преобразований (просто перевод, перевод и вращение, аффинное преобразование).

В книге Селиски есть глава (4.1) о локальных особенностях. http://research.microsoft.com/en-us/um/people/szeliski/Book/

P.S.

Я предположил, что вы хотите найти логотипы на фотографиях, например, найти все рекламные щиты Pepsi, чтобы они могли быть искажены. Если вам нужно найти логотип телеканала на экране (чтобы он не поворачивался и не масштабировался), вы могли бы сделать это проще (сопоставление с образцом или что-то еще).
Обычный SIFT не учитывает информацию о цвете. Поскольку логотипы обычно имеют постоянные цвета (хотя точный цвет зависит от молнии и камеры), вы можете каким-то образом рассмотреть информацию о цвете.

Ответ 2

Мы работали над обнаружением/распознаванием логотипов в реальных изображениях. Мы также создали набор данных FlickrLogos-32 и сделали его общедоступным, включая данные, основные истинные и оценочные сценарии.

В нашей работе мы рассматривали распознавание логотипов как проблему поиска, чтобы упростить распознавание нескольких классов и позволить таким системам легко масштабироваться для многих (например, тысяч) классов логотипов.

В последнее время мы разработали метод связывания, называемый Min-Hashing Bundle, который объединяет пространственные конфигурации множества локальных функций в высоко отличительные комплекты функций. Представление связки можно использовать как для поиска, так и для распознавания. См. Следующие примеры шаблонов для обнаружения логотипов:

Вы найдете более подробную информацию о внутренних операциях, потенциальных приложениях подхода, опытах по его эффективности и, конечно, также много ссылок на соответствующую работу в документах [1] [2].

Ответ 3

Работа над этим: сопоставление и поиск товарных знаков в базах данных спортивных видео получить PDF-документ: http://scholar.google.it/scholar?cluster=9926471658203167449&hl=en&as_sdt=2000

Мы использовали SIFT в качестве дескрипторов товарных знаков и изображений и нормализованное пороговое соответствие для вычисления расстояния между моделями и изображениями. В нашей последней работе мы смогли значительно сократить вычисления с использованием метамоделей, создав оценку релевантности точек SIFT, которые присутствуют в разных версиях одного и того же товарного знака.

Я бы сказал, что в целом работа с видео более сложна, чем работа с фотографиями из-за очень плохого визуального качества используемых в настоящее время телевизионных стандартов.

Marco

Ответ 4

Я работал над проектом, где нам приходилось делать что-то очень похожее. Сначала я попытался использовать методы обучения Haar с помощью этого программного обеспечения.

OpenCV

Он работал, но не был оптимальным решением для наших нужд. Наши исходные изображения (где мы искали логотип) были фиксированного размера и содержали только логотип. Из-за этого мы смогли использовать cvMatchShapes с известным хорошим совпадением и сравнить возвращаемое значение, чтобы считать хорошее совпадение.