Поиск изображений по содержанию

Поиск изображений по содержанию (англ. Content-based image retrieval (CBIR)) — раздел компьютерного зрения, решающий задачу поиска изображений, которые имеют требуемое содержание, в большом наборе цифровых изображений.

Алгоритм поиска должен анализировать содержание изображения, например, цвет представленных на нём объектов, их форму, текстуру, композицию сцены. При отсутствии возможности проанализировать сцену при поиске рассматриваются метаданные: ключевые слова, метки.

История[править | править код]

Термин «Content-based image retrieval» впервые был введен в употребление в 1992 году Т. Като при описании экспериментов с автоматическим поиском изображений по критериям присутствующих цветов и геометрических форм. С того момента его применяют как обобщение процесса выборки изображений из базы по любым синтаксическим характеристикам объектов. Используемые алгоритмы, методы и программные инструменты берут начало в областях, связанных с обработкой сигналов, компьютерным зрением и статистикой.

Развитие[править | править код]

К области поиска изображений по содержательным критериям в настоящее время возрастает интерес, связанный с ограниченностью методов, основанных исключительно на категоризации метаданных, а также растущим потенциалом её применимости. В настоящий момент алгоритмы категоризации и поиска в текстовых данных позволяют довольно эффективно обращаться с описанными изображениями по метаданным, однако такой подход требует ручного описания каждого изображения в базе человеком. Это совершенно непрактично, в особенности в применении к большим базам или изображениям, создаваемым автоматически (например, камерами видеонаблюдения). Плюс ко всему есть далеко не нулевая вероятность упустить одно из целевых изображений поиска из-за многозначности или синонимии.

Потенциальные области применения алгоритмов поиска по содержанию:

Поиск изображений в сети Интернет
Каталогизация изображений произведений искусства
Организация работы с архивами фотографических снимков
Организация каталогов розничной продажи товаров
Медицинская диагностика заболеваний
Предотвращение преступлений и беспорядков
Военно-оружейное применение
Вопросы контроля за распространением интеллектуальной собственности
Получение информации о местоположении удаленных зондов и географическое позиционирование
Контроль за содержимым массивов изображений

Программные системы и алгоритмы[править | править код]

Несмотря на то, что существует множество программных комплексов по поиску изображений в базах данных, проблема поиска на основе пиксельного содержания в большинстве ситуаций пока не имеет реализованного решения. Смотри список поисковых систем по изображениям.

Способы построения запросов[править | править код]

Различные реализации систем поиска изображений по содержанию работают со следующими типами пользовательских запросов:

Пример результата[править | править код]

Предполагается, что система производит поиск на основе входного изображения, указываемого пользователем. Алгоритмы, составляющие систему, могут иметь различные способы описания и работы с входным изображением, но все результирующие экземпляры изображений должны иметь общие элементы с входом, указанным пользователем.

Пользователь может подать на вход как существующее изображение, так и грубый набросок требуемого результата (разметку на цветные области или простые геометрические формы).^[1]

При данном способе построения запросов не возникает трудностей, связанных с представлением изображения набором слов.

Разрешение семантики запроса[править | править код]

В идеале система поиска должна уметь обрабатывать запросы пользователя, сформулированные в свободной форме, например «найти фотографии собак» или даже «найти портреты Леонида Ильича Брежнева». Запросы такого типа очень сложны для обработки компьютером, ведь фотографии лабрадора и карликового пуделя сильно различаются, а Леонид Ильич не всегда смотрит в камеру в одинаковой позе. В настоящий момент многие системы используют для классификации характеристики низшего уровня, такие как цвет, текстура и форма объекта, хотя существуют и системы, в основном основанные на дифференциации критериев высокого уровня (см. Теория распознавания образов). Большинство систем не являются широко ориентированными. Например, системы поиска изображений, сгенерированных на компьютере, с успехом обходятся признаками, основанными на совмещении форм и градиентов.

Прочие способы[править | править код]

Эта категория включает в себя такие формы запросов, как определение категории в предложенной иерархии, запрос в виде части изображения, ожидаемого в качестве результата, расширение запроса дополнительными изображениями, графичный набросок, состоящий из сложных форм, а также комбинацию методов.

Также возможно постепенное уточнение запроса, когда пользователь в процессе работы системы поиска помечает промежуточные результаты как «подходящие» или «неудовлетворительные», и система продолжает работать с уточнённым запросом.

Методы описания содержания[править | править код]

Здесь представлены наиболее общие методы описания содержания изображений, использующиеся для последующего сравнения их между собой. Все они являются потенциально широко применимыми, то есть не специфическими для какого-либо особенного подкласса систем.

Цвет[править | править код]

Поиск изображений с помощью сравнения цветовых составляющих производится с помощью построения гистограммы их распределения. В настоящий момент ведутся исследования по построению описания, в котором изображение делится на регионы по сходным цветовым характеристикам, и далее учитывается их взаимное расположение. Описание изображений цветами, которые на них содержатся, является наиболее распространённым, так как оно не зависит от размера или ориентации изображения. Построение гистограмм с последующим их сравнением используется наиболее часто, но не является единственным способом описания цветовых характеристик.

Текстура[править | править код]

Методы такого описания работают со сравнением текстурных образцов, присутствующих на изображении, и их взаимного расположения. Для определения текстуры используют тексели, которые объединяют в множества. Они содержат не только информацию, описывающую текстуру, но и её местоположение на описываемом изображении. Текстуру как сущность сложно формализованно описать, и обычно её представляют в виде двухмерного массива изменения яркости. Также в описание иногда включают меру контраста, направленности градиента, регулярности. Существует проблема сравнения ковариации пикселей с целью присваивания текстурам классов, таких как «гладкая» или «грубая».

Форма[править | править код]

Описание формы предполагает описание геометрической формы отдельных регионов изображения. Для её определения к региону сначала применяют сегментацию или выделение границ. Существуют и другие способы, например фильтрация форм (Tushabe and Wilkinson, 2008). Часто определение формы требует вмешательства человека, так как методы типа сегментации сложно полностью автоматизировать для широкого класса задач.

Применение[править | править код]

Существуют компании, представляющие программные продукты, в которых алгоритмы поиска изображений по содержанию применяются для фильтрации содержимого веб-страниц и государственного мониторинга сетевого трафика с целью отслеживания изображений порнографического содержания.
Примеры:

Обратный поиск изображений TinEye.com
Поиск людей по фотографиям PhotoDate.ru

Ссылки[править | править код]

Query by Image and Video Content: The QBIC System, (Flickner, 1995)
Finding Naked People (Fleck et al., 1996)
Virage Video Engine (недоступная ссылка), (Hampapur, 1997)
Library-based Coding: a Representation for Efficient Video Compression and Retrieval, (Vasconcelos & Lippman, 1997)
System for Screening Objectionable Images (Wang et al., 1998)
Content-based Image Retrieval (JISC Technology Applications Programme Report 39) (Eakins & Graham 1999)
A Probabilistic Architecture for Content-based Image Retrieval, (Vasconcelos & Lippman, 2000)
A Unifying View of Image Similarity, (Vasconcelos & Lippman, 2000)
Next Generation Web Searches for Visual Content, (Lew, 2000)
Image Indexing with Mixture Hierarchies, (Vasconcelos, 2001)
SIMPLIcity: Semantics-Sensitive Integrated Matching for Picture Libraries (Wang, Li, and Wiederhold, 2001)
FACERET: An Interactive Face Retrieval System Based on Self-Organizing Maps (недоступная ссылка) (Ruiz-del-Solar et al., 2002)
Automatic Linguistic Indexing of Pictures by a Statistical Modeling Approach (Li and Wang, 2003)
Video google: A text retrieval approach to object matching in videos (Sivic & Zisserman, 2003)
Minimum Probability of Error Image Retrieval (Vasconcelos, 2004)
On the Efficient Evaluation of Probabilistic Similarity Functions for Image Retrieval (Vasconcelos, 2004)
Extending image retrieval systems with a thesaurus for shapes (Hove, 2004)
Names and Faces in the News (Berg et al., 2004)
Cortina: a system for large-scale, content-based web image retrieval (Quack et al., 2004)
A new perspective on Visual Information Retrieval (Eidenberger 2004)
Language-based Querying of Image Collections on the basis of an Extensible Ontology (Town and Sinclair, 2004)
Costume: A New Feature for Automatic Video Content Indexing (Jaffre 2005)
Automatic Face Recognition for Film Character Retrieval in Feature-Length Films (Arandjelovic & Zisserman, 2005)
Algorithm on which Retrievr (Flickr search) and imgSeek is based on (Jacobs, Finkelstein, Salesin)
Image Retrieval: Ideas, Influences, and Trends of the New Age (Datta et al., 2008)
Evaluating Use of Interfaces for Visual Query Specification. (Hove, 2007)
From Pixels to Semantic Spaces: Advances in Content-Based Image Retrieval (Vasconcelos, 2007)
Content-based Image Retrieval by Indexing Random Subwindows with Randomized Trees (Maree et al., 2007)
Real-Time Computerized Annotation of Pictures (Li and Wang, 2008)
Bird, C.L.; P.J. Elliott, Griffiths. User interfaces for content-based image retrieval (неопр.). — 1996.
Rui, Yong; Thomas S. Huang, Shih-Fu Chang. Image Retrieval: Current Techniques, Promising Directions, and Open Issues (неопр.). — 1999.
Datta, Ritendra; Dhiraj Joshi, Jia Li, James Z. Wang. Image Retrieval: Ideas, Influences, and Trends of the New Age (англ.) // ACM Computing Surveys (англ.) (рус. : journal. — 2008. — Vol. 40. — P. 1—60. — doi:10.1145/1348246.1348248.
Tushabe, F.; M.H.F. Wilkinson. Content-based Image Retrieval Using Combined 2D Attribute Pattern Spectra (англ.) // Springer Lecture Notes in Computer Science : journal. — 2008.

Примечания[править | править код]

↑ Shapiro, Linda; George Stockman. Computer Vision (неопр.). — Upper Saddle River, NJ: Prentice Hall, 2001. — ISBN 0-13-030796-3.

[1] Shapiro, Linda; George Stockman. Computer Vision (неопр.). — Upper Saddle River, NJ: Prentice Hall, 2001. — ISBN 0-13-030796-3.

[1]