Búsqueda de imágenes por contenido

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 24 de noviembre de 2017; las comprobaciones requieren 10 ediciones .

La recuperación de imágenes basada en contenido (CBIR) es una  sección de visión por computadora que resuelve el problema de encontrar imágenes que tengan el contenido requerido en un gran conjunto de imágenes digitales.

El algoritmo de búsqueda debe analizar el contenido de la imagen, por ejemplo, el color de los objetos presentados en ella, su forma, textura, composición de la escena. Si no es posible analizar la escena, la búsqueda considera metadatos : palabras clave, etiquetas.

Historia

El término "recuperación de imágenes basada en contenido" fue introducido por primera vez en 1992 por T. Kato cuando describía experimentos con recuperación automática de imágenes basada en los criterios de colores y formas geométricas presentes. Desde entonces, se ha utilizado como una generalización del proceso de selección de imágenes de la base de datos de acuerdo con las características sintácticas de los objetos. Los algoritmos, métodos y herramientas de software utilizados tienen su origen en áreas relacionadas con el procesamiento de señales , la visión artificial y las estadísticas .

Desarrollo

Actualmente existe un creciente interés en el campo de la búsqueda de imágenes por criterios de contenido, debido a las limitaciones de los métodos basados ​​únicamente en la categorización de metadatos, así como al creciente potencial de su aplicabilidad. Actualmente, los algoritmos de categorización y búsqueda en datos de texto permiten tratar las imágenes descritas utilizando metadatos de manera bastante eficiente, pero este enfoque requiere una descripción manual de cada imagen en la base de datos por parte de una persona. Esto es completamente impráctico, especialmente cuando se aplica a grandes bases de datos o imágenes generadas automáticamente (como cámaras de CCTV ). Además, existe una posibilidad de perder una de las imágenes objetivo de búsqueda debido a la ambigüedad o la sinonimia.

Aplicaciones potenciales para los algoritmos de búsqueda de contenido:

Sistemas de software y algoritmos

A pesar de que existen muchos paquetes de software para buscar imágenes en bases de datos, el problema de la búsqueda basada en el contenido de píxeles en la mayoría de las situaciones aún no se ha implementado. Consulte la lista de motores de búsqueda de imágenes.

Formas de generar consultas

Varias implementaciones de sistemas de búsqueda de contenido de imágenes funcionan con los siguientes tipos de consultas de usuario :

Ejemplo de resultado

Se supone que el sistema realiza una búsqueda basada en la imagen de entrada especificada por el usuario. Los algoritmos que componen el sistema pueden tener diferentes formas de describir y trabajar con la imagen de entrada, pero todas las instancias de la imagen resultante deben tener elementos comunes con la entrada especificada por el usuario.

El usuario puede ingresar tanto una imagen existente como un boceto aproximado del resultado deseado (marcado en áreas coloreadas o formas geométricas simples). [una]

Con este método de construcción de consultas, no hay dificultades asociadas con la representación de una imagen por un conjunto de palabras.

Resolución de la semántica de consultas

Idealmente, el sistema de búsqueda debería poder procesar las solicitudes de los usuarios formuladas de forma libre, por ejemplo, "buscar fotos de perros" o incluso "buscar retratos de Leonid Ilyich Brezhnev". Las solicitudes de este tipo son muy difíciles de procesar por una computadora, porque las fotografías de un labrador y un caniche miniatura son muy diferentes, y Leonid Ilich no siempre mira a la cámara en la misma pose. Actualmente, muchos sistemas utilizan características de bajo nivel como el color, la textura y la forma de un objeto para la clasificación, aunque también existen sistemas basados ​​principalmente en la diferenciación de criterios de alto nivel (ver teoría de reconocimiento de patrones ). La mayoría de los sistemas no tienen una orientación amplia. Por ejemplo, los sistemas de recuperación de imágenes generadas por computadora administran con éxito las características en función de formas y gradientes coincidentes.

Otras formas

Esta categoría incluye formularios de consulta como la definición de una categoría en una jerarquía propuesta, la consulta como parte de una imagen esperada como resultado, la ampliación de una consulta con imágenes adicionales, el esbozo gráfico con formas complejas y una combinación de métodos.

También es posible afinar gradualmente la consulta, cuando el usuario marca resultados intermedios como “adecuados” o “no satisfactorios” durante el sistema de búsqueda, y el sistema continúa trabajando con la consulta afinada.

Métodos para describir contenido

Estos son los métodos más comunes para describir el contenido de las imágenes, que se utilizan para su posterior comparación entre sí. Todos ellos son potencialmente ampliamente aplicables, es decir, no son específicos de ninguna subclase particular de sistemas.

Color

La búsqueda de imágenes mediante la comparación de componentes de color se realiza mediante la construcción de un histograma de su distribución. Por el momento, se está investigando para construir una descripción en la que la imagen se divida en regiones de acuerdo con características de color similares, y luego se tenga en cuenta su posición relativa. La descripción de las imágenes por los colores que contienen es la más habitual, ya que no depende del tamaño ni de la orientación de la imagen. La construcción de histogramas con su posterior comparación se usa con mayor frecuencia, pero no es la única forma de describir las características del color.

Textura

Los métodos de tal descripción funcionan con la comparación de muestras de textura presentes en la imagen y su posición relativa. Para determinar la textura, se utilizan texels , que se combinan en conjuntos. Contienen no solo información que describe la textura, sino también su ubicación en la imagen descrita. La textura como entidad es difícil de describir de manera formal y, por lo general, se representa como una matriz bidimensional de cambios de brillo . Además, la descripción a veces incluye una medida de contraste , direccionalidad de gradiente , regularidad. Existe el problema de comparar la covarianza de píxeles para asignar clases a texturas como "suave" o "áspera".

Formulario

La descripción de la forma implica la descripción de la forma geométrica de regiones individuales de la imagen. Para determinarlo, primero se aplica la segmentación o selección de límites a la región . Existen otros métodos, como el filtrado de formularios (Tushabe y Wilkinson, 2008). A menudo, la definición del formulario requiere intervención humana, ya que métodos como la segmentación son difíciles de automatizar por completo para una amplia clase de tareas.

Aplicación

Hay compañías de software que usan algoritmos de búsqueda de imágenes basadas en contenido para filtrar contenido web y monitorear el tráfico de la red gubernamental para rastrear imágenes de contenido pornográfico.
Ejemplos:

Enlaces

Notas

  1. Shapiro, Linda; Jorge Stockman. Visión artificial  (indefinido) . - Upper Saddle River, Nueva Jersey: Prentice Hall , 2001. - ISBN 0-13-030796-3 .