Histograma de gradientes direccionales

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 27 de mayo de 2014; las comprobaciones requieren 15 ediciones .

Los histogramas de  gradientes orientados ( HOG ) son descriptores de puntos característicos que se utilizan en la visión artificial y el procesamiento de imágenes con el fin de reconocer objetos . Esta técnica se basa en contar el número de direcciones de degradado en áreas locales de la imagen. Este método es similar a los histogramas de dirección de borde , los descriptores SIFT y los contextos de forma , pero se diferencia en que se calcula en una cuadrícula densa de celdas distribuidas uniformemente y utiliza la normalización de contraste local superpuesta para aumentar la precisión.

Navneet Dalal y Bill Triggs , investigadores de INRIA , describieron por primera vez el histograma de gradientes direccionales en su artículo sobre CVPR en junio de 2005. En este trabajo utilizaron un algoritmo para encontrar peatones en imágenes estáticas, aunque posteriormente ampliaron el alcance para encontrar personas en vídeo, así como varios animales y coches en imágenes estáticas.

Teoría

La idea principal del algoritmo es la suposición de que la apariencia y la forma de un objeto en un área de la imagen pueden describirse mediante la distribución de gradientes de intensidad o la dirección de los bordes. La implementación de estos descriptores se puede realizar dividiendo la imagen en pequeñas regiones conectadas llamadas celdas y calculando para cada celda un histograma de direcciones de gradiente o direcciones de borde para los píxeles dentro de la celda. La combinación de estos histogramas es el descriptor. Para aumentar la precisión, los histogramas locales se normalizan por contraste. Para este propósito, se calcula una medida de intensidad en un fragmento más grande de la imagen, que se llama bloque, y el valor resultante se usa para la normalización. Los descriptores normalizados tienen mejor invariancia de iluminación.

El descriptor HOG tiene varias ventajas sobre otros descriptores. Dado que HOG trabaja localmente, el método mantiene la invariancia de las transformaciones geométricas y fotométricas, a excepción de la orientación del objeto. Dichos cambios aparecerán solo en grandes fragmentos de la imagen. Además, como encontraron Dalal y Triggs, la partición del espacio aproximado, el cálculo preciso de la dirección y la fuerte normalización fotométrica local permiten ignorar los movimientos de los peatones si mantienen una posición corporal erguida. El descriptor HOG es, por lo tanto, un buen medio para encontrar personas en las imágenes. [una]

Implementación del algoritmo

Cálculo de gradiente

El primer paso de cálculo en muchos detectores de puntos característicos es la normalización del color y la corrección gamma. Dalal y Triggs encontraron que para el descriptor HOG, este paso se puede omitir, ya que la normalización posterior dará el mismo resultado. Por lo tanto, en el primer paso, se calculan los valores de los gradientes. El método más común es aplicar una máscara diferenciadora unidimensional en dirección horizontal y/o vertical. Este método requiere filtrar el componente de tono o luminancia utilizando los siguientes núcleos de filtro:

y

Dalal y Triggs usaron máscaras más complejas como Sobel 3x3 ( Sobel Operator ) o máscaras diagonales, pero estas máscaras mostraron un rendimiento más bajo para la tarea dada. También experimentaron con el desenfoque gaussiano antes de aplicar la máscara de diferenciación, pero también descubrieron que omitir este paso aumentaba el rendimiento sin una pérdida notable de calidad. [2]

Agrupar destinos

El siguiente paso es calcular histogramas de celdas. Cada píxel de una celda participa en un voto ponderado para los canales de histograma de dirección en función del valor de los gradientes. Las celdas pueden ser rectangulares o redondas, y los canales del histograma se distribuyen uniformemente de 0 a 180 o de 0 a 360 grados, dependiendo de si se calcula el "gradiente con signo" o el "sin signo". Dalal y Triggs descubrieron que un gradiente sin signo combinado con nueve canales de histograma daba mejores resultados en el reconocimiento humano. Al distribuir pesos en la votación, el peso de un píxel puede estar dado por el valor absoluto del degradado o por alguna función del mismo; en pruebas reales, el valor absoluto del gradiente da los mejores resultados. Otras opciones posibles serían la raíz cuadrada, el cuadrado o un valor absoluto recortado del gradiente. [3]

Bloques descriptores

Para tener en cuenta el brillo y el contraste, los gradientes deben normalizarse localmente agrupando las celdas en bloques conectados más grandes. El descriptor HOG es, por lo tanto, un vector de componentes de histogramas de celdas normalizados de todas las áreas del bloque. Por regla general, los bloques se superponen, es decir, cada celda se incluye en más de un descriptor final. Se utilizan dos geometrías de bloques básicos: R-HOG rectangular y C-HOG redondo. Los bloques R-HOG suelen ser cuadrículas cuadradas caracterizadas por tres parámetros: el número de celdas por bloque, el número de píxeles por celda y el número de bandas por histograma de celda. En el experimento de Dalal y Triggs, los parámetros óptimos son 16x16 bloques, 8x8 celdas y 9 canales por histograma. Además, descubrieron que podían aumentar ligeramente la velocidad computacional aplicando un filtro gaussiano dentro de cada bloque antes de votar, lo que a su vez reduce el peso de los píxeles en los límites del bloque. Los bloques R-HOG resultan ser muy similares a los descriptores SIFT ; sin embargo, a pesar de su estructura similar, los bloques R-HOG se calculan en cuadrículas estrechas de escala fija sin dirección fija, mientras que los descriptores SIFT se calculan en puntos clave dispersos e insensibles a la escala en la imagen y utilizan la rotación para alinear la dirección. Además, los bloques R-HOG se usan juntos para codificar información sobre la forma de los objetos, mientras que los descriptores SIFT se usan por separado.

Los bloques C-HOG tienen 2 variedades: con una celda central sólida y divididos en sectores. Estos bloques se pueden describir por 4 parámetros: el número de sectores y anillos, el radio del anillo central y el coeficiente de expansión para los radios de los anillos restantes. Dalal y Triggs descubrieron que ambas variedades funcionaban de la misma manera, y dividirse en 2 anillos y 4 sectores con un radio de 4 píxeles y un factor de expansión de 2 daba el mejor resultado en su experimento. Además, la ponderación gaussiana no proporcionó ninguna mejora al usar bloques C-HOG. Estos bloques son similares a los contextos de forma , pero tienen una diferencia importante: los bloques C-HOG contienen celdas con múltiples canales de dirección, mientras que los contextos de forma solo usan la presencia de un solo borde. [cuatro]

Normalización de bloques

Dalal y Triggs exploraron cuatro métodos para la normalización de bloques. Sea  un vector no normalizado que contenga todos los histogramas de un bloque dado,  sea su k -norma para y  sea una pequeña constante (el valor exacto no es tan importante). Entonces el factor de normalización se puede obtener de una de las siguientes maneras:

L2-norma: L2-hys: La norma L2 está acotada desde arriba (los valores de v superiores a 0,2 se igualan a 0,2) y se vuelve a normalizar como en [5] L1-norma: raíz de la norma L1:

Dalal y Triggs descubrieron que la norma L1 es menos fiable que las otras tres, que funcionan igual de bien, pero los cuatro métodos son significativamente mejores que los no normalizados. [cuatro]

Clasificador SVM

El paso final en el reconocimiento de objetos usando HOG es la clasificación de descriptores usando un sistema de aprendizaje supervisado . Dalal y Triggs utilizaron la máquina de vectores de soporte (SVM, Support Vector Machine).

Pruebas

En el experimento original de detección en humanos, Dalal y Triggs compararon los descriptores R-HOG y C-HOG con contextos de forma y wavelets de Haar generalizados . Las wavelets de Haar generalizadas son wavelets de Haar direccionales y fueron utilizadas en 2001 por Mohan, Papageorgiou y Poggio en sus experimentos de detección de objetos. Los descriptores PCA-SIFT son similares a los descriptores SIFT, pero difieren en que el análisis de componentes principales se aplica a gradientes normalizados . Los descriptores PCA-SIFT fueron utilizados por primera vez en 2004 por Ke y Sukthankar; se afirmó que son superiores en sus parámetros a los descriptores SIFT convencionales. Por último, los contextos de forma, como C-HOG, usan contenedores redondos, pero solo cuentan los votos en función de la presencia de un borde, no de la orientación. Los contextos de forma aparecieron en 2001 en el trabajo de Belonga, Malik y Puzich.

Las pruebas se llevaron a cabo en dos conjuntos de datos diferentes. La base de datos de peatones del MIT contiene un conjunto de entrenamiento de 509 imágenes y un conjunto de prueba de 200 imágenes. El conjunto contiene imágenes de personas solo de frente o de espaldas, las poses en las imágenes son casi las mismas. Esta base de datos es ampliamente conocida y utilizada en otros estudios y se puede encontrar en https://web.archive.org/web/20080130190339/http://cbcl.mit.edu/cbcl/software-datasets/PedestrianData.html . El segundo conjunto de datos fue creado especialmente por Dalal y Triggs para su experimento, ya que los descriptores HOG mostraron resultados casi perfectos en el conjunto del MIT. Este conjunto de datos, conocido como INRIA, contiene 1805 imágenes humanas. El conjunto contiene imágenes de personas en una amplia variedad de poses, incluye imágenes con fondos difíciles (como multitudes) y es mucho más difícil de reconocer que el conjunto del MIT. La base de datos INRIA está actualmente disponible en http://lear.inrialpes.fr/data .

Según los resultados de la investigación, los descriptores C-HOG y R-HOG dan resultados comparables, y C-HOG tiene una proporción ligeramente menor de imágenes faltantes con una proporción fija de errores de tipo I en ambos conjuntos de imágenes.

descriptor Conjunto de imágenes Porcentaje de imágenes faltantes Proporción de errores de tipo I
CERDO MIT ≈0 10 −4
CERDO INRIA 0.1 10 −4
Wavelets de Haar generalizadas MIT 0.01 10 −4
Wavelets de Haar generalizadas INRIA 0.3 10 −4
PCA-SIFT, contextos de formulario MIT 0.1 10 −4
PCA-SIFT, contextos de formulario INRIA 0.5 10 −4

La tabla DET correspondiente se puede encontrar en el siguiente enlace . [2]

Mayor desarrollo

Como parte del taller Pascal Visual Object Classes en 2006, Dalal y Triggs presentaron los resultados del uso de descriptores HOG para buscar imágenes no solo de personas, sino también de automóviles, autobuses, bicicletas, perros, gatos y vacas, así como parámetros óptimos. para dar forma y normalizar bloques en cada caso. Haga clic en el enlace para ver ejemplos de detección de motocicletas. [6]

Luego, en la Conferencia Europea de Visión por Computador de 2006 , Dalal y Triggs trabajaron con Cordelia Schmid para aplicar los descriptores HOG al reconocimiento de video humano. Su método propuesto consiste en el uso conjunto de descriptores HOG convencionales en cada fotograma e histogramas de movimiento interno (IMH) en pares de fotogramas consecutivos. Los descriptores IMH utilizan las longitudes de los gradientes obtenidos del flujo óptico entre dos fotogramas consecutivos.

Véase también

Notas

  1. Histogramas de gradientes orientados para detección humana, pág. 2 . Archivado desde el original el 25 de enero de 2013.
  2. 1 2 Histogramas de gradientes orientados para detección humana, pág. 4 . Archivado desde el original el 25 de enero de 2013.
  3. Histogramas de gradientes orientados para detección humana, pág. 5 . Archivado desde el original el 25 de enero de 2013.
  4. 1 2 Histogramas de gradientes orientados para detección humana, pág. 6 _ Archivado desde el original el 25 de enero de 2013.
  5. DG Lowe. Características distintivas de la imagen a partir de puntos clave de escala invariable. IJCV, 60(2):91-110, 2004.
  6. Detección de objetos usando histogramas de gradientes orientados . Archivado desde el original el 25 de enero de 2013.

Enlaces