Extracción de características

La extracción de características es un tipo de abstracción , un proceso de reducción de la dimensionalidad en el que el conjunto original de variables iniciales se reduce a grupos (características) más manejables para su posterior procesamiento, sin dejar de ser un conjunto suficiente para describir de forma precisa y completa el conjunto de datos original [1] . La extracción de características se utiliza en el aprendizaje automático , el reconocimiento de patrones y el procesamiento de imágenes . La extracción de características parte del conjunto de datos original, deriva valores secundarios ( características ) para los que se supone que son informativos y no redundantes, lo que contribuye al proceso posterior de aprendizaje automático y generalización de pasos, y en algunos casos conduce a una mejor interpretación humana de los datos.

Cuando los datos de entrada de un algoritmo son demasiado grandes para procesarlos y existe la sospecha de que los datos son redundantes (por ejemplo, las medidas se toman en pies y metros, o la repetibilidad de las imágenes se representa en píxeles ), entonces pueden ser transformado en un conjunto de características reducido (llamado vector de características ). La definición de un subconjunto de características iniciales se denomina selección de características [2] . Las funciones seleccionadas se comparan con el contenido de la información necesaria en los datos de entrada, de modo que la tarea deseada se pueda realizar utilizando este conjunto reducido en lugar de los datos completos originales.

Enfoque general

La extracción de características implica reducir la cantidad de recursos necesarios para describir un gran conjunto de datos. A la hora de analizar datos complejos, uno de los principales problemas se origina por la cantidad de variables involucradas. El análisis con una gran cantidad de variables generalmente requiere mucha memoria y potencia de procesamiento, y también puede causar que los algoritmos de problemas de clasificación se sobreajusten con respecto al conjunto de entrenamiento, lo que generalmente conduce a resultados deficientes para nuevas muestras. La extracción de características es el término principal para los métodos de construcción de combinaciones de variables para sortear estos problemas sin dejar de describir los datos con suficiente precisión. Muchos profesionales del aprendizaje automático creen que la extracción de características correctamente optimizada es la clave para construir un modelo eficiente [3] .

Los resultados se pueden mejorar utilizando un conjunto integrado de funciones específicas de la aplicación, generalmente creadas por expertos. Uno de estos procesos se llama ingeniería de características . Alternativamente, se utilizan técnicas generales de reducción de dimensionalidad, tales como:

Análisis de componentes independientes
Isomapa
Método del componente principal nuclear
Análisis semántico latente
Regresión de mínimos cuadrados parciales
Método de componentes principales
Reducción de dimensiones del espacio multifactorial
Reducción de dimensionalidad no lineal
Método de Componentes Principales Multilineales
Aprendizaje subespacial multilineal
Incrustación semidefinida
Codificador automático

Procesamiento de imágenes

Un área muy importante de la aplicación de extracción de características es el procesamiento de imágenes , que utiliza algoritmos para detectar y aislar varias partes o formas deseadas (características) de una imagen digital o transmisión de video . Una de las áreas importantes de aplicación de los métodos es el reconocimiento óptico de caracteres .

Bajo nivel

Resaltado de bordes
Detección de esquinas
Detección de manchas
Detección de crestas
Transformación de características de escala invariable

Curvatura

Dirección de borde, cambio de intensidad, autocorrelación .

Imágenes en movimiento

Detección de movimiento . Enfoques zonales y diferenciales. flujo óptico .

Métodos basados en formas

Filtrado de umbral
Seleccionando objetos
Coincidencia de patrones
Algoritmo para encontrar puntos singulares y compararlos SIFT
Hough transformar
- Directo
- Círculos/puntos suspensivos
- Cifras arbitrarias (transformada de Hough generalizada)
- Trabajar con cualquier función parametrizable (parámetros de clase, detección de clústeres, etc.)

Métodos flexibles

Formas deformables y parametrizadas
Contornos activos (retorcimiento)