Método nuclear

Los métodos nucleares en el aprendizaje automático son una clase de algoritmos de reconocimiento de patrones , el representante más famoso de los cuales es la máquina de vectores de soporte (SVM, eng.  SVM ). La tarea general del reconocimiento de patrones es encontrar y aprender tipos comunes de relaciones (por ejemplo , grupos , clasificaciones , componentes principales , correlaciones , clasificaciones ) en conjuntos de datos. Para muchos de los algoritmos que resuelven estos problemas, los datos sin procesar se convierten explícitamente en una representación de vector de características mediante un esquema de distribución de características específico , pero los métodos del kernel solo requieren un kernel específico , es decir, las funciones de similitud de pares de puntos de datos en la representación en bruto.

Los métodos del núcleo obtuvieron su nombre del uso de funciones del núcleo , que les permiten operar en un espacio de características implícitas de alta dimensión sin calcular las coordenadas de los datos en el espacio, simplemente calculando los productos punto entre las imágenes de todos los datos pares en el espacio de características. Esta operación suele ser computacionalmente más barata que los cálculos de coordenadas explícitos. Este enfoque se llama el " truco nuclear " [1] . Se han introducido funciones kernel para datos en serie, gráficos , textos, imágenes y también para vectores.

Entre los algoritmos capaces de trabajar con kernels se encuentran el perceptrón nuclear , las máquinas de vectores de soporte, los procesos gaussianos , el análisis de componentes principales ( PCA ), el análisis de correlación canónica , la regresión de crestas , el agrupamiento espectral , los filtros adaptativos lineales y muchos otros .  Cualquier modelo lineal se puede convertir en un modelo no lineal aplicando un truco kernel al modelo, reemplazando sus características (predictores) con una función kernel.

La mayoría de los algoritmos del núcleo se basan en la optimización convexa o en la búsqueda de vectores propios y están bien fundamentados estadísticamente. Por lo general, sus propiedades estadísticas se analizan utilizando la teoría del aprendizaje estadístico (por ejemplo, utilizando la complejidad de Rademacher ).

Causas y explicación informal

Los métodos del kernel se pueden considerar como aprendizaje por ejemplo : en lugar de aprender un conjunto fijo de parámetros correspondientes a las características de entrada, "recuerdan" el ejemplo de entrenamiento y entrenan de acuerdo con sus pesos . Predicción para entrada no etiquetada, es decir no incluido en el conjunto de entrenamiento se aprende usando la función de similitud (llamada kernel ) entre la entrada sin etiquetar y cada una de las entradas de entrenamiento . Por ejemplo, un clasificador binario del kernel generalmente calcula una suma de similitud ponderada usando la fórmula

,

dónde

Los clasificadores nucleares se describieron a principios de la década de 1960 con la invención del perceptrón nuclear [2] . Obtuvieron una amplia aceptación junto con la popularidad de las máquinas de vectores de soporte en la década de 1990, cuando se descubrió que SVM era competitivo con las redes neuronales en tareas como el reconocimiento de escritura a mano .

Matemáticas: El truco nuclear

El truco del kernel evita el mapeo explícito que se necesita para obtener un algoritmo de aprendizaje lineal para una función no lineal o límite de decisión . Para todos y en el espacio de entrada, algunas funciones se pueden representar como un producto escalar en otro espacio . La función a menudo se denomina núcleo o función del núcleo . La palabra "núcleo" se usa en matemáticas para referirse a una función de peso o integral .

Algunos problemas de aprendizaje automático tienen una estructura adicional en lugar de solo una función de peso . Los cálculos serán mucho más fáciles si el kernel se puede escribir como un "mapeo de características" que satisface la igualdad

La principal restricción aquí es qué debe ser un producto escalar adecuado. Por otro lado, no es necesaria una representación explícita de, ya que es un espacio de producto punto . La alternativa se deriva del teorema de Mercer : existe una función implícitamente definida si el espacio puede equiparse con una medida apropiada que asegure que la función satisface la condición de Mercer .

El teorema de Mercer es como una generalización de un resultado del álgebra lineal que relaciona el producto escalar con cualquier matriz definida positiva . De hecho, la condición de Mercer se puede reducir a este simple caso. Si elegimos como nuestra medida una medida de conteo para todos , que cuenta el número de puntos dentro del conjunto , entonces la integral en el teorema de Mercer se reduce a la sumatoria

Si esta desigualdad se cumple para todas las sucesiones finitas de puntos y todos los conjuntos de coeficientes con valores reales (cf. Núcleo definido positivo ), entonces la función satisface la condición de Mercer.

Algunos algoritmos que dependen de enlaces arbitrarios en el espacio original , de hecho, tendrán una representación lineal en otras condiciones: en el espacio a distancia . La interpretación lineal nos da una idea del algoritmo. Además, a menudo no es necesario calcular directamente en el momento del cálculo, como es el caso de la máquina de vectores de soporte . Algunos consideran que la reducción de tiempo debido a esto es la principal ventaja del algoritmo. Los investigadores lo utilizan para refinar el significado y las propiedades de los algoritmos existentes.

Teóricamente, la matriz de Gram con respecto a (a veces llamada "matriz del núcleo" [3] ), donde , debería ser semidefinida positiva [4] . Empíricamente, para las heurísticas de aprendizaje automático, la elección de una función que no satisfaga la condición de Mercer aún puede estar justificada si al menos se aproxima a la idea intuitiva de similitud [5] . Ya sea que el núcleo sea Mercer o no, se puede seguir denominándolo como "el núcleo".

Si la función kernel también es una función covariante , que se utiliza en un proceso gaussiano , entonces la matriz de Gram puede denominarse matriz de covarianza [6] .

Aplicaciones

Las aplicaciones de los métodos nucleares son diversas e incluyen geoestadística [7] , kriging , distancia ponderada , reconstrucción 3D , bioinformática , quimioinformática , extracción de información y reconocimiento de escritura a mano .

Núcleos populares

Notas

  1. Theodoridis, 2008 , pág. 203.
  2. Aizerman, Braverman, Rozoner, 1964 , p. 821–837.
  3. Hofmann, Scholkopf, Smola, 2007 .
  4. Mohri, Rostamizadeh, Talwalkar, 2012 .
  5. Sewell, Martin Support Vector Machines: Mercer's Condition . www.svms.org .
  6. Rasmussen, Williams, 2006 .
  7. Honarkhah, Caers, 2010 , pág. 487–517.

Literatura

Literatura

Enlace