Método nuclear

Los métodos nucleares en el aprendizaje automático son una clase de algoritmos de reconocimiento de patrones , el representante más famoso de los cuales es la máquina de vectores de soporte (SVM, eng. SVM ). La tarea general del reconocimiento de patrones es encontrar y aprender tipos comunes de relaciones (por ejemplo , grupos , clasificaciones , componentes principales , correlaciones , clasificaciones ) en conjuntos de datos. Para muchos de los algoritmos que resuelven estos problemas, los datos sin procesar se convierten explícitamente en una representación de vector de características mediante un esquema de distribución de características específico , pero los métodos del kernel solo requieren un kernel específico , es decir, las funciones de similitud de pares de puntos de datos en la representación en bruto.

Los métodos del núcleo obtuvieron su nombre del uso de funciones del núcleo , que les permiten operar en un espacio de características implícitas de alta dimensión sin calcular las coordenadas de los datos en el espacio, simplemente calculando los productos punto entre las imágenes de todos los datos pares en el espacio de características. Esta operación suele ser computacionalmente más barata que los cálculos de coordenadas explícitos. Este enfoque se llama el " truco nuclear " [1] . Se han introducido funciones kernel para datos en serie, gráficos , textos, imágenes y también para vectores.

Entre los algoritmos capaces de trabajar con kernels se encuentran el perceptrón nuclear , las máquinas de vectores de soporte, los procesos gaussianos , el análisis de componentes principales ( PCA ), el análisis de correlación canónica , la regresión de crestas , el agrupamiento espectral , los filtros adaptativos lineales y muchos otros . Cualquier modelo lineal se puede convertir en un modelo no lineal aplicando un truco kernel al modelo, reemplazando sus características (predictores) con una función kernel.

La mayoría de los algoritmos del núcleo se basan en la optimización convexa o en la búsqueda de vectores propios y están bien fundamentados estadísticamente. Por lo general, sus propiedades estadísticas se analizan utilizando la teoría del aprendizaje estadístico (por ejemplo, utilizando la complejidad de Rademacher ).

Causas y explicación informal

Los métodos del kernel se pueden considerar como aprendizaje por ejemplo : en lugar de aprender un conjunto fijo de parámetros correspondientes a las características de entrada, "recuerdan" el ejemplo de entrenamiento y entrenan de acuerdo con sus pesos . Predicción para entrada no etiquetada, es decir no incluido en el conjunto de entrenamiento se aprende usando la función de similitud (llamada kernel ) entre la entrada sin etiquetar y cada una de las entradas de entrenamiento . Por ejemplo, un clasificador binario del kernel generalmente calcula una suma de similitud ponderada usando la fórmula $i$ ${\ estilo de visualización (\ mathbf {x} _ {i}, y_ {i})}$ $Wisconsin}$ $k$ ${\mathbf {x'))$ ${\ estilo de visualización \ mathbf {x} _ {i}}$

{\hat {y}}=\operatorname {sgn} \sum_{i=1}^{n}w_{i}y_{i}k(\mathbf {x}_{i},\mathbf {X'} )

dónde

${\sombrero {y}}\en \{-1,+1\}$ es un clasificador binario del núcleo de la etiqueta predicha para la entrada sin etiqueta cuya etiqueta correcta oculta se necesita; ${\mathbf {x'))$ $y$
$k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ es una función kernel que mide la similitud de un par de entradas ; $\mathbf {x} ,\mathbf {x'} \in {\mathcal {X))$
la suma recorre todos los n ejemplos etiquetados en el conjunto de entrenamiento del clasificador con ; ${\displaystyle \{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n))$ ${\displaystyle y_{i}\in\{-1,+1\))$
$w_{i}\en \mathbb {R}$ son los pesos de los ejemplos de entrenamiento, determinados por el algoritmo de aprendizaje;
La función sgn determina si la clasificación predicha será positiva o negativa.

Los clasificadores nucleares se describieron a principios de la década de 1960 con la invención del perceptrón nuclear [2] . Obtuvieron una amplia aceptación junto con la popularidad de las máquinas de vectores de soporte en la década de 1990, cuando se descubrió que SVM era competitivo con las redes neuronales en tareas como el reconocimiento de escritura a mano .

Matemáticas: El truco nuclear

El truco del kernel evita el mapeo explícito que se necesita para obtener un algoritmo de aprendizaje lineal para una función no lineal o límite de decisión . Para todos y en el espacio de entrada, algunas funciones se pueden representar como un producto escalar en otro espacio . La función a menudo se denomina núcleo o función del núcleo . La palabra "núcleo" se usa en matemáticas para referirse a una función de peso o integral . $\mathbf{x}$ ${\mathbf {x'))$ ${\mathcal {X}}$ $k(\mathbf {x} ,\mathbf {x'} )$ ${\ matemáticas {V))$ $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$

Algunos problemas de aprendizaje automático tienen una estructura adicional en lugar de solo una función de peso . Los cálculos serán mucho más fáciles si el kernel se puede escribir como un "mapeo de características" que satisface la igualdad $k$ $\varphi \colon {\mathcal {X}}\to {\mathcal {V}}$

k(\mathbf {x} ,\mathbf {x'} )=\langle \varphi (\mathbf {x} ),\varphi (\mathbf {x'} )\rangle_{\mathcal {V} }.

La principal restricción aquí es qué debe ser un producto escalar adecuado. Por otro lado, no es necesaria una representación explícita de, ya que es un espacio de producto punto . La alternativa se deriva del teorema de Mercer : existe una función implícitamente definida si el espacio puede equiparse con una medida apropiada que asegure que la función satisface la condición de Mercer . $\langle \cdot ,\cdot \rangle _{\mathcal {V}}$ $\varphi$ ${\ matemáticas {V))$ $\varphi$ ${\mathcal {X}}$ $k$

El teorema de Mercer es como una generalización de un resultado del álgebra lineal que relaciona el producto escalar con cualquier matriz definida positiva . De hecho, la condición de Mercer se puede reducir a este simple caso. Si elegimos como nuestra medida una medida de conteo para todos , que cuenta el número de puntos dentro del conjunto , entonces la integral en el teorema de Mercer se reduce a la sumatoria ${\ estilo de visualización \ mu (T) = | T |}$ $T\subconjunto X$ $T$

\sum_{i=1}^{n}\sum_{j=1}^{n}k(\mathbf {x}_{i},\mathbf {x}_{j})c_ {i}c_{j}\geq 0.

Si esta desigualdad se cumple para todas las sucesiones finitas de puntos y todos los conjuntos de coeficientes con valores reales (cf. Núcleo definido positivo ), entonces la función satisface la condición de Mercer. ${\ estilo de visualización (\ mathbf {x} _ {1}, \ dotsc, \ mathbf {x} _ {n})}$ ${\mathcal {X}}$ $norte$ ${\ estilo de visualización (c_ {1}, \ puntos, c_ {n})}$ $k$

Algunos algoritmos que dependen de enlaces arbitrarios en el espacio original , de hecho, tendrán una representación lineal en otras condiciones: en el espacio a distancia . La interpretación lineal nos da una idea del algoritmo. Además, a menudo no es necesario calcular directamente en el momento del cálculo, como es el caso de la máquina de vectores de soporte . Algunos consideran que la reducción de tiempo debido a esto es la principal ventaja del algoritmo. Los investigadores lo utilizan para refinar el significado y las propiedades de los algoritmos existentes. ${\mathcal {X}}$ $\varphi$ $\varphi$

Teóricamente, la matriz de Gram con respecto a (a veces llamada "matriz del núcleo" [3] ), donde , debería ser semidefinida positiva [4] . Empíricamente, para las heurísticas de aprendizaje automático, la elección de una función que no satisfaga la condición de Mercer aún puede estar justificada si al menos se aproxima a la idea intuitiva de similitud [5] . Ya sea que el núcleo sea Mercer o no, se puede seguir denominándolo como "el núcleo". ${\displaystyle \mathbf {K} \in \mathbb {R} ^{n\veces n))$ ${\displaystyle \{\mathbf {x} _{1},\dotsc,\mathbf {x} _{n}\))$ $K_{ij}=k(\mathbf {x}_{i},\mathbf {x}_{j})$ $k$ $k$ $k$ $k$

Si la función kernel también es una función covariante , que se utiliza en un proceso gaussiano , entonces la matriz de Gram puede denominarse matriz de covarianza [6] . $k$ ${\matemáticas{K}}$

Aplicaciones

Las aplicaciones de los métodos nucleares son diversas e incluyen geoestadística [7] , kriging , distancia ponderada , reconstrucción 3D , bioinformática , quimioinformática , extracción de información y reconocimiento de escritura a mano .

Núcleos populares

Núcleo de Fisher
Núcleo gráfico
Suavizador nuclear
Núcleo polinomial
Núcleo de función de base radial
Núcleos de cadena

Notas

↑ Theodoridis, 2008 , pág. 203.
↑ Aizerman, Braverman, Rozoner, 1964 , p. 821–837.
↑ Hofmann, Scholkopf, Smola, 2007 .
↑ Mohri, Rostamizadeh, Talwalkar, 2012 .
↑ Sewell, Martin Support Vector Machines: Mercer's Condition . www.svms.org . (indefinido)
↑ Rasmussen, Williams, 2006 .
↑ Honarkhah, Caers, 2010 , pág. 487–517.

Literatura

Aizerman MA, Emmanuel M. Braverman, Rozoner LI Fundamentos teóricos del método de función potencial en el aprendizaje de reconocimiento de patrones // Automatización y control remoto. - 1964. - T. 25 . — S. 821–837 . Citado en artículo
- Isabelle Guyon, B. Boser, Vladimir Vapnik. Ajuste automático de capacidad de clasificadores de dimensiones VC muy grandes // Avances en sistemas de procesamiento de información neuronal. — 1993.
sergios reconocimiento de patrones. - Elsevier BV, 2008. - ISBN 9780080949123 .
Mehryar Mohri, Afshin Rostamizadeh y Ameet Talwalkar. . - Cambridge, Londres: MIT press, 2012. - (Computación adaptativa y aprendizaje automático). - ISBN 978-0-262-01825-8 .
Thomas Hofmann, Bernhard Scholkopf, Alexander J. Smola. Métodos del kernel en el aprendizaje automático // The Annals of Statistics. - 2007. - enero ( vol. 36 , número 3 ).
Rasmussen CE, Williams CKI Procesos gaussianos para el aprendizaje automático. - Cambridge, Londres: MIT Press, 2006. - (Computación adaptativa y aprendizaje automático). — ISBN 0-262-18253-X .
Honarkhah M., Caers J. Simulación estocástica de patrones mediante el modelado de patrones basado en la distancia // Geociencias matemáticas . - 2010. - T. 42 . -doi : 10.1007/ s11004-010-9276-7 .

Literatura

John Shawe-Taylor, Nello Cristianini. Métodos Kernel para Análisis de Patrones. — Prensa de la Universidad de Cambridge, 2004.
Liu W., Principe J., Haykin S. Filtrado adaptativo del kernel: una introducción completa. Wiley, 2010.

Enlace

Sitio web de la comunidad Kernel-Machines Org
www.support-vector-machines.org (Literatura, Revisión, Software, Enlaces relacionados con Support Vector Machines - Sitio Académico)
onlineprediction.net Artículo de métodos del kernel

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ICA LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG