Teoría del aprendizaje estadístico

La teoría del aprendizaje estadístico es un modelo para máquinas de aprendizaje basado en estadísticas y análisis funcional [1] [2] . La teoría del aprendizaje estadístico se ocupa de los problemas de encontrar una función predictiva basada en datos. La teoría del aprendizaje estadístico ha dado lugar a aplicaciones exitosas en áreas como la visión artificial , el reconocimiento de voz y la bioinformática .

Introducción

El propósito del aprendizaje es la comprensión y la previsión. El aprendizaje se divide en varias categorías, incluido el aprendizaje supervisado , el aprendizaje no supervisado, el aprendizaje en línea y el aprendizaje por refuerzo . Desde el punto de vista de la teoría estadística del aprendizaje, el aprendizaje supervisado es el más comprensible [3] . El aprendizaje supervisado implica aprender con el conjunto de datos de entrenamiento Cualquier momento de entrenamiento es un par de entrada/salida, donde el valor de entrada se asigna al valor de salida. El problema de aprendizaje es reconstruir una función que asigna entradas a salidas para que la función pueda usarse para predecir la salida de entradas futuras.

Según el tipo de inferencia, los problemas de aprendizaje supervisado son problemas de regresión o problemas de clasificación . Si la salida puede tomar un rango continuo, es un problema de regresión. Usando la Ley de Ohm como ejemplo, la regresión podría tomar voltaje como entrada y dar corriente como salida. La regresión podría encontrar la relación entre el voltaje y la corriente como , de modo que ${\ fracción {1}{R}}$

I={\frac{1}{R}}V

Las tareas de clasificación son aquellas para las que el resultado será un elemento de un conjunto de etiquetas. La clasificación es muy común en las aplicaciones de aprendizaje automático. En un sistema de reconocimiento facial , por ejemplo, la imagen de una cara sería la entrada y la salida podría ser el apellido de la persona. La entrada se puede representar como un gran vector multidimensional cuyos elementos representan los píxeles de la imagen.

Después de entrenar una función basada en el conjunto de entrenamiento, esa función se prueba en un conjunto de prueba que no aparece en el conjunto de entrenamiento.

Descripción formal

Sea el espacio vectorial de todas las entradas posibles y sea el espacio vectorial de todas las salidas posibles. La teoría del aprendizaje estadístico asume que hay alguna distribución de probabilidad desconocida sobre el producto de espacios , es decir, hay alguna incógnita . El conjunto de entrenamiento consta de instancias de esta distribución de probabilidad y se denota $X$ $Y$ $Z=X\veces Y$ $p(z)=p({\vec {x)),y)$ $norte$

S=\{({\vec {x}}_{1},y_{1}),\dots,({\vec {x}}_{n},y_{n})\}= \{{\vec {z}}_{1},\puntos,{\vec {z}}_{n}}\}

Cada uno es un vector de entrada de los datos de entrenamiento y es una salida correspondiente a ese vector de entrada. ${\vec{x}}_{i}$ $y_{yo}$

En tal formalización, el problema de inferencia es encontrar una función tal que . Sea el espacio de funciones , que se llama espacio de hipótesis. El espacio de hipótesis es el espacio que observará el algoritmo. Sea una función de pérdida , una métrica de la diferencia entre el valor predicho y el valor real . El riesgo esperado se define como $f:X\a Y$ $f({\vec {x)))\sim y$ ${\ matemáticas {H}}$ $f:X\a Y$ $V(f({\vec {x))),y)$ $f({\vec {x)))$ $y$

I[f]=\displaystyle \int _{X\times Y}V(f({\vec {x}}),y)\,p({\vec {x}}),y)\ , d{\ vec {x}}\,dy

Función objetivo, la mejor función que se puede elegir es la función que satisface la condición $F$

f=\inf _{h\in {\mathcal {H))}I[h]

Dado que se desconoce la distribución de probabilidad , se deben utilizar medidas indirectas del riesgo esperado. Estas puntuaciones se basan en el conjunto de entrenamiento, una muestra de esta distribución de probabilidad desconocida. Tal medida se llama riesgo empírico: Un algoritmo de aprendizaje que selecciona una función que minimiza el riesgo empírico se llama minimización del riesgo empírico . $p({\vec {x)),y)$ $I_{S}[f]={\frac {1}{n}}\displaystyle \sum_{i=1}^{n}V(f({\vec {x}}_{i} ),y_{i})$ ${\ Displaystyle f_ {S}}$

Funciones de pérdida

La elección de la función de pérdida es la determinación del factor determinante de la función que será elegida por el algoritmo de aprendizaje. La función de pérdida también afecta la tasa de convergencia del algoritmo. Es importante que la función de pérdida sea convexa [4] . ${\ Displaystyle f_ {S}}$

Se utilizan diferentes funciones de pérdida dependiendo de si el problema es de regresión o de clasificación.

Regresión

La función de pérdida más utilizada para la regresión es la función de pérdida cuadrática (también conocida como norma L2 ). Esta función de pérdida familiar se utiliza en el método de mínimos cuadrados ordinarios . Fórmula:

V(f({\vec {x}}),y)=(yf({\vec {x}})))^{2}

El valor de pérdida absoluta (también conocido como norma L1 ) también se usa a veces:

V(f({\vec {x}}),y)=|yf({\vec {x}})|

Clasificación

En cierto sentido, la función indicadora 0-1 es la función de pérdida más natural para los problemas de clasificación. La función toma el valor 0 si el resultado previsto coincide con el valor correcto y el valor 1 si el resultado previsto no coincide con el valor correcto. Para la clasificación binaria, esto sería: $Y=\{-1,1\}$

V(f({\vec {x)))),y)=\theta (-yf({\vec {x))))

donde es la función de Heaviside . $\ theta$

Regularización

En las tareas de aprendizaje automático, el sobreajuste se convierte en un problema importante . Dado que el aprendizaje es una tarea de predicción, el objetivo no es encontrar la característica que mejor se ajuste a los datos (previstos), sino encontrar la característica que prediga con mayor precisión el resultado de las entradas futuras. La minimización empírica del riesgo cae en este riesgo de sobreajuste: encontrar una función que se ajuste a los datos exactamente pero que no pueda predecir el futuro.

El sobreajuste es un síntoma de soluciones inestables: pequeños cambios en el conjunto de entrenamiento pueden causar grandes variaciones en la función de aprendizaje. Se puede demostrar que se puede garantizar la estabilidad de la solución [5] [6] . La regularización puede resolver el problema del sobreajuste y brindar estabilidad.

La regularización se puede hacer limitando el espacio de las hipótesis . Se puede limitar, por ejemplo, a funciones lineales; esto se puede considerar como una restricción al problema de regresión lineal estándar . se puede restringir a polinomios de grado , exponenciales o funciones acotadas en L1 . La restricción del espacio de hipótesis excluye el sobreajuste al restringir la forma de las funciones potenciales, lo que no permite elegir funciones que den un riesgo empírico arbitrariamente cercano a cero. ${\ matemáticas {H}}$ ${\ matemáticas {H}}$ ${\ matemáticas {H}}$ $pags$

Un ejemplo de regularización es la regularización de Tikhonov . Consiste en minimizar

{\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i},y_{i}))+ \gamma \|f\|_{\mathcal {H}}^{2}

donde es un parámetro positivo fijo. El método de regularización de Tikhonov asegura la existencia, unicidad y estabilidad de la solución [7] . $\gama$

Notas

↑ Hastie, Tibshirani, Friedman, 2009 .
↑ Mohri, Rostamizadeh, Talwalkar, 2012 .
↑ Tomaso Poggio, Lorenzo Rosasco, et al. Teoría y aplicaciones del aprendizaje estadístico , 2012, Clase 1 Archivado el 16 de septiembre de 2012 en Wayback Machine .
↑ Rosasco, Vito, Caponnetto, Fiana, Verri, 2004 , p. 1063-1076.
↑ Vapnik, Chervonenkis, 1971 , pág. 264-280.
↑ Mukherjee, Niyogi, Poggio, Rifkin, 2006 , pág. 161-193.
↑ Tomaso Poggio, Lorenzo Rosasco, et al. Teoría y aplicaciones del aprendizaje estadístico , 2012, clase 2. Archivado el 16 de agosto de 2016 en Wayback Machine .

Literatura

Trevor Hastie, Robert Tibshirani, Jerome Friedman. Los Elementos del Aprendizaje Estadístico. - Springer-Verlag, 2009. - ISBN 978-0-387-84857-0 .
Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar. Fundamentos del aprendizaje automático. - EE. UU., Massachusetts: MIT Press., 2012. - ISBN 9780262018258 .
Gagan Sidhu, Brian Caffo. Explotación de la toma de decisiones del lanzador mediante el aprendizaje por refuerzo // Annals of Applied Statistics. - 2014. - V. 8 , núm. 2 . -doi : 10.1214 / 13-AOAS712 .
Rosasco L., Vito ED, Caponnetto A., Fiana M., Verri A. ¿Son todas las funciones de pérdida iguales? // Computación neuronal. - 2004. - T. 16 .
Vapnik VN , Chervonenkis AY Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades // Teoría de la probabilidad y sus aplicaciones. - 1971. - T. 16 .
Mukherjee S., Niyogi P., Poggio T., Rifkin R. Teoría del aprendizaje: la estabilidad es suficiente para la generalización y necesaria y suficiente para la consistencia de la minimización empírica del riesgo // Avances en matemáticas computacionales. - 2006. - T. 25 .

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ICA LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG