Teoría del aprendizaje estadístico

La teoría del aprendizaje estadístico  es un modelo para máquinas de aprendizaje basado en estadísticas y análisis funcional [1] [2] . La teoría del aprendizaje estadístico se ocupa de los problemas de encontrar una función predictiva basada en datos. La teoría del aprendizaje estadístico ha dado lugar a aplicaciones exitosas en áreas como la visión artificial , el reconocimiento de voz y la bioinformática .

Introducción

El propósito del aprendizaje es la comprensión y la previsión. El aprendizaje se divide en varias categorías, incluido el aprendizaje supervisado , el aprendizaje no supervisado, el aprendizaje en línea y el aprendizaje por refuerzo . Desde el punto de vista de la teoría estadística del aprendizaje, el aprendizaje supervisado es el más comprensible [3] . El aprendizaje supervisado implica aprender con el conjunto de datos de entrenamiento Cualquier momento de entrenamiento es un par de entrada/salida, donde el valor de entrada se asigna al valor de salida. El problema de aprendizaje es reconstruir una función que asigna entradas a salidas para que la función pueda usarse para predecir la salida de entradas futuras.

Según el tipo de inferencia, los problemas de aprendizaje supervisado son problemas de regresión o problemas de clasificación . Si la salida puede tomar un rango continuo, es un problema de regresión. Usando la Ley de Ohm como ejemplo, la regresión podría tomar voltaje como entrada y dar corriente como salida. La regresión podría encontrar la relación entre el voltaje y la corriente como , de modo que

Las tareas de clasificación son aquellas para las que el resultado será un elemento de un conjunto de etiquetas. La clasificación es muy común en las aplicaciones de aprendizaje automático. En un sistema de reconocimiento facial , por ejemplo, la imagen de una cara sería la entrada y la salida podría ser el apellido de la persona. La entrada se puede representar como un gran vector multidimensional cuyos elementos representan los píxeles de la imagen.

Después de entrenar una función basada en el conjunto de entrenamiento, esa función se prueba en un conjunto de prueba que no aparece en el conjunto de entrenamiento.

Descripción formal

Sea el espacio vectorial de todas las entradas posibles y  sea el espacio vectorial de todas las salidas posibles. La teoría del aprendizaje estadístico asume que hay alguna distribución de probabilidad desconocida sobre el producto de espacios , es decir, hay alguna incógnita . El conjunto de entrenamiento consta de instancias de esta distribución de probabilidad y se denota

Cada uno es un vector de entrada de los datos de entrenamiento y es una salida correspondiente a ese vector de entrada.

En tal formalización, el problema de inferencia es encontrar una función tal que . Sea  el espacio de funciones , que se llama espacio de hipótesis. El espacio de hipótesis es el espacio que observará el algoritmo. Sea una función de pérdida , una métrica de la diferencia entre el valor predicho y el valor real . El riesgo esperado se define como

Función objetivo, la mejor función que se puede elegir es la función que satisface la condición

Dado que se desconoce la distribución de probabilidad , se deben utilizar medidas indirectas del riesgo esperado. Estas puntuaciones se basan en el conjunto de entrenamiento, una muestra de esta distribución de probabilidad desconocida. Tal medida se llama riesgo empírico: Un algoritmo de aprendizaje que selecciona una función que minimiza el riesgo empírico se llama minimización del riesgo empírico .

Funciones de pérdida

La elección de la función de pérdida es la determinación del factor determinante de la función que será elegida por el algoritmo de aprendizaje. La función de pérdida también afecta la tasa de convergencia del algoritmo. Es importante que la función de pérdida sea convexa [4] .

Se utilizan diferentes funciones de pérdida dependiendo de si el problema es de regresión o de clasificación.

Regresión

La función de pérdida más utilizada para la regresión es la función de pérdida cuadrática (también conocida como norma L2 ). Esta función de pérdida familiar se utiliza en el método de mínimos cuadrados ordinarios . Fórmula:

El valor de pérdida absoluta (también conocido como norma L1 ) también se usa a veces:

Clasificación

En cierto sentido, la función indicadora 0-1 es la función de pérdida más natural para los problemas de clasificación. La función toma el valor 0 si el resultado previsto coincide con el valor correcto y el valor 1 si el resultado previsto no coincide con el valor correcto. Para la clasificación binaria, esto sería:

donde  es la función de Heaviside .

Regularización

En las tareas de aprendizaje automático, el sobreajuste se convierte en un problema importante . Dado que el aprendizaje es una tarea de predicción, el objetivo no es encontrar la característica que mejor se ajuste a los datos (previstos), sino encontrar la característica que prediga con mayor precisión el resultado de las entradas futuras. La minimización empírica del riesgo cae en este riesgo de sobreajuste: encontrar una función que se ajuste a los datos exactamente pero que no pueda predecir el futuro.

El sobreajuste es un síntoma de soluciones inestables: pequeños cambios en el conjunto de entrenamiento pueden causar grandes variaciones en la función de aprendizaje. Se puede demostrar que se puede garantizar la estabilidad de la solución [5] [6] . La regularización puede resolver el problema del sobreajuste y brindar estabilidad.

La regularización se puede hacer limitando el espacio de las hipótesis . Se puede limitar, por ejemplo, a funciones lineales; esto se puede considerar como una restricción al problema de regresión lineal estándar . se puede restringir a polinomios de grado , exponenciales o funciones acotadas en L1 . La restricción del espacio de hipótesis excluye el sobreajuste al restringir la forma de las funciones potenciales, lo que no permite elegir funciones que den un riesgo empírico arbitrariamente cercano a cero.

Un ejemplo de regularización es la regularización de Tikhonov . Consiste en minimizar

,

donde es un parámetro positivo fijo. El método de regularización de Tikhonov asegura la existencia, unicidad y estabilidad de la solución [7] .

Notas

  1. Hastie, Tibshirani, Friedman, 2009 .
  2. Mohri, Rostamizadeh, Talwalkar, 2012 .
  3. Tomaso Poggio, Lorenzo Rosasco, et al. Teoría y aplicaciones del aprendizaje estadístico , 2012, Clase 1 Archivado el 16 de septiembre de 2012 en Wayback Machine .
  4. Rosasco, Vito, Caponnetto, Fiana, Verri, 2004 , p. 1063-1076.
  5. Vapnik, Chervonenkis, 1971 , pág. 264-280.
  6. Mukherjee, Niyogi, Poggio, Rifkin, 2006 , pág. 161-193.
  7. Tomaso Poggio, Lorenzo Rosasco, et al. Teoría y aplicaciones del aprendizaje estadístico , 2012, clase 2. Archivado el 16 de agosto de 2016 en Wayback Machine .

Literatura