La teoría del aprendizaje estadístico es un modelo para máquinas de aprendizaje basado en estadísticas y análisis funcional [1] [2] . La teoría del aprendizaje estadístico se ocupa de los problemas de encontrar una función predictiva basada en datos. La teoría del aprendizaje estadístico ha dado lugar a aplicaciones exitosas en áreas como la visión artificial , el reconocimiento de voz y la bioinformática .
El propósito del aprendizaje es la comprensión y la previsión. El aprendizaje se divide en varias categorías, incluido el aprendizaje supervisado , el aprendizaje no supervisado, el aprendizaje en línea y el aprendizaje por refuerzo . Desde el punto de vista de la teoría estadística del aprendizaje, el aprendizaje supervisado es el más comprensible [3] . El aprendizaje supervisado implica aprender con el conjunto de datos de entrenamiento Cualquier momento de entrenamiento es un par de entrada/salida, donde el valor de entrada se asigna al valor de salida. El problema de aprendizaje es reconstruir una función que asigna entradas a salidas para que la función pueda usarse para predecir la salida de entradas futuras.
Según el tipo de inferencia, los problemas de aprendizaje supervisado son problemas de regresión o problemas de clasificación . Si la salida puede tomar un rango continuo, es un problema de regresión. Usando la Ley de Ohm como ejemplo, la regresión podría tomar voltaje como entrada y dar corriente como salida. La regresión podría encontrar la relación entre el voltaje y la corriente como , de modo que
Las tareas de clasificación son aquellas para las que el resultado será un elemento de un conjunto de etiquetas. La clasificación es muy común en las aplicaciones de aprendizaje automático. En un sistema de reconocimiento facial , por ejemplo, la imagen de una cara sería la entrada y la salida podría ser el apellido de la persona. La entrada se puede representar como un gran vector multidimensional cuyos elementos representan los píxeles de la imagen.
Después de entrenar una función basada en el conjunto de entrenamiento, esa función se prueba en un conjunto de prueba que no aparece en el conjunto de entrenamiento.
Sea el espacio vectorial de todas las entradas posibles y sea el espacio vectorial de todas las salidas posibles. La teoría del aprendizaje estadístico asume que hay alguna distribución de probabilidad desconocida sobre el producto de espacios , es decir, hay alguna incógnita . El conjunto de entrenamiento consta de instancias de esta distribución de probabilidad y se denota
Cada uno es un vector de entrada de los datos de entrenamiento y es una salida correspondiente a ese vector de entrada.
En tal formalización, el problema de inferencia es encontrar una función tal que . Sea el espacio de funciones , que se llama espacio de hipótesis. El espacio de hipótesis es el espacio que observará el algoritmo. Sea una función de pérdida , una métrica de la diferencia entre el valor predicho y el valor real . El riesgo esperado se define como
Función objetivo, la mejor función que se puede elegir es la función que satisface la condición
Dado que se desconoce la distribución de probabilidad , se deben utilizar medidas indirectas del riesgo esperado. Estas puntuaciones se basan en el conjunto de entrenamiento, una muestra de esta distribución de probabilidad desconocida. Tal medida se llama riesgo empírico: Un algoritmo de aprendizaje que selecciona una función que minimiza el riesgo empírico se llama minimización del riesgo empírico .
La elección de la función de pérdida es la determinación del factor determinante de la función que será elegida por el algoritmo de aprendizaje. La función de pérdida también afecta la tasa de convergencia del algoritmo. Es importante que la función de pérdida sea convexa [4] .
Se utilizan diferentes funciones de pérdida dependiendo de si el problema es de regresión o de clasificación.
La función de pérdida más utilizada para la regresión es la función de pérdida cuadrática (también conocida como norma L2 ). Esta función de pérdida familiar se utiliza en el método de mínimos cuadrados ordinarios . Fórmula:
El valor de pérdida absoluta (también conocido como norma L1 ) también se usa a veces:
En cierto sentido, la función indicadora 0-1 es la función de pérdida más natural para los problemas de clasificación. La función toma el valor 0 si el resultado previsto coincide con el valor correcto y el valor 1 si el resultado previsto no coincide con el valor correcto. Para la clasificación binaria, esto sería:
donde es la función de Heaviside .
En las tareas de aprendizaje automático, el sobreajuste se convierte en un problema importante . Dado que el aprendizaje es una tarea de predicción, el objetivo no es encontrar la característica que mejor se ajuste a los datos (previstos), sino encontrar la característica que prediga con mayor precisión el resultado de las entradas futuras. La minimización empírica del riesgo cae en este riesgo de sobreajuste: encontrar una función que se ajuste a los datos exactamente pero que no pueda predecir el futuro.
El sobreajuste es un síntoma de soluciones inestables: pequeños cambios en el conjunto de entrenamiento pueden causar grandes variaciones en la función de aprendizaje. Se puede demostrar que se puede garantizar la estabilidad de la solución [5] [6] . La regularización puede resolver el problema del sobreajuste y brindar estabilidad.
La regularización se puede hacer limitando el espacio de las hipótesis . Se puede limitar, por ejemplo, a funciones lineales; esto se puede considerar como una restricción al problema de regresión lineal estándar . se puede restringir a polinomios de grado , exponenciales o funciones acotadas en L1 . La restricción del espacio de hipótesis excluye el sobreajuste al restringir la forma de las funciones potenciales, lo que no permite elegir funciones que den un riesgo empírico arbitrariamente cercano a cero.
Un ejemplo de regularización es la regularización de Tikhonov . Consiste en minimizar
,donde es un parámetro positivo fijo. El método de regularización de Tikhonov asegura la existencia, unicidad y estabilidad de la solución [7] .
Aprendizaje automático y minería de datos | |
---|---|
Tareas | |
Aprendiendo con un maestro | |
análisis de conglomerados | |
Reducción de dimensionalidad | |
Pronóstico estructural | |
Detección de anomalías | |
Graficar modelos probabilísticos | |
Redes neuronales | |
Aprendizaje reforzado |
|
Teoría | |
revistas y congresos |
|