El aprendizaje de Ockham en la teoría del aprendizaje computacional es un modelo de aprendizaje algorítmico donde el objetivo del aprendizaje es obtener una representación concisa de los datos de entrenamiento disponibles. El método está estrechamente relacionado con el aprendizaje casi correcto (aprendizaje PC, ing. Aprendizaje probablemente aproximadamente correcto , aprendizaje PAC), donde el maestro evalúa la capacidad predictiva del conjunto de prueba.
La capacidad de aprendizaje de Occam implica el aprendizaje de PC, y para una amplia clase de conceptos, también es cierto lo contrario: el aprendizaje de PC implica el aprendizaje de Occam.
El aprendizaje de Occam recibe su nombre del término " navaja de Occam ", que es el principio que establece que, suponiendo que no haya entidades adicionales, se debe preferir una breve explicación de las observaciones a una explicación más larga (brevemente: "Uno no debe multiplicar seres innecesariamente"). La teoría del aprendizaje de Occam es un refinamiento formal y matemático de este principio. Blumer y otros fueron los primeros en demostrar [1] que el aprendizaje de Occam implica el aprendizaje de PC, que es el modelo de aprendizaje estándar en la teoría del aprendizaje computacional. En otras palabras, la frugalidad (hipótesis de salida) implica capacidad predictiva .
La concisión de un concepto en una clase de concepto se puede expresar como la longitud de la cadena de bits más corta que puede representar el concepto en la clase . El aprendizaje de Ockham conecta la concisión de la salida de un algoritmo de aprendizaje con su capacidad predictiva.
Sean y sean clases de conceptos que contengan conceptos objetivo e hipótesis, respectivamente. Entonces, para constantes y , el algoritmo de aprendizaje es un algoritmo de -Occam para por hipótesis si y solo si, dado un conjunto que contiene instancias etiquetadas de acuerdo con , la salida del algoritmo es una hipótesis , tal que
donde es la longitud máxima de cualquier instancia de . El algoritmo de Occam se llama eficiente si se ejecuta en tiempo polinomial de y . Decimos que una clase de conceptos es aprendible por Occam con respecto a una clase de hipótesis si existe un algoritmo de Occam eficiente para por hipótesis
La capacidad de aprendizaje de Ockham implica la capacidad de aprendizaje de la PC, como muestra el teorema de Blumer et al [2] :
Sea un algoritmo de -Occam eficiente para por hipótesis . Entonces hay una constante tal que para cualquiera para cualquier distribución , dadas instancias extraídas y etiquetadas de acuerdo con el concepto de cada bit, el algoritmo producirá una hipótesis tal que con probabilidad al menos
. Aquí se tiene en cuenta el concepto y la distribución . De ello se deduce que el algoritmo es un PC maestro de la clase de conceptos bajo la clase de hipótesis . Una formulación un poco más general:
deja _ Sea un algoritmo tal que dado un conjunto de instancias extraídas de una distribución fija pero desconocida y etiquetadas de acuerdo con el concepto con una cadena de bits de longitud cada una, el resultado es una hipótesis consistente con las instancias etiquetadas. Entonces existe una constante tal que en caso de que se garantice dar una hipótesis tal que con probabilidad al menos .
Aunque los teoremas anteriores muestran que el aprendizaje de Occam es suficiente para el aprendizaje de PC, no dicen nada sobre la necesidad de . Board y Pitt han demostrado que para una amplia clase de conceptos, el aprendizaje de Occam es necesario para el aprendizaje de PC [3] . Demostraron que para cualquier clase de conceptos polinómicamente cerrados bajo las listas de excepción , la capacidad de aprendizaje de la PC implica la existencia de un algoritmo Occam para esa clase de conceptos. Las clases de conceptos que se cierran polinómicamente mediante listas de excepciones incluyen fórmulas booleanas, cadenas de suma, autómatas finitos deterministas , listas de decisiones, árboles de decisiones y otras clases de conceptos con base geométrica.
Una clase de conceptos se cierra polinómicamente en listas de excepciones si existe un algoritmo de tiempo de ejecución polinomial , tal que, dada una representación del concepto y una lista finita de excepciones , la salida del algoritmo es una representación del concepto , tal que los conceptos y aceptan salvo la exclusión de elementos del conjunto .
Primero probaremos la versión con longitud. Llamamos mala a la hipótesis si , donde nuevamente se tiene en cuenta el verdadero concepto y distribución de . La probabilidad de que el conjunto sea consistente con no excede de , según la independencia de las muestras. Para un conjunto completo, la probabilidad de que haya una mala hipótesis en no excede , que es menor que si . Esto completa la demostración del segundo teorema.
Usando el segundo teorema, probaremos el primero. Dado que tenemos un algoritmo -Occam, esto significa que cualquier hipótesis de salida del algoritmo se puede representar como máximo con bits, y luego . Esto es menor que si establecemos alguna constante . Entonces, según la versión del teorema con longitud, dará una hipótesis consistente con una probabilidad de al menos . Esto completa la demostración del primer teorema.
Aunque el aprendizaje de Occam y el aprendizaje de PC son equivalentes, el algoritmo de Occam se puede usar para obtener límites más estrictos en la complejidad de la muestra para problemas clásicos, incluido el razonamiento lógico [2] , el razonamiento multivariable [4] y las listas de decisiones [5] .
Se ha demostrado que los algoritmos de Ockham funcionan con éxito para el aprendizaje de PT en presencia de errores [6] [7] , el aprendizaje de conceptos probabilísticos [8] , el aprendizaje de funciones [9] y los ejemplos de Markov no independientes [10] .
Kearns MJ, Schapire RE Aprendizaje eficiente sin distribución de conceptos probabilísticos // Fundamentos de Ciencias de la Computación, 1990. Actas., 31° Simposio Anual . - Los Alamitos, CA: IEEE Computer Society Press, 1990.
Aldous D., Vazirani U. Una extensión markoviana del modelo de aprendizaje de Valiant // Fundamentos de la informática, 1990. Actas., 31.º Simposio anual. —IEEE, 1990.
Aprendizaje automático y minería de datos | |
---|---|
Tareas | |
Aprendiendo con un maestro | |
análisis de conglomerados | |
Reducción de dimensionalidad | |
Pronóstico estructural | |
Detección de anomalías | |
Graficar modelos probabilísticos | |
Redes neuronales | |
Aprendizaje reforzado |
|
Teoría | |
revistas y congresos |
|