Aprendizaje asistido por profesores

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 3 de abril de 2021; las comprobaciones requieren 7 ediciones .

El aprendizaje semisupervisado ( también aprendizaje semiautomático o aprendizaje parcial ) es un método de aprendizaje automático, un tipo de aprendizaje supervisado que también utiliza datos no etiquetados para el entrenamiento, generalmente una pequeña cantidad de datos etiquetados y una gran cantidad de datos no etiquetados . 

El aprendizaje parcialmente supervisado ocupa una posición intermedia entre el aprendizaje no supervisado (sin usar datos de entrenamiento etiquetados) y el aprendizaje supervisado (usando solo datos etiquetados).

Muchos investigadores de aprendizaje automático han descubierto que los datos no etiquetados, cuando se usan en combinación con una pequeña cantidad de datos etiquetados, pueden mejorar en gran medida la precisión del entrenamiento.

Establecer datos etiquetados para una tarea de aprendizaje a menudo requiere una persona capacitada (por ejemplo, para traducir una pista de audio a texto) o un experimento físico (por ejemplo, para determinar la estructura 3D de una proteína o detectar la presencia de aceite en un determinado región). Por lo tanto, el costo del etiquetado de datos puede hacer impracticable el proceso de aprendizaje usando solo datos etiquetados, mientras que el proceso de especificar datos no etiquetados no es muy costoso. En tales situaciones, el aprendizaje semiautomático puede ser de gran valor práctico. Dicho aprendizaje también es de interés en el campo del aprendizaje automático y como modelo para el aprendizaje humano.

Tarea de aprendizaje

Como en el aprendizaje supervisado, se nos da un conjunto de ejemplos independientes distribuidos de manera idéntica con las etiquetas apropiadas . Además, se nos dan ejemplos sin etiquetar . El objetivo del aprendizaje semiautomático es utilizar esta información combinada para lograr mejores resultados de rendimiento de clasificación , que se pueden obtener eliminando datos sin etiquetar y utilizando el aprendizaje supervisado, o eliminando etiquetas y utilizando el aprendizaje no supervisado.

El aprendizaje semiautomático puede pertenecer al aprendizaje transductivo o al aprendizaje inductivo . El objetivo del aprendizaje transductivo es derivar etiquetas correctas solo para datos no etiquetados . El objetivo de la inducción es derivar el mapeo correcto de a .

Podemos pensar en la tarea de aprendizaje como un examen y los datos etiquetados como algunos ejemplos que el maestro resolvió en clase. El profesor también proporciona un conjunto de problemas sin resolver. En el entorno del aprendizaje transductivo, estos problemas sin resolver son un examen para llevar a casa que desea hacer bien en general. En un entorno de aprendizaje inductivo, estos problemas de práctica son similares a los que enfrentaría en un examen de clase. No es necesario (y, según el principio de Vapnik , imprudente) realizar un aprendizaje transductivo infiriendo una regla de clasificación para todas las entradas. Sin embargo, en la práctica, los algoritmos destinados formalmente a la transducción o la inducción a menudo se usan indistintamente.

Suposiciones utilizadas en el aprendizaje semiautomático

Para utilizar datos sin procesar, se debe asignar alguna estructura a la distribución subyacente de los datos. Los algoritmos de aprendizaje semiautomático utilizan al menos una de estas suposiciones. [una]

Suposición de suavidad

Los puntos que se encuentran cerca uno del otro se etiquetan igualmente con una mayor probabilidad. La misma suposición se usa principalmente en el aprendizaje supervisado y tiene la ventaja de usar soluciones geométricamente simples. En el caso del aprendizaje semiautomático, la suposición de suavidad proporciona además una ventaja para la delineación en regiones de baja densidad donde hay menos puntos que están juntos pero de diferentes clases.

Suposición de agrupamiento

Los datos tienden a formar grupos discretos, y es más probable que los puntos del mismo grupo se etiqueten de la misma manera (aunque los datos que usan las mismas etiquetas pueden estar ubicados en varios grupos diferentes). Este es un caso especial de suposición de suavidad que conduce al aprendizaje de características utilizando algoritmos de agrupamiento .

Suposición de redundancia de datos

Esta suposición se aplica cuando las dimensiones de los datos son redundantes, es decir, son generados por un proceso específico que tiene solo unos pocos grados de libertad. En este caso, los datos sin etiquetar permiten estudiar el proceso de generación y, por lo tanto, reducir la dimensión de .

Por ejemplo, la voz humana está controlada por varias cuerdas vocales, [2] y la presentación de varias expresiones faciales está controlada por varios músculos. En estos casos, es más conveniente utilizar el espacio generador que el espacio de todas las posibles ondas acústicas o imágenes, respectivamente.

Historia

El enfoque heurístico del autoaprendizaje es el más antiguo. [1] Ha estado en uso desde la década de 1960 (ver, por ejemplo, Scudder 1965) [3] ).

Vladimir Vapnik estableció los cimientos del aprendizaje transductivo en la década de 1970. [4] La década de 1970 también vio el surgimiento del interés en el aprendizaje inductivo usando modelos generativos. Ratsaby y Venkatesh demostraron la aplicación del aprendizaje correcto aproximado al aprendizaje semiautomático basado en un modelo de mezcla gaussiana en 1995. [5]

El aprendizaje semiautomático se ha vuelto más popular y relevante recientemente debido a una serie de tareas para las que se dispone de una gran cantidad de datos no etiquetados (por ejemplo, texto de páginas web, secuencias de proteínas o imágenes). Para una revisión del trabajo reciente en esta área , ver Zhu (2008 [6

Enfoques del aprendizaje semiautomático

Modelos generativos

Los enfoques generativos para el aprendizaje estadístico buscan principalmente estimar la distribución de puntos de datos para cada clase. La probabilidad de que un punto dado tenga una etiqueta será proporcional por el teorema de Bayes . El aprendizaje semiautomático que utiliza enfoques generativos puede verse como una extensión del aprendizaje supervisado (clasificación e información sobre ) o una extensión del aprendizaje no supervisado (agrupación y algunas etiquetas).

Los modelos generativos asumen que las distribuciones toman una cierta forma , parametrizada por un vector . Si estas suposiciones son incorrectas, entonces los datos no etiquetados pueden reducir la precisión de la solución en comparación con lo que se obtendría solo con los datos etiquetados. [7] Sin embargo, si estas suposiciones son correctas, los datos no etiquetados seguramente mejorarán el rendimiento. [5]

Los datos no etiquetados se distribuyen de acuerdo con una combinación de divisiones de clases individuales. Para poder estudiar la distribución de una mezcla de datos no etiquetados, los datos deben ser reconocibles, es decir, diferentes parámetros deben conducir a diferentes distribuciones resultantes. Las distribuciones de mezcla gaussiana son reconocibles y comúnmente utilizadas en modelos generativos.

La distribución conjunta parametrizada se puede escribir como una regla de la cadena. Cada vector está asociado a una función . Luego, el parámetro se elige en función del ajuste tanto a los datos etiquetados allí como a los datos no etiquetados, equilibrado con :

[6]

Separación de baja densidad

Esta es otra clase importante de métodos que intenta demarcar regiones que contienen múltiples puntos de datos (etiquetados o sin etiquetar). Uno de los algoritmos más utilizados es la máquina de vector de soporte transductivo , o TSVM (que, a pesar del nombre, también se puede utilizar para el aprendizaje inductivo). Mientras que SVM para el aprendizaje supervisado busca la solución de superficie de separación con la brecha más grande en los datos etiquetados, el objetivo de TMST es etiquetar los datos no etiquetados de modo que la solución de superficie de separación tenga la brecha más grande en comparación con todos los datos. Además del bucle de pérdida estándar para datos etiquetados, también se introduce una función de pérdida para datos no etiquetados, que denota . TMOV luego selecciona un núcleo reproducible del espacio de Hilbert minimizando el riesgo empírico regularizado :

La solución exacta es indecidible debido al término no convexo , por lo que la investigación se centra en encontrar aproximaciones útiles. [6]

Otros enfoques que implementan la distribución de baja densidad incluyen modelos de procesos gaussianos, ordenación de información y minimización de entropía (de los cuales TMOV es un caso especial).

Métodos basados ​​en gráficos

Los métodos basados ​​en gráficos para el aprendizaje semiautomático utilizan datos representados por un gráfico, con un nodo para cada ejemplo etiquetado o sin etiquetar. El gráfico se puede construir utilizando el conocimiento del dominio o basándose en la similitud de los ejemplos. Dos enfoques comunes implican conectar cada punto de datos a sus vecinos más cercanos oa ejemplos a una distancia dentro de . El peso del borde entre y se establece en .

En el marco de la regularización múltiple [8] [9] , el gráfico sirve como representante de la variedad. La expresión se agrega al problema de regularización estándar de Tikhonov para garantizar la suavidad de la solución con respecto a la multiformidad (en el propio espacio del problema), así como el espacio de entrada circundante. La tarea de minimización se convierte en:

[6]

donde  es el espacio de Hilbert del núcleo reproducible y  son los datos multiformes. Los parámetros de regularización y control de la uniformidad en los espacios próximos e interiores, respectivamente. El gráfico se utiliza para aproximar el término de regularización interno. Habiendo definido la matriz de Kirchhoff , donde y es un vector, obtenemos:

Enfoques heurísticos

Algunos de los métodos de aprendizaje semiautomático no están adaptados para usar datos etiquetados y no etiquetados al mismo tiempo, pero pueden usar datos no etiquetados para el aprendizaje supervisado. Por ejemplo, los ejemplos etiquetados y no etiquetados pueden informar la presentación, la métrica o los núcleos de datos en el primer paso no supervisado. Luego, los procesos de aprendizaje supervisados ​​solo etiquetaron ejemplos.

El autoaprendizaje  es un método envolvente para el aprendizaje semiautomático. [10] Inicialmente, los procesos de aprendizaje supervisado solo etiquetaban datos. Este clasificador luego se aplica a los datos no etiquetados para generar más ejemplos etiquetados para el aprendizaje supervisado. En general, uno puede estar seguro de que solo se agregan etiquetas clasificadoras en cada paso. [once]

El aprendizaje colaborativo es una extensión del autoaprendizaje en el que múltiples clasificadores trabajan en diferentes conjuntos de características (idealmente no superpuestas) y generan ejemplos etiquetados entre sí. [12]

Aprendizaje semiautomático en la percepción humana

Las respuestas humanas a las tareas formales de aprendizaje semiautomáticas han arrojado diversas conclusiones con respecto al grado de influencia de los datos no etiquetados (consulte [13] para obtener un resumen ). Muchas tareas de aprendizaje natural también pueden verse como ejemplos de aprendizaje semiautomático. La mayoría de los principios del aprendizaje humano involucran una pequeña cantidad de instrucciones directas (p. ej., el etiquetado de objetos por parte de los padres en la infancia) junto con una gran cantidad de ejemplos sin etiquetar (p. ej., observar objetos sin nombrarlos o contarlos, o al menos sin describirlos).

Los bebés son sensibles a la estructura de los datos no etiquetados, como imágenes de perros y gatos, o caras de hombres y mujeres. [14] Estudios recientes han encontrado que los bebés y los niños toman en cuenta no solo los ejemplos sin etiquetar disponibles, sino también el proceso de selección de ellos, que da como resultado ejemplos etiquetados. [15] [16]

Véase también

Fuentes

  1. 1 2 Aprendizaje  semisupervisado (indefinido) . - Cambridge, Mass.: MIT Press , 2006. - ISBN 978-0-262-03358-9 .
  2. ^ Stevens, KN ​​(2000), Fonética acústica, MIT Press, ISBN 0-262-69250-3 , 978-0-262-69250-2
  3. Scudder, HJ Probabilidad de error de algunas máquinas de reconocimiento de patrones adaptables.
  4. Vapnik, V. N., Chervonenkis, A. Ya. Teoría de reconocimiento de patrones. — M.: Nauka, 1974. — 416 p.
  5. 1 2 Ratsaby, J. y Venkatesh, S. Aprendiendo de una combinación de ejemplos etiquetados y no etiquetados con información adicional paramétrica.
  6. 1 2 3 4 Zhu, Xiaojin.
  7. Cozman, F. y Cohen, I. Riesgos del aprendizaje semisupervisado: cómo los datos no etiquetados pueden degradar el rendimiento de los clasificadores generativos.
  8. M. Belkin, P. Niyogi. Aprendizaje semisupervisado sobre variedades riemannianas  (indefinidas)  // Aprendizaje automático. - 2004. - V. 56 , Nº Especial sobre Clustering . - S. 209-239 . -doi : 10.1023/b : mach.0000033120.25363.1e .
  9. M. Belkin, P. Niyogi, V. Sindhwani.
  10. Triguero, Isaac. Técnicas autoetiquetadas para el aprendizaje semisupervisado: taxonomía, software y estudio empírico  (inglés)  // Knowledge and Information Systems: revista. - 2013. - 26 noviembre ( vol. 42 , n. 2 ). - pág. 245-284 . — ISSN 0219-1377 . -doi : 10.1007 / s10115-013-0706-y .
  11. Fazakis, Nikos. LMT autodidacta para aprendizaje semisupervisado  (inglés)  // Inteligencia computacional y neurociencia: revista. - 2015. - 29 de diciembre ( vol. 2016 ). - P. 1-13 . -doi : 10.1155 / 2016/3057481 .
  12. Didaci, Luca. Análisis del algoritmo de co-entrenamiento con conjuntos de entrenamiento muy pequeños  . — Springer Berlín Heidelberg . - Pág. 719-726. — ISBN 9783642341656 .
  13. ↑ Introducción al aprendizaje  semisupervisado . - Morgan & Claypool, 2009. - ISBN 9781598295481 .
  14. Younger BA, Fearing DD Parsing Items in Separate Categories: Developmental Change in Infant Categorization  //  Child Development : journal. - 1999. - vol. 70 . - pág. 291-303 . -doi : 10.1111/ 1467-8624.00022 .
  15. Xu, F. y Tenenbaum, JB Sensibilidad al muestreo en el aprendizaje de palabras bayesiano. Ciencia del desarrollo   // Ciencia del desarrollo : diario. - 2007. - vol. 10 _ - pág. 288-297 . -doi : 10.1111 / j.1467-7687.2007.00590.x .
  16. Gweon, H., Tenenbaum JB y Schulz LE Infants consideran tanto la muestra como el proceso de muestreo en la generalización inductiva  // Actas de la Academia Nacional de Ciencias de los Estados Unidos de América  : revista  . - 2010. - Vol. 107 , núm. 20 _ - Pág. 9066-9071 . -doi : 10.1073 / pnas.1003095107 .

Enlaces