Pronóstico estructural

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 30 de enero de 2022; las comprobaciones requieren 7 ediciones .

La predicción estructural , o aprendizaje estructural , es un término colectivo para las técnicas de aprendizaje automático supervisado que implican la anticipación de objetos estructurales.

Al igual que las técnicas de aprendizaje supervisado, los modelos de predicción estructural se entrenan con datos observados, donde el verdadero valor predicho se usa para observar los parámetros del modelo. Debido a la posible complejidad del modelo y la relación de las variables predichas, el proceso de predicción que utiliza el aprendizaje del modelo a menudo no es factible computacionalmente, por lo que se utilizan inferencias aproximadas .

Aplicaciones

Por ejemplo, el problema de traducir una oración del lenguaje natural a una representación sintáctica como un árbol de análisis puede considerarse como un problema de predicción estructural en el que el dominio de inferencia estructural es el conjunto de todos los árboles de análisis posibles. La predicción estructural también se utiliza en una amplia gama de aplicaciones, incluida la bioinformática , el procesamiento del lenguaje natural , el reconocimiento de voz y la visión artificial .

Ejemplo: Marcado de secuencia

El marcado de secuencias es una clase de tareas que están muy extendidas en el procesamiento del lenguaje natural . Los datos de entrada en ellos son a menudo secuencias (por ejemplo, oraciones en el texto). En algunas versiones, es necesario marcar dichas secuencias, por ejemplo, el marcado de partes del discurso y el reconocimiento de entidades nombradas . En el marcado parcial , por ejemplo, cada palabra de una secuencia debe recibir una " etiqueta " (clase de etiqueta) que expresa el " tipo " de la palabra:

Este	DT
es	GL
a	DT
etiquetado	IP
frase	IP

El objetivo principal del problema de etiquetado de secuencias es la definición correcta de un concepto (elemento de una secuencia) en presencia de varios valores adecuados para ello. Por ejemplo, la palabra "oración" en inglés puede tratarse como un sustantivo y un verbo. Para una predicción correcta, a una palabra se le debe asignar una etiqueta de clase ("etiqueta").

A primera vista, el problema descrito anteriormente puede resolverse mediante una simple clasificación de elementos individuales, pero este enfoque no tiene en cuenta el hecho empírico de que las etiquetas no surgen de forma independiente. Por el contrario, cada etiqueta muestra una fuerte dependencia condicional de con la etiqueta de las palabras anteriores. Es decir, de qué etiqueta es, por ejemplo, la palabra "oración" - un verbo o un adjetivo - dependen las etiquetas de otras palabras en la oración. Este hecho se puede usar en modelos que predicen la secuencia completa de etiquetas para una oración, como un modelo oculto de Markov o un campo aleatorio condicional [1] . Para modelos que utilizan etiquetas individuales, como el algoritmo de Viterbi , este método no es adecuado.

Técnicas

Los modelos probabilísticos gráficos forman una gran clase de modelos de predicción estructural . En particular, las redes bayesianas y los campos aleatorios son populares . Otros algoritmos y modelos para la predicción estructural incluyen la programación lógica inductiva , el razonamiento basado en casos , las máquinas de vectores de soporte estructural , las redes lógicas de Markov y los modelos condicionales restringidos . Técnicas básicas:

Campo aleatorio condicional
Máquina vectorial de soporte estructural
Método estructural del vecino más cercano k
Red neuronal recurrente , concretamente la red neuronal de Elman

Perceptrón estructural

Una de las formas más sencillas de comprender los algoritmos generales de predicción estructural es el perceptrón estructural de Collins [2] . Este algoritmo combina el algoritmo de perceptrón para entrenar clasificadores lineales con un algoritmo de inferencia (clásicamente, el algoritmo de Viterbi si se usa para datos en serie) y se puede describir de manera abstracta de la siguiente manera:

Definimos una "función de característica conjunta" Φ( x , y ) que mapea el elemento de entrenamiento x y el candidato predicho y en un vector de longitud n. En este caso, x e y pueden tener cualquier estructura, y el valor de n depende de la tarea, pero es fijo para cada modelo. Sea GEN una función que genera un candidato a predictor. Después:

Sea un vector de pesos de longitud n

w

Para un número predefinido de iteraciones: Para cada instancia en el conjunto de entrenamiento de inferencia verdadera :

X

t

Haciendo una predicción

{\hat {y}}={\operatorname {arg\,max} }\,\{{y}\in {GEN}({x})\}\,({w}^{T} \,\fi ({x},{y}))

Actualizar , de a : , es la tasa de aprendizaje.

w

{\ estilo de visualización {\ sombrero {y}}}

t

{w}={w}+{c}(-\phi ({x},{\hat {y)))+\phi ({x},{t}))

C

En la práctica, encontrar Argmax on se puede hacer con un algoritmo como el algoritmo de Viterbi o el algoritmo max-sum , en lugar de una búsqueda exhaustiva sobre un conjunto exponencialmente grande de candidatos. ${\ estilo de visualización {GEN} ({x})}$

La idea de aprender es similar a un perceptrón con muchas clases .

Notas

↑ Lafferty, McCallum, Pereira, 2001 , pág. 282–289.
↑ Collins, 2002 .

Literatura

Gökhan BakIr, Ben Taskar, Thomas Hofmann, Bernhard Schölkopf, Alex Smola, SVN Vishwanathan. Predicción de datos estructurados . — Prensa del MIT, 2007.
Lafferty J., McCallum A., Pereira F. Campos aleatorios condicionales: modelos probabilísticos para segmentar y etiquetar datos de secuencias // Proc. 18ª Conferencia Internacional. sobre aprendizaje automático . — 2001. Archivado el 7 de junio de 2013 en Wayback Machine .
Michael Collins. Métodos de entrenamiento discriminativos para modelos ocultos de Markov: Teoría y experimentos con algoritmos de perceptrón // Proc. EMNLP . - 2002. - V. 10. Copia de archivo del 8 de diciembre de 2006 en Wayback Machine .
Noah Smith, Predicción de estructura lingüística , 2011.

Enlaces

Implementación del perceptrón estructurado de Collins

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ICA LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG