Pronóstico estructural

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 30 de enero de 2022; las comprobaciones requieren 7 ediciones .

La predicción estructural , o aprendizaje estructural , es un término colectivo para las técnicas de aprendizaje automático supervisado que implican la anticipación de objetos estructurales.

Al igual que las técnicas de aprendizaje supervisado, los modelos de predicción estructural se entrenan con datos observados, donde el verdadero valor predicho se usa para observar los parámetros del modelo. Debido a la posible complejidad del modelo y la relación de las variables predichas, el proceso de predicción que utiliza el aprendizaje del modelo a menudo no es factible computacionalmente, por lo que se utilizan inferencias aproximadas .

Aplicaciones

Por ejemplo, el problema de traducir una oración del lenguaje natural a una representación sintáctica como un árbol de análisis puede considerarse como un problema de predicción estructural en el que el dominio de inferencia estructural es el conjunto de todos los árboles de análisis posibles. La predicción estructural también se utiliza en una amplia gama de aplicaciones, incluida la bioinformática , el procesamiento del lenguaje natural , el reconocimiento de voz y la visión artificial .

Ejemplo: Marcado de secuencia

El marcado de secuencias es una clase de tareas que están muy extendidas en el procesamiento del lenguaje natural . Los datos de entrada en ellos son a menudo secuencias (por ejemplo, oraciones en el texto). En algunas versiones, es necesario marcar dichas secuencias, por ejemplo, el marcado de partes del discurso y el reconocimiento de entidades nombradas . En el marcado parcial , por ejemplo, cada palabra de una secuencia debe recibir una " etiqueta " (clase de etiqueta) que expresa el " tipo " de la palabra:

Este DT
es GL
a DT
etiquetado IP
frase IP

El objetivo principal del problema de etiquetado de secuencias es la definición correcta de un concepto (elemento de una secuencia) en presencia de varios valores adecuados para ello. Por ejemplo, la palabra "oración" en inglés puede tratarse como un sustantivo y un verbo. Para una predicción correcta, a una palabra se le debe asignar una etiqueta de clase ("etiqueta").

A primera vista, el problema descrito anteriormente puede resolverse mediante una simple clasificación de elementos individuales, pero este enfoque no tiene en cuenta el hecho empírico de que las etiquetas no surgen de forma independiente. Por el contrario, cada etiqueta muestra una fuerte dependencia condicional de con la etiqueta de las palabras anteriores. Es decir, de qué etiqueta es, por ejemplo, la palabra "oración" - un verbo o un adjetivo - dependen las etiquetas de otras palabras en la oración. Este hecho se puede usar en modelos que predicen la secuencia completa de etiquetas para una oración, como un modelo oculto de Markov o un campo aleatorio condicional [1] . Para modelos que utilizan etiquetas individuales, como el algoritmo de Viterbi , este método no es adecuado.

Técnicas

Los modelos probabilísticos gráficos forman una gran clase de modelos de predicción estructural . En particular, las redes bayesianas y los campos aleatorios son ​​populares . Otros algoritmos y modelos para la predicción estructural incluyen la programación lógica inductiva , el razonamiento basado en casos , las máquinas de vectores de soporte estructural , las redes lógicas de Markov y los modelos condicionales restringidos . Técnicas básicas:

Perceptrón estructural

Una de las formas más sencillas de comprender los algoritmos generales de predicción estructural es el perceptrón estructural de Collins [2] . Este algoritmo combina el algoritmo de perceptrón para entrenar clasificadores lineales con un algoritmo de inferencia (clásicamente, el algoritmo de Viterbi si se usa para datos en serie) y se puede describir de manera abstracta de la siguiente manera:

Definimos una "función de característica conjunta" Φ( x , y ) que mapea el elemento de entrenamiento x y el candidato predicho y en un vector de longitud n. En este caso, x e y pueden tener cualquier estructura, y el valor de n depende de la tarea, pero es fijo para cada modelo. Sea GEN una función que genera un candidato a predictor. Después:

Sea un vector de pesos de longitud n Para un número predefinido de iteraciones: Para cada instancia en el conjunto de entrenamiento de inferencia verdadera : Haciendo una predicción Actualizar , de a : , es la tasa de aprendizaje.

En la práctica, encontrar Argmax on se puede hacer con un algoritmo como el algoritmo de Viterbi o el algoritmo max-sum , en lugar de una búsqueda exhaustiva sobre un conjunto exponencialmente grande de candidatos.

La idea de aprender es similar a un perceptrón con muchas clases .

Notas

  1. Lafferty, McCallum, Pereira, 2001 , pág. 282–289.
  2. Collins, 2002 .

Literatura

Enlaces