Gramática estocástica libre de contexto

La gramática libre de contexto estocástica ( SCS , también gramática libre de contexto probabilística , VCS ) es una gramática libre de contexto en la que cada regla de inferencia corresponde a una probabilidad. La probabilidad de una inferencia se define como el producto de las probabilidades de las reglas de inferencia que utiliza, por lo que algunas inferencias encajan mejor con una gramática estocástica que otras. Las gramáticas SCF amplían las gramáticas CF de la misma manera que los modelos ocultos de Markov amplían las gramáticas regulares. Las gramáticas SCS se utilizan ampliamente en la ciencia: desde el procesamiento del lenguaje natural hasta el estudio de las moléculas de ARN . Las gramáticas SCS son una forma especial de gramáticas libres de contexto ponderadas .

Técnicas

Una variante del algoritmo Kok-Younger-Kasami encuentra el análisis de Viterbi para una cadena dada y una gramática SCS. El análisis de Viterbi es la derivación más probable de una cadena dada la gramática SCS.

Los algoritmos interno-externo, que son análogos a los algoritmos de ida y vuelta, se pueden usar para calcular la probabilidad total de todas las inferencias correspondientes a una cadena dada de una gramática SCF dada. Esto es equivalente a la probabilidad de que la gramática SCF genere una cadena dada, y es intuitivamente una medida de la conformidad de una cadena dada con una gramática dada.

Los algoritmos internos y externos también se pueden usar para calcular las probabilidades de que una regla de inferencia dada se use en una inferencia arbitraria para una cadena dada. Esto se usa para aplicar el algoritmo EM para obtener las probabilidades de máxima verosimilitud para la gramática SCS en función de las secuencias de entrenamiento que la gramática SCS necesita modelar. El algoritmo es similar al utilizado para los modelos ocultos de Markov.

Aplicaciones

Procesamiento del lenguaje natural

Las gramáticas independientes del contexto se crearon originalmente en un intento de modelar los lenguajes naturales. Algunos investigadores han ampliado esta idea aplicando la gramática SCS.

Aquí hay un ejemplo de una gramática SCS con dos reglas. Cada regla está precedida por una probabilidad que refleja la frecuencia relativa de su aplicación.

0.7VP→VNP 0.3 VP → V NP NP

A partir de esta gramática, podemos calcular el número esperado de NP generados a partir de VP: 0,7 x 1 + 0,3 x 2 = 1,3.

En particular, algunos sistemas de reconocimiento de voz utilizan gramáticas SCF para mejorar la aproximación de probabilidad y, por lo tanto, la calidad del reconocimiento.

Recientemente, los CFG probabilísticos han desempeñado un papel en la explicación de la jerarquía de accesibilidad, que intenta mostrar por qué algunas estructuras son más difíciles de entender que otras.

Resultó que si hay información probabilística sobre construcciones más probables, entonces es posible calcular la entropía de información de estas construcciones. Si el mecanismo de percepción de la sintaxis se basa en los conceptos de la teoría de la información, entonces bien puede usar algo similar a las gramáticas de videoconferencia. [una]

ARN

Las gramáticas CS se utilizan para modelar la estructura secundaria del ARN [2] [3] . La estructura secundaria incluye nucleótidos complementarios dentro de una sola molécula de ARN. Este emparejamiento es biológicamente importante para el buen funcionamiento de la molécula de ARN. La mayoría de estos emparejamientos se pueden representar mediante una gramática CF (con la excepción de los pseudonudos).

Considere, por ejemplo, la siguiente gramática, en la que a, c, g y u representan nucleótidos y S es el carácter inicial:

S → aSu | csg | gSc | EE.UU

Este CFG simple representa una molécula de ARN que consta únicamente de dos regiones completamente complementarias en las que solo se permiten pares complementarios canónicos (p. ej., AU y CG).

Al agregar probabilidades a CFG más complejos, es posible modelar bases o pares de bases que más o menos coincidan con la forma esperada de la molécula de ARN. Las gramáticas SCS se utilizan para modelar secuencias en familias de genes de ARN en la base de datos Rfam y buscar secuencias genómicas para miembros probables de estas familias. Las gramáticas SCS también se han utilizado para buscar genes de ARN utilizando genómica comparativa. En este trabajo, se examinaron los homólogos de posibles genes de ARN de dos organismos relacionados utilizando enfoques de gramática SCS para determinar si se conservaba la estructura secundaria. Si es así, entonces la secuencia es probablemente un gen de ARN y la estructura secundaria se conserva para las necesidades funcionales del gen de ARN. También se ha demostrado que las gramáticas SCS pueden predecir la estructura secundaria de una molécula de ARN de manera similar a los enfoques existentes: tales gramáticas SCS son utilizadas, por ejemplo, por el programa Stemloc.

Comparación con la gramática generativa

Con la publicación del teorema de Gold en 1967, se afirmó que las gramáticas de los lenguajes naturales se rigen por reglas deterministas que no pueden aprenderse solo a partir de ejemplos positivos. Esto fue parte del argumento de la pobreza de estímulo introducido en 1980 e implícito desde los primeros trabajos de Chomsky en la década de 1950. Entre otros argumentos, esto ha llevado a la noción nativista de que las formas de la gramática (incluyendo, en algunas versiones, un léxico conceptual completo) están arraigadas desde el nacimiento. Esta representación está significativamente limitada por las teorías GB y MP.

Sin embargo, cabe señalar que el resultado de Gold sobre la capacidad de aprendizaje se puede eludir fácilmente suponiendo que el alumno aprende una aproximación casi perfecta del idioma correcto o aprende entradas típicas en lugar de distribuidas arbitrariamente. De hecho, se ha demostrado que simplemente recibir información del hablante que produce ejemplos positivos arbitrariamente, en lugar de seguir un plan predeterminado, conduce a la identificabilidad con un límite de probabilidad de 1. [4] [5] .

El problema con cualquier sintaxis formal es que a menudo se puede aplicar más de una regla de inferencia a una estructura, lo que genera un conflicto. Cuanto mayor es la cobertura, mayor es el conflicto, y todos los gramáticos (desde Panini ) han dedicado un esfuerzo considerable a crear un sistema de precedencia para las reglas que generalmente han resultado refutables. Otra dificultad es con la regeneración, que también genera estructuras inválidas. Las gramáticas probabilísticas solucionan estos problemas utilizando las frecuencias de las diversas reglas de inferencia para ordenarlas, lo que da como resultado una interpretación "más probable", que es por definición refutable, dados más datos. Dado que los patrones de uso cambian diacrónicamente, estas reglas probabilísticas se pueden volver a entrenar, actualizando así la gramática.

Es posible construir una gramática probabilística a partir de la sintaxis formal tradicional asignando a cada no terminal una probabilidad tomada de alguna distribución para aproximarse a datos reales. En la mayoría de los ejemplos de una amplia gama de idiomas, las gramáticas probabilísticas que ajustan estas probabilidades en función de los datos funcionan mejor que las gramáticas hechas a mano (aunque algunas gramáticas basadas en reglas actualmente se acercan a las gramáticas VCS en precisión).

Recientemente, las gramáticas probabilísticas han recibido alguna validación subjetiva. Es bien sabido que diferentes estructuras sintácticas se perciben con diferente complejidad (por ejemplo, la jerarquía de accesibilidad para frases relativas). Se han utilizado versiones probabilísticas de gramáticas minimalistas para calcular la entropía de la información, que se ha encontrado que se correlaciona bien con los datos psicolingüísticos sobre la facilidad de comprensión y reproducción. [una]

Notas

  1. 12 Juan Hale . Incertidumbre sobre el resto de la oración  (neopr.)  // Ciencia cognitiva. - 2006. - T. 30 . - S. 643-672 . -doi : 10.1207 / s15516709cog0000_64 .
  2. Durbin, Eddy, Krogh, Mitchison, Análisis de secuencia biológica, Cambridge University Press, 1998. Este libro de texto de bioinformática incluye una introducción accesible al uso de SCFG para modelar ARN, así como la historia de esta aplicación hasta 1998.
  3. Sean R. Eddy y Richard Durbin (1994), "Análisis de secuencias de ARN mediante modelos de covarianza", Nucleic Acids Research , 22 (11): 2079-88. [1] Archivado el 30 de mayo de 2020 en Wayback Machine .
  4. Clark, A. (2001). Adquisición del lenguaje sin supervisión: teoría y práctica. tesis doctoral
  5. Horning, JJ (1969). Un estudio de inferencia gramatical. Doctor. tesis, Departamento de Ciencias de la Computación, Universidad de Stanford

Enlaces