Derivación gramatical

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 27 de octubre de 2021; la verificación requiere 1 edición .

La inducción gramatical (o inferencia gramatical [1] ) es un procedimiento de aprendizaje automático que restaura la gramática formal de un idioma a partir de un conjunto de observaciones (ejemplos) con una pertenencia conocida a ese idioma. Como resultado del procedimiento se construye un modelo de objetos observables en forma de un conjunto de reglas de inferencia o reglas de generación , un autómata finito o un autómata de otro tipo. En términos más generales, la inferencia gramatical es una de las áreas del aprendizaje automático en las que el espacio de ejemplo consiste en objetos combinatorios discretos como cadenas, árboles, gráficos.

Clases de gramática

La inferencia gramatical a menudo se centra en el problema del aprendizaje de autómatas finitos de varios tipos (consulte el artículo Regular Language Induction para obtener detalles de estos enfoques), ya que ha habido algoritmos eficientes para resolver este problema desde la década de 1980.

Desde principios de la década de 2000, estos enfoques se han extendido a la tarea de inferir gramáticas independientes del contexto y formalismos más ricos, como múltiples gramáticas independientes del contexto y gramáticas paralelas múltiples independientes del contexto. Otras clases de gramáticas para las que se estudió la inferencia gramatical también se estudiaron para otras clases de gramáticas: gramáticas contextuales y lenguajes de patrones .

Modelos de aprendizaje

El tipo de aprendizaje más simple es cuando el algoritmo de aprendizaje recibe solo un conjunto de ejemplos y, a veces, contraejemplos, de las palabras del idioma en cuestión. También hay otros modelos de aprendizaje. Una de las alternativas frecuentemente estudiadas es el caso en que el aprendiz puede preguntar sobre la pertenencia de la palabra a la lengua, como, por ejemplo, en el modelo de aprendizaje exacto o el modelo docente mínimamente adecuado introducido por Angluin [2] .

Metodologías

Se ha desarrollado una amplia variedad de métodos para la inferencia gramatical. Las dos fuentes clásicas son los artículos de Fu de 1977 [3] y 1982 [4] . Duda, Hart y Stork [5] también dedicaron una pequeña sección a este problema y citan muchas fuentes. El método básico de prueba y error que presentaron se analiza a continuación. Para conocer enfoques para subclasificar lenguajes regulares , en particular, consulte Inducción de lenguajes regulares . Un libro más reciente es el de de la Higuera (2010) [1] , que cubre la teoría de la inferencia gramatical en lenguajes regulares y autómatas finitos. D'Ulisia, Ferri y Grifoni [6] revisaron investigaciones sobre métodos de inferencia para lenguajes naturales.

Derivación gramatical por ensayo y error

El método propuesto en la sección 8.7 de Dowd, Hart y Stork [5] propone adivinar secuencialmente las reglas gramaticales y contrastarlas con observaciones positivas y negativas. El conjunto de reglas se amplía para que se pueda generar cada ejemplo positivo, pero si un conjunto de reglas dado genera un ejemplo negativo, debe descartarse. Este enfoque particular se puede describir como "prueba de hipótesis" y es algo similar al algoritmo de espacio de versiones de Mitchell . El texto del artículo de Dowd, Hart y Storck [5] brinda un ejemplo simple que ilustra bien el proceso, pero la viabilidad de un enfoque de prueba y error no guiado para problemas más grandes es cuestionable.

Inferencia gramatical usando algoritmos genéticos

La inferencia gramatical por medio de algoritmos evolutivos es el proceso de evolución de la representación de la gramática de la lengua meta a través de algún proceso evolutivo. Las gramáticas formales se pueden representar fácilmente como árboles de reglas de inferencia a los que se pueden aplicar operadores evolutivos. Los algoritmos de este tipo tienen su origen en la programación genética , cuyo pionero fue John Koza . Otros trabajos iniciales sobre lenguajes formales simples utilizaron una representación de cadena binaria de algoritmos genéticos, pero la estructura jerárquica interna de las gramáticas que subyacen al lenguaje de forma aumentada de Backus-Naur hace que los árboles sean un enfoque más flexible.

Koza introdujo los programas Lisp como árboles. Se las arregló para encontrar analogías entre los operadores genéticos con los operadores estándar en los árboles. Por ejemplo, el intercambio de subárboles es equivalente al proceso correspondiente de cruce genético , donde las subcadenas del código genético se convierten en la individualidad de la próxima generación. La validez se mide evaluando el código una función Lisp . Analogías similares entre las estructuras de árbol de las representaciones de Lisp y las representaciones de árbol de las gramáticas hacen posible la técnica de aplicar la programación genética para la inducción gramatical.

En el caso de la inducción gramatical, la transferencia de subárboles corresponde al intercambio de reglas de inferencia, lo que hace posible analizar frases de un determinado idioma. El operador de validez para una gramática se basa en alguna medida de qué tan bien analiza un grupo de oraciones del idioma de destino. En la representación en árbol de la gramática, el símbolo terminal de la regla generadora corresponde a una hoja del árbol. Su nodo principal coincide con un carácter no terminal (como una frase nominal o una frase verbal ) en el conjunto de reglas. Después de todo, el nodo raíz puede corresponder a una secuencia de no terminales.

Derivación gramatical con algoritmos codiciosos

Como todos los algoritmos codiciosos , los algoritmos de inferencia codiciosos toman iterativamente la decisión que parece mejor en esa etapa. Una decisión generalmente se entiende como la creación de una nueva regla, la eliminación de una regla existente, la elección de una regla aplicable, la fusión de reglas existentes. Dado que los conceptos de "etapa" y "mejor" se pueden definir de diferentes maneras, se han creado varios algoritmos de inferencia codiciosos.

Los siguientes algoritmos para generar gramáticas libres de contexto toman una decisión después de leer cada carácter:

El algoritmo Lempel-Ziv-Welch genera una gramática independiente del contexto de forma determinista, de modo que solo es necesario recordar la regla inicial de la gramática generada.
Sequitur y sus modificaciones.

Los siguientes algoritmos para generar gramáticas libres de contexto primero leen la secuencia completa de caracteres y luego comienzan a tomar decisiones:

Codificación de pares de bytes y sus variantes optimizadas.

Aprendizaje distributivo

Los enfoques más recientes se basan en el aprendizaje distributivo . Los algoritmos que utilizan estos enfoques se han aplicado a la enseñanza de gramáticas libres de contexto y lenguajes ligeramente sensibles al contexto , y se ha demostrado que son correctos y eficientes para grandes subclases de estas gramáticas [7] [8]

Enseñanza de lenguajes de muestra

Angluin definió un patrón como "una cadena de caracteres constantes del alfabeto Σ y caracteres variables de un conjunto disjunto". El lenguaje de dichos patrones es el conjunto de todos los ejemplos básicos no vacíos, es decir, todas las cadenas obtenidas reemplazando adecuadamente los caracteres variables con cadenas no vacías de caracteres constantes [nota 1] . Se dice que un patrón es descriptivo de un conjunto finito de cadenas si su lenguaje es mínimo (dada la inclusión del conjunto) entre todos los lenguajes de patrones, incluido el conjunto de entrada.

Angluin ha proporcionado un algoritmo polinomial para calcular, a partir de un conjunto de filas de entrada dado, todos los patrones descriptivos de una sola variable x[nota 2] . Con este fin, construye un autómata que representa todos los posibles patrones relevantes. Usando argumentos sofisticados sobre la longitud de las palabras que dependen solo de una sola variable x, el número de estados puede reducirse significativamente [9] .

Erlebach et al dieron una versión más eficiente del algoritmo de aprendizaje de patrones de Angluin, así como una versión paralela del algoritmo [10] .

Arimura et al., han demostrado que una clase de lenguajes obtenidos a partir de un grupo limitado de muestras se pueden entrenar en tiempo polinomial [11] .

Teoría de patrones

La teoría de patrones ( ing. patrón teoría ), formulada por Ulf Grenander [12] , es un formalismo matemáticopara describir el conocimiento sobre el mundo en forma de patrones. La diferencia del enfoque propuesto para la inteligencia artificial de otros es que no comienza con la definición de algoritmos y máquinas para el reconocimiento y clasificación de patrones. Más bien, el método prescribe un vocabulario para formular y reescribir patrones en un lenguaje preciso.

Además del nuevo lenguaje algebraico, se ha introducido un nuevo enfoque estadístico con el objetivo de:

Reconocer las variables latentes de un conjunto de datos utilizando datos del mundo real en lugar de influencias artificiales.
Definiciones de distribuciones previas de variables latentes y modelos para variables observadas que forman los vértices de un gráfico como el gráfico de Gibbs.
Estudiar la aleatoriedad y variabilidad de estos gráficos.
Creación de clases base de modelos estocásticos aplicados enumerando deformaciones[ término desconocido ] muestras.
Implementación de síntesis ( muestreo ) utilizando modelos, y no solo el estudio de señales

Aplicaciones

Los principios de la inducción gramatical se han aplicado a otros aspectos del procesamiento del lenguaje natural y (entre muchas otras tareas) a la percepción del lenguaje natural [13] , la traducción automática basada en ejemplos [14] , el análisis de morfemas y la derivación del Origen de los topónimos. La inducción gramatical también se ha utilizado para la compresión sin pérdidas [15] y la inferencia estadística a través de los principios de mensajes de longitud mínima y descripciones de longitud mínima . La inducción gramatical también se ha utilizado en algunos modelos probabilísticos de adquisición del lenguaje [16] .

Véase también

inteligencia artificial
Traducción automática basada en ejemplos
Programación inductiva
Complejidad de Kolmogorov
Gramática directa
Reconocimiento de patrones sintácticos

Notas

↑ Un lenguaje de patrones con al menos dos ocurrencias de la misma variable no es regular debido al lema de bombeo .
↑ x puede ocurrir varias veces, pero no debe ser ninguna otra variabley

↑ 12 de la Higuera, 2010 .
↑ Angluin, 1987 , p. 87–106.
↑ Fu, 1977 .
↑ Fu, 1982 .
↑ 1 2 3 Duda, Hart, Cigüeña, 2001 .
↑ D'Ulizia, Ferri, Grifoni, 2011 , p. 1–27.
↑ Clark, Eyraud, 2007 .
↑ Yoshinaka, 2011 , pág. 1821-183.
↑ Angluin, 1980 , p. 46–62.
↑ Erlebach, Rossmanith, Stadtherr, Steger, Zeugmann, 1997 , pág. 260–276.
↑ Arimura, Shinohara, Otsuki, 1994 , pág. 649–660.
↑ Granada, Miller, 2007 .
↑ Miller, Bobrow, Schwartz, 1994 .
↑ Marrón, 2001 .
↑ Cherniavsky, Ladner, 2004 .
↑ Chater, Manning, 2006 , pág. 335-344.

Literatura

Colin de la Higuera. Inferencia gramatical: aprendizaje de autómatas y gramáticas . —Cambridge: Prensa de la Universidad de Cambridge, 2010.
Ulf Granada, Michael I. Miller. Teoría de patrones: de la representación a la inferencia. - Prensa universitaria de Oxford, 2007. - ISBN 0-19-850570-1.
Alexander Clark, Remi Eyraud. Identificación de polinomios en el límite de lenguajes libres de contexto sustituibles // Journal of Machine Learning Research. — 2007.
Ryo Yoshinaka. Aprendizaje eficiente de múltiples lenguajes libres de contexto con sustituibilidad multidimensional a partir de datos positivos // Informática Teórica. - 2011. - T. 412 , núm. 19 _ - S. 1821-1831 .
Scott Miller, Robert J. Bobrow, Richard M. Schwartz. Modelos de comprensión ocultos del lenguaje natural // Actas de la 32ª reunión anual de la Asociación de Lingüística Computacional. . — Asociación de Lingüística Computacional, 1994.
Ralph D. Brown. Inducción de reglas de transferencia para traducción basada en ejemplos // Actas del taller MT Summit VIII sobre traducción automática basada en ejemplos. — 2001.
Neva Cherniavsky, Richard Ladner. Compresión de secuencias de ADN basada en la gramática // Grupo de trabajo DIMACS sobre la transformada de Burrows-Wheeler . — 2004.
Nick Chater, Christopher D. Manning. Modelos probabilísticos de procesamiento y adquisición del lenguaje // Tendencias en ciencias cognitivas . — 2006.
Dana Angluin. Aprendizaje de conjuntos regulares a partir de consultas y contraejemplos // Información y control . - 1987. - T. 75 . — págs. 87–106 . - doi : 10.1016/0890-5401(87)90052-6 . Archivado desde el original el 2 de diciembre de 2013.
D'Ulizia A., Ferri F., Grifoni P. Una encuesta sobre los métodos de inferencia gramatical para el aprendizaje del lenguaje natural // Revisión de inteligencia artificial. - 2011. - T. 36 , N º 1 .
Dana Angluin. Encontrar patrones comunes a un conjunto de cadenas // Journal of Computer and System Sciences. - 1980. - T. 21 . - doi : 10.1016/0022-0000(80)90041-0 .
Erlebach T., Rossmanith P., Stadtherr H., Steger A., Zeugmann T. Aprendiendo lenguajes de patrones de una variable de manera muy eficiente en promedio, en paralelo y haciendo consultas // Proc. 8º Taller Internacional de Teoría del Aprendizaje Algorítmico - ALT'97 / M. Li, A. Maruoka. - Springer, 1997. - T. 1316. - (LNAI).
Hiroki Arimura, Takeshi Shinohara, Setsuko Otsuki. Encontrar generalizaciones mínimas para uniones de lenguajes de patrones y su aplicación a la inferencia inductiva a partir de datos positivos // Proc. STACS 11. - Springer, 1994. - T. 775. - (LNCS).
Richard O. Duda, Peter E. Hart, David G. Stork. Clasificación de patrones . - 2. - Nueva York : John Wiley & Sons, 2001.
Rey Sun Fu. Reconocimiento de patrones sintácticos y aplicaciones. - Englewood Cliffs, Nueva Jersey: Prentice-Hall, 1982.
Rey Sun Fu. Reconocimiento de Patrones Sintácticos, Aplicaciones. — Berlín : Springer-Verlag, 1977.
James Jay Horning. Un estudio de la inferencia gramatical . - Stanford : Departamento de Ciencias de la Computación de la Universidad de Stanford, 1969. - (Tesis doctoral).
E. Marcos de oro. Identificación de Idiomas en el Límite . - Información y Control , 1967. - T. 10 . — S. 447–474 . Archivado desde el original el 28 de agosto de 2016.

Aprendizaje automático y minería de datos
Tareas	Problema de clasificación Aprender sin un maestro Aprendizaje asistido por profesores Análisis de regresión AutoML reglas de asociación Extracción de características entrenamiento de rasgos Entrenamiento de clasificación Derivación gramatical Aprender en línea
Aprendiendo con un maestro	método del k-vecino más cercano Clasificador bayesiano ingenuo árbol de decisión Máquinas de vectores soporte Regresión lineal Regresión logística perceptrón conjuntos de modelos Harpillera impulsar bosque aleatorio Método de vector relevante
análisis de conglomerados	método k-medias método de agrupamiento difuso Agrupación jerárquica algoritmo EM ABEDUL CURAR DBSCAN ÓPTICA Desplazamiento medio
Reducción de dimensionalidad	Análisis factorial Método de componentes principales CCA ICA LDA Expansión de matriz no negativa t-SNE
Pronóstico estructural	Graficar modelo probabilístico red bayesiana Modelo oculto de Markov FRC
Detección de anomalías	método del k-vecino más cercano Nivel de emisión local
Graficar modelos probabilísticos	red bayesiana Red de Markov Modelo oculto de Markov
Redes neuronales	Máquina Boltzmann limitada mapa autoorganizado Función de activación Sigmoideo softmax Funcion de base radial Método de propagación hacia atrás Aprendizaje profundo perceptrón multicapa Red neuronal recurrente memoria a corto plazo Bloque recurrente controlado Red neuronal convolucional U-red Codificador automático
Aprendizaje reforzado	proceso de Markov Ecuación de Bellman Algoritmo codicioso Q-aprendizaje SARAS Diferencia temporal (DT)
Teoría	Teoría de Vapnik-Chervonenkis Dilema de dispersión de sesgo Teoría del aprendizaje computacional Minimización empírica del riesgo El aprendizaje de Occam aprendizaje PAC Teoría del aprendizaje estadístico
revistas y congresos	NeurIPS ICML ML JMLR ArXiv:cs.LG