SinTagRus

SinTagRus
Volumen de caja más de 1,1 millones de palabras
Idioma ruso
Tipos de marcas básicas morfológico , sintáctico , léxico- semántico
compiladores Laboratorio de Lingüística Computacional IPTP RAS
fecha de creación 1998
Acceso libre
Licencia propiedad
Sitio web proling.iitp.ru/ru/proje…

SynTagRus ( eng.  SynTagRus , abreviatura de inglés. Corpus de  texto ruso etiquetado sintácticamente , "corpus anotado sintácticamente de textos rusos") es un corpus profundamente anotado de textos rusos , el primer corpus de textos rusos con marcado sintáctico . Ha sido desarrollado desde 1998 por el Laboratorio de Lingüística Computacional del IPTP RAS en cooperación con el Sector de Semántica Teórica del IRL RAS . El corpus consta de textos de varios géneros; el número total de usos de palabras es más de 1 millón .

SynTagRus se basa en la ideología del procesador lingüístico multipropósito ETAP . Una característica del corpus es la presencia de varios niveles de anotación de diferentes profundidades, incluido el marcado morfológico y sintáctico completo con homonimia eliminada . El lenguaje de marcado es XML .

SynTagRus se distribuye bajo una licencia no comercial . Además, el corpus ha sido convertido a varios formatos; algunas de estas versiones (o convertidores) son de dominio público, y una versión limitada del corpus original forma parte del Russian National Corpus .

Historia

La aparición de corpus de marcado sintáctico a principios de la década de 1990 resultó en el desarrollo de métodos empíricos en problemas de procesamiento del lenguaje natural . Además, el uso de dichos corpus ha encontrado su aplicación no solo en el contexto del análisis sintáctico en sí, sino también en una serie de otras tareas, incluida la resolución de polisemia léxica , el análisis semántico , etc. [1]

A fines de la década de 1990, se habían creado corpus anotados para la mayoría de los principales idiomas europeos , mientras que en realidad no existían corpus para el idioma ruso [2] . Además, incluso los corpus anónimos que existían en ese momento (por ejemplo, el Corpus Uppsala de textos rusos ) no estaban disponibles públicamente [3] .

Por estas razones, desde 1998 [4] se inició el desarrollo del primer corpus anotado del idioma ruso SinTagRus [2] [5] , que luego se convirtió en el estándar entre los corpus con marcado sintáctico [6] . Al mismo tiempo, los desarrolladores también participaron en la creación del Corpus Nacional de la Lengua Rusa; en particular, SynTagRus (con algunas restricciones) ha sido una parte integral, pero completamente autónoma, del NCRP desde la creación de este último [7] [8] . En NKRY para SinTagRus (como subcorpus) también se usa el nombre "corpus profundamente anotado" [9] .

El desarrollo de SinTagRus lo lleva a cabo el Laboratorio de Lingüística Computacional del IPTP RAS en cooperación con el Sector de Semántica Teórica del IRL RAS [10] .

Composición del cuerpo

El material de origen para SinTagRus fue el Uppsala Corpus of Russian Texts : se tomaron unas 10.000 oraciones de los textos de ficción. Posteriormente, se agregaron al corpus textos breves (hasta 30 oraciones), tomados de los sitios web de publicaciones de noticias populares ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .

SynTagRus está en constante evolución y a partir de 2020 tiene alrededor de 77 mil oraciones (más de 1,1 millones de usos de palabras) [12] extraídas de los textos de los siguientes géneros [13] [8] [14] :

Tipos de marcado y formato

Una característica distintiva de SynTagRus en comparación con otros corpus anotados del idioma ruso es la presencia de varios niveles de anotación de diferentes profundidades, que pueden extraerse independientemente del corpus, y el número de estos niveles es potencialmente ilimitado. El lenguaje de marcado del corpus es XML , y el formato de marcado es compatible con el formalismo TEI , con la excepción de algunos elementos y atributos introducidos adicionalmente [2] . Básicamente, el marcado de texto libre se realiza en dos pasos [11] :

  1. Marcado preliminar de texto en modo automático mediante el procesador lingüístico ETAP, que es una implementación práctica del modelo Significado-Texto .
  2. Comprobación y, si es necesario, corrección del marcado por un lingüista experto .

A continuación se enumeran los tipos de marcas disponibles en el corpus.

Dividir el texto en oraciones y elementos léxicos

Cada texto en SinTagRus se divide en oraciones. Cada oración es un elemento llamado S y cada elemento tiene un atributo ID cuyo valor es el número de serie de la oración en el texto. De manera similar, cada oración se divide en elementos léxicos llamados W , y cada uno de esos elementos tiene un atributo ID , cuyo valor es el número ordinal de la palabra en esta oración [11] . Los signos de puntuación tienen el formato del texto de la etiqueta de la oración (preservando su posición relativa en el texto de origen) y no se expresan mediante sus propias etiquetas [15] .

Marcado morfológico

La estructura morfológica de una forma de palabra es el nombre de un lexema , o lema , al que se atribuyen una parte del discurso y características morfológicas , es decir, los significados de las categorías morfológicas correspondientes . Para la forma de palabra correspondiente, el lema es el valor del atributo LEMMA , y la parte del discurso y las características morfológicas juntas son el valor del atributo FEAT [8] [16] .

Descripción del marcado morfológico [17] Partes del discurso usadas Características morfológicas utilizadas

Marcado sintáctico

El marcado sintáctico de las oraciones corpus se lleva a cabo en el marco de la gramática de dependencia : la estructura sintáctica es un árbol orientado , cuyos nodos son palabras, y cada borde se dirige desde la palabra maestra a la sirviente y corresponde a alguna relación sintáctica. . La palabra correspondiente a la raíz del árbol se denomina parte superior de la oración y, a diferencia del resto de palabras de la oración, no depende sintácticamente de ninguna otra. Los grupos sintácticos se organizan en forma de subárboles del árbol fuente: en cada subárbol, uno de los miembros del grupo es su representante en las relaciones externas y subordina a los restantes miembros del grupo [18] . En total, en SinTagRus [13] se distinguen unos 70 tipos de relaciones sintácticas .

Relaciones sintácticas utilizadas [17] Relaciones sintácticas actantes Relaciones sintácticas de atributos Coordinación de relaciones sintácticas Relaciones sintácticas de servicio

Para registrar información sobre la estructura sintáctica de una oración en SynTagRus, se utilizan dos atributos de cada palabra de la oración: DOM , cuyo valor es el ID de la palabra principal, y LINK , cuyo valor es el nombre de la palabra principal. relación sintáctica correspondiente [16] . La parte superior de la oración tiene el valor especial del atributo DOM _root [19] .

Marcado léxico-semántico

A cada forma de palabra, además del lema , se le asigna el atributo KSNAME , cuyo valor es el nombre de la entrada correspondiente en el diccionario explicativo-combinatorio del procesador lingüístico ETAP. Debido a esto, por un lado, se especifica el significado de las palabras polisemánticas y homónimas , y por otro lado, se establece una conexión con las entradas del diccionario, que es utilizado por el procesador ETAP, y la información contenida en estos. se dispone de entradas sobre las propiedades semánticas de las palabras [10] .

Marcado léxico-funcional

Las oraciones están marcadas con frases que pueden interpretarse en términos de funciones léxicas . Para marcar tales frases dentro de la oración, se crean elementos adicionales separados de las propias formas de las palabras [13] .

Marcado micro-sintáctico

Las unidades microsintácticas en SynTagRus se entienden como unidades fraseológicas con especificidad sintáctica [20] . Un ejemplo es la preposición compuesta en vigor . Por un lado, es sintácticamente cercano a las preposiciones primitivas. En efecto, es imposible insertar una definición pronominal a un sustantivo entre los elementos de esta preposición, como en otras construcciones preposicionales del tipo en la forma , en caso , etc. Además, si el pronombre personal de la tercera persona está sujeto a esta preposición en la oración, entonces en la mayoría de los casos la n- inicial , como en el caso de las preposiciones primitivas. Por otro lado, la primera parte de algunas conjunciones pareadas , así como la partícula si o , pueden ubicarse entre la preposición vigente y el sustantivo que depende de ella, lo que imposibilita atribuir esta preposición a primitivas [21] .

Si una unidad microsintáctica aparece en alguna oración del corpus, se agrega un nuevo atributo de oración: MICROSYNT , cuyo valor es el nombre de la unidad microsintáctica correspondiente y sus límites lineales [20] .

Marcado anafórico

Para un pronombre anafórico que se encuentra en el texto , se indica su antecedente , es decir, la expresión a la que se refiere este pronombre. Una oración en la que se encuentra un pronombre anafórico tiene un atributo COREF adicional cuyo valor es una lista de pares pronombre-antecedente correspondientes al pronombre dado. Para cada pronombre anafórico se indica su posición lineal en la oración, y para el antecedente, además, se indica adicionalmente en qué oración relativa a la que se considera se encuentra (dentro de tres oraciones en ambos sentidos) [4] .

Procesado de estructuras elípticas

En SynTagRus, los fragmentos omitidos de oraciones elípticas se restauran explícitamente. La forma de palabra restaurada correspondiente se marca de la misma manera que otras formas de palabra; en particular, todos los enlaces sintácticos necesarios se extraen de tales palabras "fantasma". A esta forma de palabra se le asigna el atributo NODETYPE con el valor FANTOM [2] [22] .

Usando el cuerpo

SynTagRus se utiliza en varios campos. Por un lado, sobre su base se realizan investigaciones puramente lingüísticas, tanto teóricas como prácticas (en particular, en el campo de la lexicografía ). Por otra parte, el corpus encuentra su aplicación en las tareas de la lingüística computacional como fuente de datos lingüísticos, por ejemplo, a la hora de crear analizadores sintácticos . Estas tareas se pueden resolver utilizando varios formatos de marcado. Al mismo tiempo, la combinación de varios edificios con diferentes marcas en uno hace que este último sea más representativo. Estas circunstancias conducen al problema de la conversión del corpus [4] .

Ha habido repetidos intentos de traducir SynTagRus a otros formatos de marcado: se sabe que los experimentos convierten el corpus a formatos HPSG y PDT [13] . Además, SynTagRus se convirtió con éxito a los formatos CoNLL-U [22] , PTB [23] y SD [24] . Sin embargo, la conversión , en primer lugar, en todos los casos se refería únicamente a las marcas morfológicas y sintácticas y, en segundo lugar, se realizaba automáticamente, lo que se convirtió en un obstáculo para la conversión completa. Así, por ejemplo, la parte gramatical NID no podía traducirse sin ambigüedades al formato CoNLL-U (en el que no existe tal parte gramatical) automáticamente, por lo que todas las oraciones de SinTagRus en las que al menos una forma de palabra tenía tal una parte del discurso fue excluida del corpus antes de la conversión [22] .

Acceso

SynTagRus se distribuye de forma gratuita bajo una licencia no comercial [25] . Además, una versión del corpus sin algunos tipos de marcado está disponible para uso no comercial con fines de investigación y enseñanza como un subcorpus del Corpus Nacional de la Lengua Rusa y es de dominio público [13] , así como versiones en formatos CoNLL-U (licencia CC BY-NC-SA 4.0 ) [22] y PTB (único convertidor disponible) [23] .

Notas

  1. Eric Brill , Raymond J. Mooney. Una descripción general del procesamiento empírico del lenguaje natural  //  Revista AI. - AAAI, 1997. - Vol. 18 , núm. 4 . - P. 13-24 .
  2. 1 2 3 4 5 Boguslavsky I. M. , Grigoriev N. V. , Grigoryeva S. A. , Kreydlin L. G. , Frid N. E. Un corpus anotado de textos rusos: concepto, herramientas de marcado, tipos de información  // Actas Seminario internacional sobre lingüística computacional y sus aplicaciones "Diálogo-2000 ". - Protvino, 2000. Archivado el 31 de julio de 2019.
  3. Reznikova T. I. , Kopotev M. V. Corpus anotados lingüísticamente del idioma ruso (revisión de recursos públicos)  // Corpus nacional del idioma ruso: 2003-2005. - M .: Indrik , 2005. - S. 31-61 . Archivado desde el original el 31 de julio de 2019.
  4. 1 2 3 Inshakova E. S. , Iomdin L. L. , Mityushin L. G. , Sizov V. G. , Frolova T. I. , Tsinman L. L. SinTagRus hoy  // Actas del Instituto de la Lengua Rusa. V. V. Vinogradova. - M. : "Néstor-Historia", 2019. - Edición. 21 . - S. 14-40 . Archivado el 26 de marzo de 2020.
  5. Moskvina A. D. , Orlova D. , Panicheva P. V. , Mitrofanova O. A. Desarrollo de un núcleo analizador para el idioma ruso basado en bibliotecas NLTK  // Actas de la Conferencia Científica Unida "Internet y la Sociedad Moderna". - 2016. - S. 44-54 . Archivado desde el original el 10 de octubre de 2019.
  6. Kibrik A. E. , Fedorova O. V., Tatevosov S. G. , Lyutikova E. A., Kibrik A. A. , Kobozeva I. M. , Falikman M. V., Chenki A., Sekerina I., Nikolaeva Yu. V., Daniel' M. A., Bergelson M. B. , Alpatov V. M. , Belyaev O. I., Toldova S. Yu., Bonch-Osmolovskaya A. A. , Podlesskaya V. I. , Krivnova O. F. Corpus lingüística // Introducción a la ciencia del lenguaje / ed. O. V. Fedorova y S. G. Tatevosov. - M. : Buki Vedi, 2019. - S. 420. - 672 p. — ISBN 978-5-4465-2188-3 .
  7. Sichinava D.V. Corpus nacional de la lengua rusa: un resumen de la prehistoria  // Corpus nacional de la lengua rusa: 2003-2005. - M. : Indrik, 2005. - S. 21-30 . Archivado desde el original el 31 de julio de 2019.
  8. 1 2 3 Apresyan Yu. D. , Boguslavsky I. M. , Iomdin B. L. , Iomdin L. L. , Sannikov A. V. , Sannikov V. Z. , Sizov V. G. , Tsinman L. L. Corpus anotado sintáctica y semánticamente del idioma ruso: estado actual y perspectivas  // Corpus nacional del Idioma ruso: 2003-2005. - M. : Indrik, 2005. - S. 193-214 . Archivado desde el original el 31 de julio de 2019.
  9. Zakharov V.P. , Bogdanova S.Yu. Lingüística del corpus . - 3ª ed., revisada. - San Petersburgo. : St. Petersburg University Press, 2020. - P. 47. - 234 p. - ISBN 978-5-288-05997-1 .
  10. 1 2 Apresyan Yu. D. , Iomdin L. L. , Sannikov A. V. , Sizov V. G. Marcado semántico en un corpus profundamente anotado del idioma ruso  // Actas de la Conferencia Internacional "Corpus Linguistics-2004". - San Petersburgo. : Universidad Estatal de San Petersburgo, 2004. - S. 41-54 . Archivado desde el original el 31 de julio de 2019.
  11. 1 2 3 Boguslavsky I. M. , Grigoriev N. V. , Iomdin L. L. , Kreydlin L. G. , Frid N. E. , Chardin I. S. Desarrollo de un corpus marcado sintácticamente del idioma ruso  // Informes de la conferencia científica "Corpus Linguistics and Linguistic Databases". - San Petersburgo. : Universidad Estatal de San Petersburgo, 2002. - S. 40-50 . Archivado desde el original el 31 de julio de 2019.
  12. Corpus Lingüística . Laboratorio de Lingüística Computacional IPTP RAS (11 de febrero de 2020). Consultado el 12 de febrero de 2020. Archivado desde el original el 22 de febrero de 2020.
  13. 1 2 3 4 5 Dyachenko P. V. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Podlesskaya O. Yu. , Sizov V. G. , Frolova T. I. , Tsinman L L. El estado actual del corpus profundamente anotado de textos del idioma ruso (SinTagRus )  // Colección "Corpus nacional de la lengua rusa: 10 años del proyecto". - M . : Actas del Instituto de la Lengua Rusa. V. V. Vinogradova, 2015. - Edición. 6 _ - S. 272-299 . Archivado desde el original el 31 de julio de 2019.
  14. Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrochenkov V. Analizador de dependencia basado en reglas refinado por y estadísticas de corpus empírico  //  Actas de la Conferencia Internacional sobre Lingüística de la Dependencia. - 2011. - P. 318-327 . Archivado desde el original el 31 de julio de 2019.
  15. Droganova K. , Lyashevskaya O. , Zeman D. Conversión de datos y consistencia de corpus monolingües: Treebanks rusos UD  (inglés)  // Actas del 17.º Taller internacional sobre Treebanks y teorías lingüísticas (TLT 2018). - Universidad de Oslo, Noruega: Linköping University Electronic Press, 2018. - P. 52-65 . Archivado el 19 de marzo de 2020.
  16. 1 2 Igor Boguslavsky , Ivan Chardin , Svetlana Grigorjeva , Nikolai Grigoriev , Leonid Iomdin , Leonid Kreydlin , Nadezhda Frid. Desarrollo de un árbol de dependencias para el ruso y sus posibles aplicaciones en PNL  (inglés)  // Actas de la Tercera Conferencia Internacional sobre Evaluación y Recursos Lingüísticos (LREC-2002). — Las Palmas, 2002. — Vol. tercero _ - P. 852-856 . Archivado desde el original el 10 de agosto de 2017.
  17. 1 2 Corpus marcado sintácticamente del idioma ruso: información para usuarios . Corpus Nacional de la Lengua Rusa . Consultado el 29 de marzo de 2020. Archivado desde el original el 25 de marzo de 2020.
  18. Apresyan Y. D. , Boguslavsky I. M. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Sannikov V. Z. , Tsinman L. L. Procesador lingüístico para sistemas de información complejos. - M .: Ciencia , 1992. - S. 32-40, 56-73. — 256 págs.
  19. Leonid Iomdin , Víctor Sizov. Editor de estructuras: un entorno potente para corpus etiquetados  //  Infraestructura de investigación para lexicografía digital. - Ljubljana: Instituto Jožef Stefan, 2009. - P. 1-12 .
  20. 1 2 Iomdin L. L. Marcado microsintáctico en el corpus de textos rusos  // Actas de la conferencia científica internacional "Corpus Linguistics - 2017". - San Petersburgo. : Universidad Estatal de San Petersburgo, 2017. - S. 188-194 . Archivado desde el original el 20 de noviembre de 2021.
  21. Iomdin L. L. En las profundidades de la microsintaxis: una clase léxica de frases sintácticas  // Lingüística informática y tecnologías inteligentes. - M. : RGGU, 2008. - S. 178-184 . Archivado desde el original el 29 de agosto de 2019.
  22. 1 2 3 4 Droganova K. , Zeman D. Conversión de SynTagRus (el banco de árboles de dependencia ruso) a Dependencias universales  (inglés)  // Informe técnico. — Instituto de Lingüística Formal y Aplicada, Facultad de Matemáticas y Física, Universidad Charles, 2016. Archivado desde el original el 8 de junio de 2021.
  23. 1 2 Luu A. , Malamud SA , Xue N. Converting SynTagRus dependency treebank into Penn treebank style  //  Actas del 10.º taller de anotación lingüística realizado junto con ACL 2016 (LAW-X 2016). - 2016. - Págs. 16-21 . Archivado desde el original el 27 de febrero de 2019.
  24. Lipenkova J. , Souček M. Converting Russian dependency treebank to Stanford typed dependencies representing  (inglés)  // Actas de la 14.ª Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional. - 2014. - Vol. 2 . - pág. 143-147 . Archivado desde el original el 8 de junio de 2018.
  25. Instrumentos Lyashevskaya O. N. Corpus en estudios gramaticales del idioma ruso. - M. : Editorial YASK, 2016. - S. 193. - 520 p.

Enlaces