SinTagRus | |
---|---|
Volumen de caja | más de 1,1 millones de palabras |
Idioma | ruso |
Tipos de marcas básicas | morfológico , sintáctico , léxico- semántico |
compiladores | Laboratorio de Lingüística Computacional IPTP RAS |
fecha de creación | 1998 |
Acceso | libre |
Licencia | propiedad |
Sitio web | proling.iitp.ru/ru/proje… |
SynTagRus ( eng. SynTagRus , abreviatura de inglés. Corpus de texto ruso etiquetado sintácticamente , "corpus anotado sintácticamente de textos rusos") es un corpus profundamente anotado de textos rusos , el primer corpus de textos rusos con marcado sintáctico . Ha sido desarrollado desde 1998 por el Laboratorio de Lingüística Computacional del IPTP RAS en cooperación con el Sector de Semántica Teórica del IRL RAS . El corpus consta de textos de varios géneros; el número total de usos de palabras es más de 1 millón .
SynTagRus se basa en la ideología del procesador lingüístico multipropósito ETAP . Una característica del corpus es la presencia de varios niveles de anotación de diferentes profundidades, incluido el marcado morfológico y sintáctico completo con homonimia eliminada . El lenguaje de marcado es XML .
SynTagRus se distribuye bajo una licencia no comercial . Además, el corpus ha sido convertido a varios formatos; algunas de estas versiones (o convertidores) son de dominio público, y una versión limitada del corpus original forma parte del Russian National Corpus .
La aparición de corpus de marcado sintáctico a principios de la década de 1990 resultó en el desarrollo de métodos empíricos en problemas de procesamiento del lenguaje natural . Además, el uso de dichos corpus ha encontrado su aplicación no solo en el contexto del análisis sintáctico en sí, sino también en una serie de otras tareas, incluida la resolución de polisemia léxica , el análisis semántico , etc. [1]
A fines de la década de 1990, se habían creado corpus anotados para la mayoría de los principales idiomas europeos , mientras que en realidad no existían corpus para el idioma ruso [2] . Además, incluso los corpus anónimos que existían en ese momento (por ejemplo, el Corpus Uppsala de textos rusos ) no estaban disponibles públicamente [3] .
Por estas razones, desde 1998 [4] se inició el desarrollo del primer corpus anotado del idioma ruso SinTagRus [2] [5] , que luego se convirtió en el estándar entre los corpus con marcado sintáctico [6] . Al mismo tiempo, los desarrolladores también participaron en la creación del Corpus Nacional de la Lengua Rusa; en particular, SynTagRus (con algunas restricciones) ha sido una parte integral, pero completamente autónoma, del NCRP desde la creación de este último [7] [8] . En NKRY para SinTagRus (como subcorpus) también se usa el nombre "corpus profundamente anotado" [9] .
El desarrollo de SinTagRus lo lleva a cabo el Laboratorio de Lingüística Computacional del IPTP RAS en cooperación con el Sector de Semántica Teórica del IRL RAS [10] .
El material de origen para SinTagRus fue el Uppsala Corpus of Russian Texts : se tomaron unas 10.000 oraciones de los textos de ficción. Posteriormente, se agregaron al corpus textos breves (hasta 30 oraciones), tomados de los sitios web de publicaciones de noticias populares ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .
SynTagRus está en constante evolución y a partir de 2020 tiene alrededor de 77 mil oraciones (más de 1,1 millones de usos de palabras) [12] extraídas de los textos de los siguientes géneros [13] [8] [14] :
Una característica distintiva de SynTagRus en comparación con otros corpus anotados del idioma ruso es la presencia de varios niveles de anotación de diferentes profundidades, que pueden extraerse independientemente del corpus, y el número de estos niveles es potencialmente ilimitado. El lenguaje de marcado del corpus es XML , y el formato de marcado es compatible con el formalismo TEI , con la excepción de algunos elementos y atributos introducidos adicionalmente [2] . Básicamente, el marcado de texto libre se realiza en dos pasos [11] :
A continuación se enumeran los tipos de marcas disponibles en el corpus.
Cada texto en SinTagRus se divide en oraciones. Cada oración es un elemento llamado S y cada elemento tiene un atributo ID cuyo valor es el número de serie de la oración en el texto. De manera similar, cada oración se divide en elementos léxicos llamados W , y cada uno de esos elementos tiene un atributo ID , cuyo valor es el número ordinal de la palabra en esta oración [11] . Los signos de puntuación tienen el formato del texto de la etiqueta de la oración (preservando su posición relativa en el texto de origen) y no se expresan mediante sus propias etiquetas [15] .
La estructura morfológica de una forma de palabra es el nombre de un lexema , o lema , al que se atribuyen una parte del discurso y características morfológicas , es decir, los significados de las categorías morfológicas correspondientes . Para la forma de palabra correspondiente, el lema es el valor del atributo LEMMA , y la parte del discurso y las características morfológicas juntas son el valor del atributo FEAT [8] [16] .
Descripción del marcado morfológico [17]Parte del discurso | Reducción | Ejemplos |
---|---|---|
Sustantivo | S | fábrica , yo |
Adjetivo | A | nuevo mi _ |
Verbo | V | vestir |
Adverbio | ADV | malo , tipo de |
número | NÚMERO | cinco , 2 |
Pretexto | relaciones públicas | por debajo |
Compuesto | COM | aire , hidro |
Unión | CONJ | y |
Partícula | PARTE | después de todo |
Interjección | INTJ | fulano de tal |
La palabra es una inclusión de lengua extranjera. | DNI | Whatsapp , Berliner Zeitung |
Características morfológicas | Reducción | Nota |
---|---|---|
Animación | ||
animado | sobredosis | |
inanimado | NEOD | |
Género | ||
Masculino | ESPOSO | |
Femenino | MUJER | |
Promedio | MIÉRCOLES | |
Número | ||
La única cosa | disfunción eréctil | |
plural | Minnesota | |
caso | ||
Nominativo | A ELLOS | |
Genitivo | GÉNERO | |
Partitivo | PARTE | Indicado solo para sustantivos en los que esta forma es gráficamente diferente de la forma genitiva |
Dativo | DAT | |
Acusativo | VIN | |
Instrumental | TVOR | |
Prepositivo | ETC | |
Local | LOCAL | Indicado solo para sustantivos en los que esta forma es gráficamente diferente de la forma preposicional |
Vocativo | SUDOESTE | Indicado solo para sustantivos en los que esta forma es gráficamente diferente de la forma del caso nominativo |
Grado de comparación | ||
Comparativo | SRAV | |
excelente | ANTERIOR | |
Brevedad | ||
Breve | CR | |
representación | ||
Infinitivo | INF | |
Participio | precio | |
gerundio | PROFUNDO | |
Estado animico | ||
indicativo | FALLA | |
imperativo | punto de vista | |
Vista | ||
Imperfecto | NESOV | |
Perfecto | BÚHO | |
Tiempo | ||
no pasado | NEPROSH | |
Pasado | PROSH | |
El presente | NAST | Atribuido solo al verbo estar en forma personal |
Cara | ||
Primero | 1-L | Atribuido solo a verbos. |
Segundo | 2 litros | |
Tercero | 3-L | |
Promesa | ||
Pasivo | ESTRAD | |
características adicionales | ||
Composición | SL | |
Grado comparativo suavizado | SMYAG |
El marcado sintáctico de las oraciones corpus se lleva a cabo en el marco de la gramática de dependencia : la estructura sintáctica es un árbol orientado , cuyos nodos son palabras, y cada borde se dirige desde la palabra maestra a la sirviente y corresponde a alguna relación sintáctica. . La palabra correspondiente a la raíz del árbol se denomina parte superior de la oración y, a diferencia del resto de palabras de la oración, no depende sintácticamente de ninguna otra. Los grupos sintácticos se organizan en forma de subárboles del árbol fuente: en cada subárbol, uno de los miembros del grupo es su representante en las relaciones externas y subordina a los restantes miembros del grupo [18] . En total, en SinTagRus [13] se distinguen unos 70 tipos de relaciones sintácticas .
Relaciones sintácticas utilizadas [17]relación de sintaxis | Reducción | anfitrión de la palabra | siervo de palabra |
---|---|---|---|
Predicativo | predicado | Predicado | Tema |
Dativo-subjetivo | fecha-asunto | palabra de estado | sujeto del estado denotado por la palabra anfitriona |
agente | agente | palabra por acción | El sujeto de la acción denotada por la palabra anfitriona |
cuasi-agente | cuasi-agente | sustantivo predicado | Palabra que implementa la primera valencia sintáctica de la palabra anfitriona |
Agente propietario | agente erróneo | Verbo | Una palabra que implementa la primera valencia semántica de un sustantivo que es un actante semántico de la palabra anfitriona. |
Primero completo | 1 juego | palabra predicada | El actante sintáctico de la palabra huésped, excepto el primero. Así, la primera relación compleja se refiere al segundo actante, la segunda al tercero, y así sucesivamente. |
segundo completo | 2 juegos | ||
Tercero completo | 3 juegos | ||
cuarto completo | 4 juegos | ||
Quinto completo | 5 juegos | ||
Archivo adjunto | atado | verbo vincular | Parte nominal del predicado |
El primer impropio-completo | 1 conjunto incorrecto | verbo funcional | Complemento (primero, segundo, etc.), cuyo anfitrión semántico es algún actante semántico de la palabra anfitrión |
El segundo impropio-completo | 2-conjunto incorrecto | ||
Tercero impropio-completo | 3-conjunto incorrecto | ||
Cuarto impropio-completo | 4-conjunto incorrecto | ||
Quinto impropio-completo | 5-conjunto incorrecto | ||
No actante-completo | no-act-set | palabra predicada | Una palabra que no es un actante semántico completo de la palabra anfitriona, pero es similar en función sintáctica al complemento . |
Complementario-apositivo | establecer aplicaciones | Sustantivo paramétrico o sustantivo de tipo vuelo , ruta , tren | El actante semántico de la palabra anfitriona, si este actante se expresa en caso nominativo o su equivalente sintáctico |
prepositivo | oferta | Pretexto | Vértice de un sintagma nominal que depende de una preposición |
Subordinado-aliado | sub-alianza | unión subordinada | La parte superior de la oración subordinada introducida por la unión de reparación. |
infinitivo-union | inf-union | unión subordinada | Infinitivo |
Comparativo | comparar | Adjetivo o adverbio comparativo | El vértice de una frase nominal en el caso genitivo, que representa el segundo de los miembros comparados, o una unión comparativa que |
Verbo, nombre o adverbio | unión comparativa | ||
unión comparativa | comparar-unión | unión comparativa | El segundo de los términos comparados de la construcción comparativa |
electivo | electivo | Adjetivo numeral, ordinal, adjetivo superlativo o adjetivo con la palabra most | Preposición de o entre la introducción de una indicación del conjunto en el que se hace la elección |
predicativo oracional | santo predicado | La parte superior de la oración que expresa la situación descrita en la construcción de identificación | Sustantivo pronominal demostrativo esto o aquello en el caso nominativo |
Enlace de destino | asignar-adr | Palabra relacional que actúa como parte nominal del predicado con un enlace (posiblemente cero) | Sustantivo en caso dativo, llenando, en esencia, la valencia sintáctica de la palabra huésped |
relación de sintaxis | Reducción | anfitrión de la palabra | siervo de palabra |
---|---|---|---|
Determinantes | |||
definitivo | definido | sustantivo o adjetivo | adjetivo o participio |
Descriptivo-definitivo | op-def | sustantivo o adjetivo | Adjetivo o participio que actúa como una definición separada |
ordinal aproximado | orden aproximado | Sustantivo | adjetivo ordinal |
Pariente | relación | sustantivo o adjetivo | El vértice del atributivo relativo |
atributivo general | |||
atributivo | atrib | sustantivo o adjetivo | Definición inconsistente |
Compuesto | composición | La segunda parte de la palabra compuesta. | La primera parte de una palabra compuesta. |
apositivo | |||
apositivo | aplicaciones | Sustantivo | la próxima aplicación |
Separado-apositivo | ob-appos | Sustantivo | Aplicación separada a la palabra anfitriona |
nominativo-apositivo | nom-appos | Sustantivo | La parte superior de cualquier grupo citado que exprese un nombre |
Numerativo-apositivo | número de aplicación | Sustantivo que denota objetos regularmente numerados | El nombre es numeral en caso nominativo o escrito en números (indicando un número) |
cuantitativo | |||
cuantitativo | cantidad | Sustantivo | Número en preposición |
Aproximativo-cuantitativo | recuento aproximado | Sustantivo | Número en posposición |
Cuantitativo-Copredicativo | número-coped | Un verbo en el que hay un sustantivo en el caso genitivo, actuando como sujeto con él. | La parte superior del grupo numérico o la parte superior del grupo nominal con un valor cardinal |
Cuantitativo-restrictivo | número-límite | Adjetivo o adverbio comparativo | Adverbio o parte superior del grupo con preposiciones en o sobre , indicando intensidad |
distribución | distribución | La parte superior de una frase nominal que denota un determinado parámetro (precio, velocidad, peso, etc.) | Un sustantivo en el caso nominativo o la parte superior de un grupo con preposiciones en , sobre , para , indicando una unidad de medida |
aditivo | añadir | Número o parte superior de un grupo cuantitativo | Número o parte superior de un grupo cuantitativo |
circunstancial | |||
circunstancial | obstetra | Un verbo o palabra de otra parte del discurso que es el vértice de una oración | Circunstancia |
largo | largo | Verbo | Una circunstancia de duración expresada por un sustantivo en caso acusativo o por un grupo preposicional con el significado de cantidad o distribución aproximada |
Largo múltiple | largo múltiple | Verbo | Una circunstancia de duración múltiple expresada por un sustantivo en el plural instrumental |
remoto | distancia | Verbo | Una circunstancia de extensión espacial expresada por un sustantivo en el caso acusativo o por un grupo preposicional con el significado de cantidad o distribución aproximada. |
circunstancial-tautológico | obstinado | Verbo | Un sustantivo en el caso instrumental, duplicando parte del significado de la palabra anfitriona. |
subjetivo circunstancial | subentorno | Verbo | Una circunstancia en el caso instrumental que caracteriza al mismo tiempo al sujeto de la acción. |
Objeto circunstancial | obstetra | Verbo | Una circunstancia en el caso instrumental que caracteriza al mismo tiempo el objeto de la acción. |
subjetivo-copredicativo | sub-copr | Verbo | La parte superior de la frase nominal en el caso nominativo o instrumental, o la parte superior del grupo preposicional, actuando en una función cercana a la función de la parte nominal del predicado compuesto, pero caracterizando al sujeto en significado y (en el caso de la frase nominal) consistente con ella en género y número |
Objeto-Copredicativo | ob-copr | Verbo | La parte superior del grupo nominal en el caso instrumental o acusativo o la parte superior del grupo preposicional, que caracteriza el objeto. Si la palabra-servidor se expresa mediante un sintagma nominal, entonces es consistente con el complemento en género y número. |
Restrictivo | limitado | Palabra de cualquier parte del discurso | Partícula o adverbio restrictivo |
introductorio | Introducción | Predicado u otro miembro de la oración | Palabra introductoria, giro introductorio, oración o apelación |
Explicativo | claro | Parte superior de la oración principal | La parte superior de la cláusula subordinada, incluida la palabra aliada qué , por qué o por qué |
explicativo | explique | palabra arbitraria | Una palabra que tiene dependientes y junto con ellos proporciona información adicional sobre la palabra anfitriona o el grupo de palabras representado por la palabra anfitriona. Se requiere un "marcador de aclaración" formal, que puede ser un signo de puntuación o una expresión que introduce información adicional |
contiguo | contiguo | La palabra que es el "maestro" de la expresión, la parte superior de la cual es la palabra-sirviente | El vértice de una expresión dependiente de la palabra anfitriona, ubicado a la derecha de la palabra anfitriona y encerrado entre corchetes o delimitado a ambos lados por un guión |
Calificatorio | aclaración | Representante (vértice) de alguna expresión | Representante de alguna expresión. Esta expresión refina semánticamente la expresión representada por la palabra anfitriona, pero ambas expresiones tienen la misma función sintáctica. |
relación de sintaxis | Reducción | anfitrión de la palabra | siervo de palabra |
---|---|---|---|
escritura | escritura | Miembro de la estructura de coordinación | Un miembro de una construcción de coordinación o una conjunción de coordinación. Ubicado inmediatamente a la derecha de la palabra anfitriona. |
coordinativo oracional | santo op | La parte superior de la primera de oraciones homogéneas | Parte superior de la segunda oración o unión de coordinación |
Coordinador-sindicato | op-union | unión de escritura | La parte superior del segundo de los términos u oraciones homogéneos |
Múltiple | múltiple | El miembro principal de una construcción múltiple es un sustantivo , adjetivo , adverbio , numeral o verbo . | Miembro dependiente de una construcción múltiple. Formado de la misma manera que el miembro principal, y separado de él por un guión, guión, dos puntos o barra oblicua, o introducido por la preposición "en" o "a" |
relación de sintaxis | Reducción | anfitrión de la palabra | siervo de palabra |
---|---|---|---|
Analítico | analito | Elementos del predicado verbal compuesto . Estos elementos forman un tiempo futuro complejo o subjuntivo . | |
Pasivo-analítico | pasar anal | Verbo - enlace "ser" | Comunión Pasiva |
Cuantitativo-auxiliar | número-auxiliar | El lado derecho de un adjetivo numeral compuesto o ordinal compuesto | El lado izquierdo de un adjetivo numeral compuesto o ordinal compuesto |
pariente | correlación | El lado izquierdo de una conjunción , preposición o partícula emparejada rota , o el lado derecho de una conjunción coordinada emparejada rota | El lado derecho de una conjunción, preposición o partícula emparejada rota, o el lado izquierdo de una conjunción coordinada emparejada rota |
EXPLENTO | explet | Pronombre demostrativo - "junta" así , eso | Unión subordinante o superior de la oración. La palabra maestra es "descifrada" por la palabra sirviente |
proléptico | prolepto | Palabra semánticamente ambigua que ocupa una posición completa en una oración | Palabra hacia afuera |
Auxiliar | auxiliar | Partes de la unidad sintáctica y semántica de las frases |
Para registrar información sobre la estructura sintáctica de una oración en SynTagRus, se utilizan dos atributos de cada palabra de la oración: DOM , cuyo valor es el ID de la palabra principal, y LINK , cuyo valor es el nombre de la palabra principal. relación sintáctica correspondiente [16] . La parte superior de la oración tiene el valor especial del atributo DOM _root [19] .
A cada forma de palabra, además del lema , se le asigna el atributo KSNAME , cuyo valor es el nombre de la entrada correspondiente en el diccionario explicativo-combinatorio del procesador lingüístico ETAP. Debido a esto, por un lado, se especifica el significado de las palabras polisemánticas y homónimas , y por otro lado, se establece una conexión con las entradas del diccionario, que es utilizado por el procesador ETAP, y la información contenida en estos. se dispone de entradas sobre las propiedades semánticas de las palabras [10] .
Las oraciones están marcadas con frases que pueden interpretarse en términos de funciones léxicas . Para marcar tales frases dentro de la oración, se crean elementos adicionales separados de las propias formas de las palabras [13] .
Las unidades microsintácticas en SynTagRus se entienden como unidades fraseológicas con especificidad sintáctica [20] . Un ejemplo es la preposición compuesta en vigor . Por un lado, es sintácticamente cercano a las preposiciones primitivas. En efecto, es imposible insertar una definición pronominal a un sustantivo entre los elementos de esta preposición, como en otras construcciones preposicionales del tipo en la forma , en caso , etc. Además, si el pronombre personal de la tercera persona está sujeto a esta preposición en la oración, entonces en la mayoría de los casos la n- inicial , como en el caso de las preposiciones primitivas. Por otro lado, la primera parte de algunas conjunciones pareadas , así como la partícula si o , pueden ubicarse entre la preposición vigente y el sustantivo que depende de ella, lo que imposibilita atribuir esta preposición a primitivas [21] .
Si una unidad microsintáctica aparece en alguna oración del corpus, se agrega un nuevo atributo de oración: MICROSYNT , cuyo valor es el nombre de la unidad microsintáctica correspondiente y sus límites lineales [20] .
Para un pronombre anafórico que se encuentra en el texto , se indica su antecedente , es decir, la expresión a la que se refiere este pronombre. Una oración en la que se encuentra un pronombre anafórico tiene un atributo COREF adicional cuyo valor es una lista de pares pronombre-antecedente correspondientes al pronombre dado. Para cada pronombre anafórico se indica su posición lineal en la oración, y para el antecedente, además, se indica adicionalmente en qué oración relativa a la que se considera se encuentra (dentro de tres oraciones en ambos sentidos) [4] .
En SynTagRus, los fragmentos omitidos de oraciones elípticas se restauran explícitamente. La forma de palabra restaurada correspondiente se marca de la misma manera que otras formas de palabra; en particular, todos los enlaces sintácticos necesarios se extraen de tales palabras "fantasma". A esta forma de palabra se le asigna el atributo NODETYPE con el valor FANTOM [2] [22] .
SynTagRus se utiliza en varios campos. Por un lado, sobre su base se realizan investigaciones puramente lingüísticas, tanto teóricas como prácticas (en particular, en el campo de la lexicografía ). Por otra parte, el corpus encuentra su aplicación en las tareas de la lingüística computacional como fuente de datos lingüísticos, por ejemplo, a la hora de crear analizadores sintácticos . Estas tareas se pueden resolver utilizando varios formatos de marcado. Al mismo tiempo, la combinación de varios edificios con diferentes marcas en uno hace que este último sea más representativo. Estas circunstancias conducen al problema de la conversión del corpus [4] .
Ha habido repetidos intentos de traducir SynTagRus a otros formatos de marcado: se sabe que los experimentos convierten el corpus a formatos HPSG y PDT [13] . Además, SynTagRus se convirtió con éxito a los formatos CoNLL-U [22] , PTB [23] y SD [24] . Sin embargo, la conversión , en primer lugar, en todos los casos se refería únicamente a las marcas morfológicas y sintácticas y, en segundo lugar, se realizaba automáticamente, lo que se convirtió en un obstáculo para la conversión completa. Así, por ejemplo, la parte gramatical NID no podía traducirse sin ambigüedades al formato CoNLL-U (en el que no existe tal parte gramatical) automáticamente, por lo que todas las oraciones de SinTagRus en las que al menos una forma de palabra tenía tal una parte del discurso fue excluida del corpus antes de la conversión [22] .
SynTagRus se distribuye de forma gratuita bajo una licencia no comercial [25] . Además, una versión del corpus sin algunos tipos de marcado está disponible para uso no comercial con fines de investigación y enseñanza como un subcorpus del Corpus Nacional de la Lengua Rusa y es de dominio público [13] , así como versiones en formatos CoNLL-U (licencia CC BY-NC-SA 4.0 ) [22] y PTB (único convertidor disponible) [23] .
Lenguaje del cuerpo | |
---|---|
corpus ingleses |
|
corpus en ruso |
|
Corporación en otros idiomas |
|
Organizaciones |