SinTagRus

SinTagRus
Volumen de caja	más de 1,1 millones de palabras
Idioma	ruso
Tipos de marcas básicas	morfológico , sintáctico , léxico- semántico
compiladores	Laboratorio de Lingüística Computacional IPTP RAS
fecha de creación	1998
Acceso	libre
Licencia	propiedad
Sitio web	proling.iitp.ru/ru/proje…

SynTagRus ( eng. SynTagRus , abreviatura de inglés. Corpus de texto ruso etiquetado sintácticamente , "corpus anotado sintácticamente de textos rusos") es un corpus profundamente anotado de textos rusos , el primer corpus de textos rusos con marcado sintáctico . Ha sido desarrollado desde 1998 por el Laboratorio de Lingüística Computacional del IPTP RAS en cooperación con el Sector de Semántica Teórica del IRL RAS . El corpus consta de textos de varios géneros; el número total de usos de palabras es más de 1 millón .

SynTagRus se basa en la ideología del procesador lingüístico multipropósito ETAP . Una característica del corpus es la presencia de varios niveles de anotación de diferentes profundidades, incluido el marcado morfológico y sintáctico completo con homonimia eliminada . El lenguaje de marcado es XML .

SynTagRus se distribuye bajo una licencia no comercial . Además, el corpus ha sido convertido a varios formatos; algunas de estas versiones (o convertidores) son de dominio público, y una versión limitada del corpus original forma parte del Russian National Corpus .

Historia

La aparición de corpus de marcado sintáctico a principios de la década de 1990 resultó en el desarrollo de métodos empíricos en problemas de procesamiento del lenguaje natural . Además, el uso de dichos corpus ha encontrado su aplicación no solo en el contexto del análisis sintáctico en sí, sino también en una serie de otras tareas, incluida la resolución de polisemia léxica , el análisis semántico , etc. [1]

A fines de la década de 1990, se habían creado corpus anotados para la mayoría de los principales idiomas europeos , mientras que en realidad no existían corpus para el idioma ruso [2] . Además, incluso los corpus anónimos que existían en ese momento (por ejemplo, el Corpus Uppsala de textos rusos ) no estaban disponibles públicamente [3] .

Por estas razones, desde 1998 [4] se inició el desarrollo del primer corpus anotado del idioma ruso SinTagRus [2] [5] , que luego se convirtió en el estándar entre los corpus con marcado sintáctico [6] . Al mismo tiempo, los desarrolladores también participaron en la creación del Corpus Nacional de la Lengua Rusa; en particular, SynTagRus (con algunas restricciones) ha sido una parte integral, pero completamente autónoma, del NCRP desde la creación de este último [7] [8] . En NKRY para SinTagRus (como subcorpus) también se usa el nombre "corpus profundamente anotado" [9] .

El desarrollo de SinTagRus lo lleva a cabo el Laboratorio de Lingüística Computacional del IPTP RAS en cooperación con el Sector de Semántica Teórica del IRL RAS [10] .

Composición del cuerpo

El material de origen para SinTagRus fue el Uppsala Corpus of Russian Texts : se tomaron unas 10.000 oraciones de los textos de ficción. Posteriormente, se agregaron al corpus textos breves (hasta 30 oraciones), tomados de los sitios web de publicaciones de noticias populares ( yandex.ru , rbc.ru , polit.ru , lenta.ru , strana.ru , news.ru ) [ 2] [11] .

SynTagRus está en constante evolución y a partir de 2020 tiene alrededor de 77 mil oraciones (más de 1,1 millones de usos de palabras) [12] extraídas de los textos de los siguientes géneros [13] [8] [14] :

prosa artística del siglo XX;
literatura moderna de no ficción ;
periodismo ;
biografías ;
artículos de periódicos y revistas publicados desde 1960 hasta el presente ;
feeds de noticias (textos de carácter sociopolítico, cultural, económico, científico y técnico).

Tipos de marcado y formato

Una característica distintiva de SynTagRus en comparación con otros corpus anotados del idioma ruso es la presencia de varios niveles de anotación de diferentes profundidades, que pueden extraerse independientemente del corpus, y el número de estos niveles es potencialmente ilimitado. El lenguaje de marcado del corpus es XML , y el formato de marcado es compatible con el formalismo TEI , con la excepción de algunos elementos y atributos introducidos adicionalmente [2] . Básicamente, el marcado de texto libre se realiza en dos pasos [11] :

Marcado preliminar de texto en modo automático mediante el procesador lingüístico ETAP, que es una implementación práctica del modelo Significado-Texto .
Comprobación y, si es necesario, corrección del marcado por un lingüista experto .

A continuación se enumeran los tipos de marcas disponibles en el corpus.

Dividir el texto en oraciones y elementos léxicos

Cada texto en SinTagRus se divide en oraciones. Cada oración es un elemento llamado S y cada elemento tiene un atributo ID cuyo valor es el número de serie de la oración en el texto. De manera similar, cada oración se divide en elementos léxicos llamados W , y cada uno de esos elementos tiene un atributo ID , cuyo valor es el número ordinal de la palabra en esta oración [11] . Los signos de puntuación tienen el formato del texto de la etiqueta de la oración (preservando su posición relativa en el texto de origen) y no se expresan mediante sus propias etiquetas [15] .

Marcado morfológico

La estructura morfológica de una forma de palabra es el nombre de un lexema , o lema , al que se atribuyen una parte del discurso y características morfológicas , es decir, los significados de las categorías morfológicas correspondientes . Para la forma de palabra correspondiente, el lema es el valor del atributo LEMMA , y la parte del discurso y las características morfológicas juntas son el valor del atributo FEAT [8] [16] .

Descripción del marcado morfológico [17] Partes del discurso usadas

Parte del discurso	Reducción	Ejemplos
Sustantivo	S	fábrica , yo
Adjetivo	A	nuevo mi _
Verbo	V	vestir
Adverbio	ADV	malo , tipo de
número	NÚMERO	cinco , 2
Pretexto	relaciones públicas	por debajo
Compuesto	COM	aire , hidro
Unión	CONJ	y
Partícula	PARTE	después de todo
Interjección	INTJ	fulano de tal
La palabra es una inclusión de lengua extranjera.	DNI	Whatsapp , Berliner Zeitung

Características morfológicas utilizadas

Características morfológicas	Reducción	Nota
Animación
animado	sobredosis
inanimado	NEOD
Género
Masculino	ESPOSO
Femenino	MUJER
Promedio	MIÉRCOLES
Número
La única cosa	disfunción eréctil
plural	Minnesota
caso
Nominativo	A ELLOS
Genitivo	GÉNERO
Partitivo	PARTE	Indicado solo para sustantivos en los que esta forma es gráficamente diferente de la forma genitiva
Dativo	DAT
Acusativo	VIN
Instrumental	TVOR
Prepositivo	ETC
Local	LOCAL	Indicado solo para sustantivos en los que esta forma es gráficamente diferente de la forma preposicional
Vocativo	SUDOESTE	Indicado solo para sustantivos en los que esta forma es gráficamente diferente de la forma del caso nominativo
Grado de comparación
Comparativo	SRAV
excelente	ANTERIOR
Brevedad
Breve	CR
representación
Infinitivo	INF
Participio	precio
gerundio	PROFUNDO
Estado animico
indicativo	FALLA
imperativo	punto de vista
Vista
Imperfecto	NESOV
Perfecto	BÚHO
Tiempo
no pasado	NEPROSH
Pasado	PROSH
El presente	NAST	Atribuido solo al verbo estar en forma personal
Cara
Primero	1-L	Atribuido solo a verbos.
Segundo	2 litros
Tercero	3-L
Promesa
Pasivo	ESTRAD
características adicionales
Composición	SL
Grado comparativo suavizado	SMYAG

Marcado sintáctico

El marcado sintáctico de las oraciones corpus se lleva a cabo en el marco de la gramática de dependencia : la estructura sintáctica es un árbol orientado , cuyos nodos son palabras, y cada borde se dirige desde la palabra maestra a la sirviente y corresponde a alguna relación sintáctica. . La palabra correspondiente a la raíz del árbol se denomina parte superior de la oración y, a diferencia del resto de palabras de la oración, no depende sintácticamente de ninguna otra. Los grupos sintácticos se organizan en forma de subárboles del árbol fuente: en cada subárbol, uno de los miembros del grupo es su representante en las relaciones externas y subordina a los restantes miembros del grupo [18] . En total, en SinTagRus [13] se distinguen unos 70 tipos de relaciones sintácticas .

Relaciones sintácticas utilizadas [17] Relaciones sintácticas actantes

relación de sintaxis	Reducción	anfitrión de la palabra	siervo de palabra
Predicativo	predicado	Predicado	Tema
Dativo-subjetivo	fecha-asunto	palabra de estado	sujeto del estado denotado por la palabra anfitriona
agente	agente	palabra por acción	El sujeto de la acción denotada por la palabra anfitriona
cuasi-agente	cuasi-agente	sustantivo predicado	Palabra que implementa la primera valencia sintáctica de la palabra anfitriona
Agente propietario	agente erróneo	Verbo	Una palabra que implementa la primera valencia semántica de un sustantivo que es un actante semántico de la palabra anfitriona.
Primero completo	1 juego	palabra predicada	El actante sintáctico de la palabra huésped, excepto el primero. Así, la primera relación compleja se refiere al segundo actante, la segunda al tercero, y así sucesivamente.
segundo completo	2 juegos
Tercero completo	3 juegos
cuarto completo	4 juegos
Quinto completo	5 juegos
Archivo adjunto	atado	verbo vincular	Parte nominal del predicado
El primer impropio-completo	1 conjunto incorrecto	verbo funcional	Complemento (primero, segundo, etc.), cuyo anfitrión semántico es algún actante semántico de la palabra anfitrión
El segundo impropio-completo	2-conjunto incorrecto
Tercero impropio-completo	3-conjunto incorrecto
Cuarto impropio-completo	4-conjunto incorrecto
Quinto impropio-completo	5-conjunto incorrecto
No actante-completo	no-act-set	palabra predicada	Una palabra que no es un actante semántico completo de la palabra anfitriona, pero es similar en función sintáctica al complemento .
Complementario-apositivo	establecer aplicaciones	Sustantivo paramétrico o sustantivo de tipo vuelo , ruta , tren	El actante semántico de la palabra anfitriona, si este actante se expresa en caso nominativo o su equivalente sintáctico
prepositivo	oferta	Pretexto	Vértice de un sintagma nominal que depende de una preposición
Subordinado-aliado	sub-alianza	unión subordinada	La parte superior de la oración subordinada introducida por la unión de reparación.
infinitivo-union	inf-union	unión subordinada	Infinitivo
Comparativo	comparar	Adjetivo o adverbio comparativo	El vértice de una frase nominal en el caso genitivo, que representa el segundo de los miembros comparados, o una unión comparativa que
Comparativo	comparar	Verbo, nombre o adverbio	unión comparativa
unión comparativa	comparar-unión	unión comparativa	El segundo de los términos comparados de la construcción comparativa
electivo	electivo	Adjetivo numeral, ordinal, adjetivo superlativo o adjetivo con la palabra most	Preposición de o entre la introducción de una indicación del conjunto en el que se hace la elección
predicativo oracional	santo predicado	La parte superior de la oración que expresa la situación descrita en la construcción de identificación	Sustantivo pronominal demostrativo esto o aquello en el caso nominativo
Enlace de destino	asignar-adr	Palabra relacional que actúa como parte nominal del predicado con un enlace (posiblemente cero)	Sustantivo en caso dativo, llenando, en esencia, la valencia sintáctica de la palabra huésped

Relaciones sintácticas de atributos

relación de sintaxis	Reducción	anfitrión de la palabra	siervo de palabra
Determinantes
definitivo	definido	sustantivo o adjetivo	adjetivo o participio
Descriptivo-definitivo	op-def	sustantivo o adjetivo	Adjetivo o participio que actúa como una definición separada
ordinal aproximado	orden aproximado	Sustantivo	adjetivo ordinal
Pariente	relación	sustantivo o adjetivo	El vértice del atributivo relativo
atributivo general
atributivo	atrib	sustantivo o adjetivo	Definición inconsistente
Compuesto	composición	La segunda parte de la palabra compuesta.	La primera parte de una palabra compuesta.
apositivo
apositivo	aplicaciones	Sustantivo	la próxima aplicación
Separado-apositivo	ob-appos	Sustantivo	Aplicación separada a la palabra anfitriona
nominativo-apositivo	nom-appos	Sustantivo	La parte superior de cualquier grupo citado que exprese un nombre
Numerativo-apositivo	número de aplicación	Sustantivo que denota objetos regularmente numerados	El nombre es numeral en caso nominativo o escrito en números (indicando un número)
cuantitativo
cuantitativo	cantidad	Sustantivo	Número en preposición
Aproximativo-cuantitativo	recuento aproximado	Sustantivo	Número en posposición
Cuantitativo-Copredicativo	número-coped	Un verbo en el que hay un sustantivo en el caso genitivo, actuando como sujeto con él.	La parte superior del grupo numérico o la parte superior del grupo nominal con un valor cardinal
Cuantitativo-restrictivo	número-límite	Adjetivo o adverbio comparativo	Adverbio o parte superior del grupo con preposiciones en o sobre , indicando intensidad
distribución	distribución	La parte superior de una frase nominal que denota un determinado parámetro (precio, velocidad, peso, etc.)	Un sustantivo en el caso nominativo o la parte superior de un grupo con preposiciones en , sobre , para , indicando una unidad de medida
aditivo	añadir	Número o parte superior de un grupo cuantitativo	Número o parte superior de un grupo cuantitativo
circunstancial
circunstancial	obstetra	Un verbo o palabra de otra parte del discurso que es el vértice de una oración	Circunstancia
largo	largo	Verbo	Una circunstancia de duración expresada por un sustantivo en caso acusativo o por un grupo preposicional con el significado de cantidad o distribución aproximada
Largo múltiple	largo múltiple	Verbo	Una circunstancia de duración múltiple expresada por un sustantivo en el plural instrumental
remoto	distancia	Verbo	Una circunstancia de extensión espacial expresada por un sustantivo en el caso acusativo o por un grupo preposicional con el significado de cantidad o distribución aproximada.
circunstancial-tautológico	obstinado	Verbo	Un sustantivo en el caso instrumental, duplicando parte del significado de la palabra anfitriona.
subjetivo circunstancial	subentorno	Verbo	Una circunstancia en el caso instrumental que caracteriza al mismo tiempo al sujeto de la acción.
Objeto circunstancial	obstetra	Verbo	Una circunstancia en el caso instrumental que caracteriza al mismo tiempo el objeto de la acción.
subjetivo-copredicativo	sub-copr	Verbo	La parte superior de la frase nominal en el caso nominativo o instrumental, o la parte superior del grupo preposicional, actuando en una función cercana a la función de la parte nominal del predicado compuesto, pero caracterizando al sujeto en significado y (en el caso de la frase nominal) consistente con ella en género y número
Objeto-Copredicativo	ob-copr	Verbo	La parte superior del grupo nominal en el caso instrumental o acusativo o la parte superior del grupo preposicional, que caracteriza el objeto. Si la palabra-servidor se expresa mediante un sintagma nominal, entonces es consistente con el complemento en género y número.
Restrictivo	limitado	Palabra de cualquier parte del discurso	Partícula o adverbio restrictivo
introductorio	Introducción	Predicado u otro miembro de la oración	Palabra introductoria, giro introductorio, oración o apelación
Explicativo	claro	Parte superior de la oración principal	La parte superior de la cláusula subordinada, incluida la palabra aliada qué , por qué o por qué
explicativo	explique	palabra arbitraria	Una palabra que tiene dependientes y junto con ellos proporciona información adicional sobre la palabra anfitriona o el grupo de palabras representado por la palabra anfitriona. Se requiere un "marcador de aclaración" formal, que puede ser un signo de puntuación o una expresión que introduce información adicional
contiguo	contiguo	La palabra que es el "maestro" de la expresión, la parte superior de la cual es la palabra-sirviente	El vértice de una expresión dependiente de la palabra anfitriona, ubicado a la derecha de la palabra anfitriona y encerrado entre corchetes o delimitado a ambos lados por un guión
Calificatorio	aclaración	Representante (vértice) de alguna expresión	Representante de alguna expresión. Esta expresión refina semánticamente la expresión representada por la palabra anfitriona, pero ambas expresiones tienen la misma función sintáctica.

Coordinación de relaciones sintácticas

relación de sintaxis	Reducción	anfitrión de la palabra	siervo de palabra
escritura	escritura	Miembro de la estructura de coordinación	Un miembro de una construcción de coordinación o una conjunción de coordinación. Ubicado inmediatamente a la derecha de la palabra anfitriona.
coordinativo oracional	santo op	La parte superior de la primera de oraciones homogéneas	Parte superior de la segunda oración o unión de coordinación
Coordinador-sindicato	op-union	unión de escritura	La parte superior del segundo de los términos u oraciones homogéneos
Múltiple	múltiple	El miembro principal de una construcción múltiple es un sustantivo , adjetivo , adverbio , numeral o verbo .	Miembro dependiente de una construcción múltiple. Formado de la misma manera que el miembro principal, y separado de él por un guión, guión, dos puntos o barra oblicua, o introducido por la preposición "en" o "a"

Relaciones sintácticas de servicio

relación de sintaxis	Reducción	anfitrión de la palabra	siervo de palabra
Analítico	analito	Elementos del predicado verbal compuesto . Estos elementos forman un tiempo futuro complejo o subjuntivo .
Pasivo-analítico	pasar anal	Verbo - enlace "ser"	Comunión Pasiva
Cuantitativo-auxiliar	número-auxiliar	El lado derecho de un adjetivo numeral compuesto o ordinal compuesto	El lado izquierdo de un adjetivo numeral compuesto o ordinal compuesto
pariente	correlación	El lado izquierdo de una conjunción , preposición o partícula emparejada rota , o el lado derecho de una conjunción coordinada emparejada rota	El lado derecho de una conjunción, preposición o partícula emparejada rota, o el lado izquierdo de una conjunción coordinada emparejada rota
EXPLENTO	explet	Pronombre demostrativo - "junta" así , eso	Unión subordinante o superior de la oración. La palabra maestra es "descifrada" por la palabra sirviente
proléptico	prolepto	Palabra semánticamente ambigua que ocupa una posición completa en una oración	Palabra hacia afuera
Auxiliar	auxiliar	Partes de la unidad sintáctica y semántica de las frases

Para registrar información sobre la estructura sintáctica de una oración en SynTagRus, se utilizan dos atributos de cada palabra de la oración: DOM , cuyo valor es el ID de la palabra principal, y LINK , cuyo valor es el nombre de la palabra principal. relación sintáctica correspondiente [16] . La parte superior de la oración tiene el valor especial del atributo DOM _root [19] .

Marcado léxico-semántico

A cada forma de palabra, además del lema , se le asigna el atributo KSNAME , cuyo valor es el nombre de la entrada correspondiente en el diccionario explicativo-combinatorio del procesador lingüístico ETAP. Debido a esto, por un lado, se especifica el significado de las palabras polisemánticas y homónimas , y por otro lado, se establece una conexión con las entradas del diccionario, que es utilizado por el procesador ETAP, y la información contenida en estos. se dispone de entradas sobre las propiedades semánticas de las palabras [10] .

Marcado léxico-funcional

Las oraciones están marcadas con frases que pueden interpretarse en términos de funciones léxicas . Para marcar tales frases dentro de la oración, se crean elementos adicionales separados de las propias formas de las palabras [13] .

Marcado micro-sintáctico

Las unidades microsintácticas en SynTagRus se entienden como unidades fraseológicas con especificidad sintáctica [20] . Un ejemplo es la preposición compuesta en vigor . Por un lado, es sintácticamente cercano a las preposiciones primitivas. En efecto, es imposible insertar una definición pronominal a un sustantivo entre los elementos de esta preposición, como en otras construcciones preposicionales del tipo en la forma , en caso , etc. Además, si el pronombre personal de la tercera persona está sujeto a esta preposición en la oración, entonces en la mayoría de los casos la n- inicial , como en el caso de las preposiciones primitivas. Por otro lado, la primera parte de algunas conjunciones pareadas , así como la partícula si o , pueden ubicarse entre la preposición vigente y el sustantivo que depende de ella, lo que imposibilita atribuir esta preposición a primitivas [21] .

Si una unidad microsintáctica aparece en alguna oración del corpus, se agrega un nuevo atributo de oración: MICROSYNT , cuyo valor es el nombre de la unidad microsintáctica correspondiente y sus límites lineales [20] .

Marcado anafórico

Para un pronombre anafórico que se encuentra en el texto , se indica su antecedente , es decir, la expresión a la que se refiere este pronombre. Una oración en la que se encuentra un pronombre anafórico tiene un atributo COREF adicional cuyo valor es una lista de pares pronombre-antecedente correspondientes al pronombre dado. Para cada pronombre anafórico se indica su posición lineal en la oración, y para el antecedente, además, se indica adicionalmente en qué oración relativa a la que se considera se encuentra (dentro de tres oraciones en ambos sentidos) [4] .

Procesado de estructuras elípticas

En SynTagRus, los fragmentos omitidos de oraciones elípticas se restauran explícitamente. La forma de palabra restaurada correspondiente se marca de la misma manera que otras formas de palabra; en particular, todos los enlaces sintácticos necesarios se extraen de tales palabras "fantasma". A esta forma de palabra se le asigna el atributo NODETYPE con el valor FANTOM [2] [22] .

Usando el cuerpo

SynTagRus se utiliza en varios campos. Por un lado, sobre su base se realizan investigaciones puramente lingüísticas, tanto teóricas como prácticas (en particular, en el campo de la lexicografía ). Por otra parte, el corpus encuentra su aplicación en las tareas de la lingüística computacional como fuente de datos lingüísticos, por ejemplo, a la hora de crear analizadores sintácticos . Estas tareas se pueden resolver utilizando varios formatos de marcado. Al mismo tiempo, la combinación de varios edificios con diferentes marcas en uno hace que este último sea más representativo. Estas circunstancias conducen al problema de la conversión del corpus [4] .

Ha habido repetidos intentos de traducir SynTagRus a otros formatos de marcado: se sabe que los experimentos convierten el corpus a formatos HPSG y PDT [13] . Además, SynTagRus se convirtió con éxito a los formatos CoNLL-U [22] , PTB [23] y SD [24] . Sin embargo, la conversión , en primer lugar, en todos los casos se refería únicamente a las marcas morfológicas y sintácticas y, en segundo lugar, se realizaba automáticamente, lo que se convirtió en un obstáculo para la conversión completa. Así, por ejemplo, la parte gramatical NID no podía traducirse sin ambigüedades al formato CoNLL-U (en el que no existe tal parte gramatical) automáticamente, por lo que todas las oraciones de SinTagRus en las que al menos una forma de palabra tenía tal una parte del discurso fue excluida del corpus antes de la conversión [22] .

Acceso

SynTagRus se distribuye de forma gratuita bajo una licencia no comercial [25] . Además, una versión del corpus sin algunos tipos de marcado está disponible para uso no comercial con fines de investigación y enseñanza como un subcorpus del Corpus Nacional de la Lengua Rusa y es de dominio público [13] , así como versiones en formatos CoNLL-U (licencia CC BY-NC-SA 4.0 ) [22] y PTB (único convertidor disponible) [23] .

Notas

↑ Eric Brill , Raymond J. Mooney. Una descripción general del procesamiento empírico del lenguaje natural // Revista AI. - AAAI, 1997. - Vol. 18 , núm. 4 . - P. 13-24 .
↑ 1 2 3 4 5 Boguslavsky I. M. , Grigoriev N. V. , Grigoryeva S. A. , Kreydlin L. G. , Frid N. E. Un corpus anotado de textos rusos: concepto, herramientas de marcado, tipos de información // Actas Seminario internacional sobre lingüística computacional y sus aplicaciones "Diálogo-2000 ". - Protvino, 2000. Archivado el 31 de julio de 2019. (Ruso)
↑ Reznikova T. I. , Kopotev M. V. Corpus anotados lingüísticamente del idioma ruso (revisión de recursos públicos) // Corpus nacional del idioma ruso: 2003-2005. - M .: Indrik , 2005. - S. 31-61 . Archivado desde el original el 31 de julio de 2019. (Ruso)
↑ 1 2 3 Inshakova E. S. , Iomdin L. L. , Mityushin L. G. , Sizov V. G. , Frolova T. I. , Tsinman L. L. SinTagRus hoy // Actas del Instituto de la Lengua Rusa. V. V. Vinogradova. - M. : "Néstor-Historia", 2019. - Edición. 21 . - S. 14-40 . Archivado el 26 de marzo de 2020. (Ruso)
↑ Moskvina A. D. , Orlova D. , Panicheva P. V. , Mitrofanova O. A. Desarrollo de un núcleo analizador para el idioma ruso basado en bibliotecas NLTK // Actas de la Conferencia Científica Unida "Internet y la Sociedad Moderna". - 2016. - S. 44-54 . Archivado desde el original el 10 de octubre de 2019. (Ruso)
↑ Kibrik A. E. , Fedorova O. V., Tatevosov S. G. , Lyutikova E. A., Kibrik A. A. , Kobozeva I. M. , Falikman M. V., Chenki A., Sekerina I., Nikolaeva Yu. V., Daniel' M. A., Bergelson M. B. , Alpatov V. M. , Belyaev O. I., Toldova S. Yu., Bonch-Osmolovskaya A. A. , Podlesskaya V. I. , Krivnova O. F. Corpus lingüística // Introducción a la ciencia del lenguaje / ed. O. V. Fedorova y S. G. Tatevosov. - M. : Buki Vedi, 2019. - S. 420. - 672 p. — ISBN 978-5-4465-2188-3 . (Ruso)
↑ Sichinava D.V. Corpus nacional de la lengua rusa: un resumen de la prehistoria // Corpus nacional de la lengua rusa: 2003-2005. - M. : Indrik, 2005. - S. 21-30 . Archivado desde el original el 31 de julio de 2019. (Ruso)
↑ 1 2 3 Apresyan Yu. D. , Boguslavsky I. M. , Iomdin B. L. , Iomdin L. L. , Sannikov A. V. , Sannikov V. Z. , Sizov V. G. , Tsinman L. L. Corpus anotado sintáctica y semánticamente del idioma ruso: estado actual y perspectivas // Corpus nacional del Idioma ruso: 2003-2005. - M. : Indrik, 2005. - S. 193-214 . Archivado desde el original el 31 de julio de 2019. (Ruso)
↑ Zakharov V.P. , Bogdanova S.Yu. Lingüística del corpus . - 3ª ed., revisada. - San Petersburgo. : St. Petersburg University Press, 2020. - P. 47. - 234 p. - ISBN 978-5-288-05997-1 . (Ruso)
↑ 1 2 Apresyan Yu. D. , Iomdin L. L. , Sannikov A. V. , Sizov V. G. Marcado semántico en un corpus profundamente anotado del idioma ruso // Actas de la Conferencia Internacional "Corpus Linguistics-2004". - San Petersburgo. : Universidad Estatal de San Petersburgo, 2004. - S. 41-54 . Archivado desde el original el 31 de julio de 2019. (Ruso)
↑ 1 2 3 Boguslavsky I. M. , Grigoriev N. V. , Iomdin L. L. , Kreydlin L. G. , Frid N. E. , Chardin I. S. Desarrollo de un corpus marcado sintácticamente del idioma ruso // Informes de la conferencia científica "Corpus Linguistics and Linguistic Databases". - San Petersburgo. : Universidad Estatal de San Petersburgo, 2002. - S. 40-50 . Archivado desde el original el 31 de julio de 2019. (Ruso)
↑ Corpus Lingüística . Laboratorio de Lingüística Computacional IPTP RAS (11 de febrero de 2020). Consultado el 12 de febrero de 2020. Archivado desde el original el 22 de febrero de 2020. (Ruso)
↑ 1 2 3 4 5 Dyachenko P. V. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Podlesskaya O. Yu. , Sizov V. G. , Frolova T. I. , Tsinman L L. El estado actual del corpus profundamente anotado de textos del idioma ruso (SinTagRus ) // Colección "Corpus nacional de la lengua rusa: 10 años del proyecto". - M . : Actas del Instituto de la Lengua Rusa. V. V. Vinogradova, 2015. - Edición. 6 _ - S. 272-299 . Archivado desde el original el 31 de julio de 2019. (Ruso)
↑ Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrochenkov V. Analizador de dependencia basado en reglas refinado por y estadísticas de corpus empírico // Actas de la Conferencia Internacional sobre Lingüística de la Dependencia. - 2011. - P. 318-327 . Archivado desde el original el 31 de julio de 2019.
↑ Droganova K. , Lyashevskaya O. , Zeman D. Conversión de datos y consistencia de corpus monolingües: Treebanks rusos UD (inglés) // Actas del 17.º Taller internacional sobre Treebanks y teorías lingüísticas (TLT 2018). - Universidad de Oslo, Noruega: Linköping University Electronic Press, 2018. - P. 52-65 . Archivado el 19 de marzo de 2020.
↑ 1 2 Igor Boguslavsky , Ivan Chardin , Svetlana Grigorjeva , Nikolai Grigoriev , Leonid Iomdin , Leonid Kreydlin , Nadezhda Frid. Desarrollo de un árbol de dependencias para el ruso y sus posibles aplicaciones en PNL (inglés) // Actas de la Tercera Conferencia Internacional sobre Evaluación y Recursos Lingüísticos (LREC-2002). — Las Palmas, 2002. — Vol. tercero _ - P. 852-856 . Archivado desde el original el 10 de agosto de 2017.
↑ 1 2 Corpus marcado sintácticamente del idioma ruso: información para usuarios . Corpus Nacional de la Lengua Rusa . Consultado el 29 de marzo de 2020. Archivado desde el original el 25 de marzo de 2020. (Ruso)
↑ Apresyan Y. D. , Boguslavsky I. M. , Iomdin L. L. , Lazursky A. V. , Mityushin L. G. , Sannikov V. Z. , Tsinman L. L. Procesador lingüístico para sistemas de información complejos. - M .: Ciencia , 1992. - S. 32-40, 56-73. — 256 págs.
↑ Leonid Iomdin , Víctor Sizov. Editor de estructuras: un entorno potente para corpus etiquetados // Infraestructura de investigación para lexicografía digital. - Ljubljana: Instituto Jožef Stefan, 2009. - P. 1-12 .
↑ 1 2 Iomdin L. L. Marcado microsintáctico en el corpus de textos rusos // Actas de la conferencia científica internacional "Corpus Linguistics - 2017". - San Petersburgo. : Universidad Estatal de San Petersburgo, 2017. - S. 188-194 . Archivado desde el original el 20 de noviembre de 2021. (Ruso)
↑ Iomdin L. L. En las profundidades de la microsintaxis: una clase léxica de frases sintácticas // Lingüística informática y tecnologías inteligentes. - M. : RGGU, 2008. - S. 178-184 . Archivado desde el original el 29 de agosto de 2019. (Ruso)
↑ 1 2 3 4 Droganova K. , Zeman D. Conversión de SynTagRus (el banco de árboles de dependencia ruso) a Dependencias universales (inglés) // Informe técnico. — Instituto de Lingüística Formal y Aplicada, Facultad de Matemáticas y Física, Universidad Charles, 2016. Archivado desde el original el 8 de junio de 2021.
↑ 1 2 Luu A. , Malamud SA , Xue N. Converting SynTagRus dependency treebank into Penn treebank style // Actas del 10.º taller de anotación lingüística realizado junto con ACL 2016 (LAW-X 2016). - 2016. - Págs. 16-21 . Archivado desde el original el 27 de febrero de 2019.
↑ Lipenkova J. , Souček M. Converting Russian dependency treebank to Stanford typed dependencies representing (inglés) // Actas de la 14.ª Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional. - 2014. - Vol. 2 . - pág. 143-147 . Archivado desde el original el 8 de junio de 2018.
↑ Instrumentos Lyashevskaya O. N. Corpus en estudios gramaticales del idioma ruso. - M. : Editorial YASK, 2016. - S. 193. - 520 p.

Enlaces

Lenguaje del cuerpo
corpus ingleses	Corpus Nacional de Inglés Americano banco de ingles Bergen Corpus of London Lenguaje adolescente cuerpo nacional británico Cuerpo Marrón corpus castaño de indias Corpus de inglés de Cambridge Corpus de inglés americano moderno Corpus de Enron Corpus internacional de inglés Corpus Lancaster-Oslo-Bergen Corpus de inglés de Oxford Banco de accesorios Corpus de inglés hablado HORA VerbNet Wellington Corpus de inglés hablado de Nueva Zelanda
corpus en ruso	Corpus general de Internet de la lengua rusa Cuerpo Nacional Ruso Corpus abierto de la lengua rusa SinTagRus Corpus de Tübingen de la lengua rusa Uppsala corpus de textos rusos Corpus anotado de Helsinki de la lengua rusa
Corporación en otros idiomas	Corpus de Bijankhan NIÑOS Corpus de croata Corpus Nacional Croata Corpus Europarl Cuerpo alemán de Mannheim Cuerpo Hamshahri Corpus Nacional Polaco Proyecto de corpus de texto neoasirio corpus coránico Corpus Nacional Escocés Corpus Nacional de Eslovenia hablar de banco Tatoeba Corpus monolingüe de Teherán Tekstaro de Esperanto Diccionario de sinónimos Linguae Graecae
Organizaciones	Consorcio BNC CONSTRUIR