Corpus de textos

En lingüística , un corpus (en este sentido, el plural es corpus , no corpus [1] ) es un conjunto de textos seleccionados y procesados ​​de acuerdo con ciertas reglas, utilizados como base para el estudio de una lengua. Se utilizan para análisis estadísticos y pruebas de hipótesis estadísticas , validando reglas lingüísticas en un idioma determinado. El corpus de textos es el objeto de estudio de la lingüística de corpus .

Propiedades básicas del casco

Entre las muchas definiciones del corpus, se pueden distinguir sus principales propiedades :

Clasificación de casos

Los corpus se pueden clasificar según varios criterios: la finalidad de la creación del corpus, el tipo de datos lingüísticos, "literario", género, dinamismo, tipo de marcado, volumen de textos, etc. Según el criterio del paralelismo , por ejemplo, los corpus se pueden dividir en monolingües, bilingües y multilingües. Los plurilingües y bilingües se dividen en dos tipos:

  1. paralelo  - un conjunto de textos y sus traducciones a uno o más idiomas.
  2. comparable (pseudo-paralelo) - textos originales en dos o más idiomas.

Marcas del casco

El marcado consiste en atribuir etiquetas especiales a los textos y sus componentes : lingüísticos y externos (extralingüísticos). Se distinguen los siguientes tipos lingüísticos de marcado: morfológico, semántico, sintáctico, anafórico, prosódico, discursivo, etc. A algunos corpus se les aplican otros niveles estructurales de análisis. En particular, algunos corpus pequeños pueden marcarse completamente sintácticamente. Dichos corpus suelen denominarse corpus profundamente anotados o sintácticos , y la estructura sintáctica en sí misma es un árbol de dependencia .

El marcado manual (anotación) de textos es una tarea costosa y que requiere mucho tiempo. Por el momento, se presentan en el dominio público varias herramientas de software para marcar corpus [3] . Convencionalmente, se pueden dividir en separados (independientes) y orientados a la web (basados ​​en la web) . Al mismo tiempo, el enfoque de los desarrolladores en los últimos años se ha desplazado hacia las aplicaciones web. Estos sistemas tienen una serie de ventajas:

Internet como corpus

Las tecnologías modernas permiten crear "corpora web", es decir, corpus obtenidos mediante el procesamiento de fuentes de Internet:

Un corpus web es un tipo especial de corpus lingüístico, que se crea mediante la descarga gradual de textos de Internet utilizando procedimientos automatizados que determinan el idioma y la codificación de páginas web individuales sobre la marcha, eliminan plantillas, elementos de navegación, enlaces y anuncios (el llamado repetitivo), realizan la transformación a texto, filtrado, normalización y deduplicación de los documentos recibidos, que luego pueden ser procesados ​​con herramientas tradicionales de la lingüística de corpus (tokenización, mirfosintáctica y anotación sintáctica) e implementados en un sistema de búsqueda de corpus. Crear un corpus web no solo es mucho más económico, sino que, sobre todo, su tamaño puede ser incluso un orden de magnitud mayor que el corpus tradicional [4] .

— Vladimir Benko ARANEA — UNA FAMILIA DE MIL MILLONES DE WEB CORPS

Aplicación

Corpus es el principal concepto y base de datos de la lingüística de corpus. El análisis y el procesamiento de diferentes tipos de corpus es el tema de la mayoría de los trabajos en lingüística computacional (por ejemplo , extracción de palabras clave ), reconocimiento de voz y traducción automática , en los que los corpus se utilizan a menudo para crear modelos de Markov ocultos para el etiquetado de partes del discurso y otras tareas. Los diccionarios de corpus y frecuencias pueden ser útiles en la enseñanza de lenguas extranjeras.

Corporaciones de texto en ruso

Véase también

Notas

  1. GRAMOTA.RU - portal de Internet de referencia e información "Idioma ruso" | Diccionarios | Verificación de palabras . gramota.ru. Consultado el 26 de diciembre de 2019. Archivado desde el original el 17 de septiembre de 2019.
  2. El diagrama se creó en base a los materiales del libro "Zakharov V.P., Bogdanova S.Yu. Corpus lingüística: libro de texto. 3.ª ed., revisada - St. Petersburg: Publishing House of St. Petersburg University, 2020. - 234 p. "
  3. Vanyushkin, Grashchenko, 2017 .
  4. ARANEA: UNA FAMILIA DE MIL MILLONES DE CASOS WEB - La Comunidad del Patrimonio Escrito . textualheritage.org. Consultado el 26 de diciembre de 2019. Archivado desde el original el 9 de agosto de 2020.
  5. Glazkova, A. (2018), Búsqueda automática de fragmentos que contienen información biográfica en texto en lenguaje natural , Actas del Instituto de Programación de Sistemas RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6 )-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text > 
  6. Rubtsova, Y. (2015), Creación de un corpus de texto para configurar un clasificador de tonos , Productos y sistemas de software T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Archivado el 7 de agosto de 2020 en Wayback Machine . 

Literatura