Corpus de textos

En lingüística , un corpus (en este sentido, el plural es corpus , no corpus [1] ) es un conjunto de textos seleccionados y procesados de acuerdo con ciertas reglas, utilizados como base para el estudio de una lengua. Se utilizan para análisis estadísticos y pruebas de hipótesis estadísticas , validando reglas lingüísticas en un idioma determinado. El corpus de textos es el objeto de estudio de la lingüística de corpus .

Propiedades básicas del casco

Entre las muchas definiciones del corpus, se pueden distinguir sus principales propiedades :

electrónico - en el sentido moderno, el corpus debe estar en formato electrónico
representante - bien debe "representar" el objeto que modela
marcado - la principal diferencia entre un corpus y una colección de textos
orientado pragmáticamente: debe crearse para una tarea específica

Clasificación de casos

Los corpus se pueden clasificar según varios criterios: la finalidad de la creación del corpus, el tipo de datos lingüísticos, "literario", género, dinamismo, tipo de marcado, volumen de textos, etc. Según el criterio del paralelismo , por ejemplo, los corpus se pueden dividir en monolingües, bilingües y multilingües. Los plurilingües y bilingües se dividen en dos tipos:

paralelo - un conjunto de textos y sus traducciones a uno o más idiomas.
comparable (pseudo-paralelo) - textos originales en dos o más idiomas.

Marcas del casco

El marcado consiste en atribuir etiquetas especiales a los textos y sus componentes : lingüísticos y externos (extralingüísticos). Se distinguen los siguientes tipos lingüísticos de marcado: morfológico, semántico, sintáctico, anafórico, prosódico, discursivo, etc. A algunos corpus se les aplican otros niveles estructurales de análisis. En particular, algunos corpus pequeños pueden marcarse completamente sintácticamente. Dichos corpus suelen denominarse corpus profundamente anotados o sintácticos , y la estructura sintáctica en sí misma es un árbol de dependencia .

El marcado manual (anotación) de textos es una tarea costosa y que requiere mucho tiempo. Por el momento, se presentan en el dominio público varias herramientas de software para marcar corpus [3] . Convencionalmente, se pueden dividir en separados (independientes) y orientados a la web (basados en la web) . Al mismo tiempo, el enfoque de los desarrolladores en los últimos años se ha desplazado hacia las aplicaciones web. Estos sistemas tienen una serie de ventajas:

la capacidad de marcar un documento por varias personas al mismo tiempo
no requieren la instalación de software adicional, a excepción del navegador
diferenciación flexible de los derechos de acceso
mostrar el progreso actual del proceso de marcado
la posibilidad de modificar el cuerpo marcado

Internet como corpus

Las tecnologías modernas permiten crear "corpora web", es decir, corpus obtenidos mediante el procesamiento de fuentes de Internet:

Un corpus web es un tipo especial de corpus lingüístico, que se crea mediante la descarga gradual de textos de Internet utilizando procedimientos automatizados que determinan el idioma y la codificación de páginas web individuales sobre la marcha, eliminan plantillas, elementos de navegación, enlaces y anuncios (el llamado repetitivo), realizan la transformación a texto, filtrado, normalización y deduplicación de los documentos recibidos, que luego pueden ser procesados con herramientas tradicionales de la lingüística de corpus (tokenización, mirfosintáctica y anotación sintáctica) e implementados en un sistema de búsqueda de corpus. Crear un corpus web no solo es mucho más económico, sino que, sobre todo, su tamaño puede ser incluso un orden de magnitud mayor que el corpus tradicional [4] .

— Vladimir Benko ARANEA — UNA FAMILIA DE MIL MILLONES DE WEB CORPS

Aplicación

Corpus es el principal concepto y base de datos de la lingüística de corpus. El análisis y el procesamiento de diferentes tipos de corpus es el tema de la mayoría de los trabajos en lingüística computacional (por ejemplo , extracción de palabras clave ), reconocimiento de voz y traducción automática , en los que los corpus se utilizan a menudo para crear modelos de Markov ocultos para el etiquetado de partes del discurso y otras tareas. Los diccionarios de corpus y frecuencias pueden ser útiles en la enseñanza de lenguas extranjeras.

Corporaciones de texto en ruso

Véase también

Notas

↑ GRAMOTA.RU - portal de Internet de referencia e información "Idioma ruso" | Diccionarios | Verificación de palabras . gramota.ru. Consultado el 26 de diciembre de 2019. Archivado desde el original el 17 de septiembre de 2019. (indefinido)
↑ El diagrama se creó en base a los materiales del libro "Zakharov V.P., Bogdanova S.Yu. Corpus lingüística: libro de texto. 3.ª ed., revisada - St. Petersburg: Publishing House of St. Petersburg University, 2020. - 234 p. "
↑ Vanyushkin, Grashchenko, 2017 .
↑ ARANEA: UNA FAMILIA DE MIL MILLONES DE CASOS WEB - La Comunidad del Patrimonio Escrito . textualheritage.org. Consultado el 26 de diciembre de 2019. Archivado desde el original el 9 de agosto de 2020. (indefinido)
↑ Glazkova, A. (2018), Búsqueda automática de fragmentos que contienen información biográfica en texto en lenguaje natural , Actas del Instituto de Programación de Sistemas RAS T. 30(6): 221-236, doi : 10.15514/ISPRAS-2018-30( 6 )-12 , < https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text >
↑ Rubtsova, Y. (2015), Creación de un corpus de texto para configurar un clasificador de tonos , Productos y sistemas de software T. 1(109): 72-78, doi : 10.15827/0236-235x.109.072-078 , < http: //www .swsys.ru/index.php?page=article&id=3962&lang= > Archivado el 7 de agosto de 2020 en Wayback Machine .

Literatura

Vanyushkin A.S., Grashchenko L.A. Estimación de algoritmos de extracción de palabras clave: herramientas y recursos // Nuevas tecnologías de la información en sistemas automatizados. - 2017. - Emisión. 20 _ — ISSN 2227-0973 .
Nikolaev I. S., Mitrenina O. V., Lando T. M. Lingüística aplicada y computacional. - M. : URSS, 2016. - 320 p.

procesamiento natural del lenguaje
Definiciones generales	corpus de textos corpus de habla Para las palabras bolsa de palabras Integridad de la IA N-grama Cifrado de bigrama trigrama
Análisis de texto	Segmentación de texto Marcado parcial análisis de superficie Procesamiento de textos compuestos Extracción de colocaciones derivación lematización Reconocimiento de entidad nombrada Resolución de correferencia Análisis de sentimiento de texto Extracción de conceptos analizando Resolución de la polisemia léxica Extraer terminología Extracción de información Identificación de idioma Definición de caso
Referencia	Extrayendo oraciones Generación abstracta Referenciación multi-documento Simplificación de texto
Traducción automática	automatizado Híbrido Interlingüístico Basado en reglas Basado en ejemplos Basado en diccionario Basado en la transformación neural Estadístico Sincrónico
Identificación y recogida de datos	Reconocimiento de voz síntesis de voz Reconocimiento óptico de caracteres Generación de texto
Modelo Temático	colocación de pachinko Colocación latente de Dirichlet Análisis semántico latente
revisión por pares	Evaluación automatizada de ensayos concordante Entrada de texto predictivo Corrector gramatical Corrector ortográfico Adivinanzas de sintaxis
Interfaz de lenguaje natural	asistente virtual Interlocutor virtual sistema de preguntas y respuestas interfaz de voz Literatura Interactiva