En lingüística , un corpus (en este sentido, el plural es corpus , no corpus [1] ) es un conjunto de textos seleccionados y procesados de acuerdo con ciertas reglas, utilizados como base para el estudio de una lengua. Se utilizan para análisis estadísticos y pruebas de hipótesis estadísticas , validando reglas lingüísticas en un idioma determinado. El corpus de textos es el objeto de estudio de la lingüística de corpus .
Entre las muchas definiciones del corpus, se pueden distinguir sus principales propiedades :
Los corpus se pueden clasificar según varios criterios: la finalidad de la creación del corpus, el tipo de datos lingüísticos, "literario", género, dinamismo, tipo de marcado, volumen de textos, etc. Según el criterio del paralelismo , por ejemplo, los corpus se pueden dividir en monolingües, bilingües y multilingües. Los plurilingües y bilingües se dividen en dos tipos:
El marcado consiste en atribuir etiquetas especiales a los textos y sus componentes : lingüísticos y externos (extralingüísticos). Se distinguen los siguientes tipos lingüísticos de marcado: morfológico, semántico, sintáctico, anafórico, prosódico, discursivo, etc. A algunos corpus se les aplican otros niveles estructurales de análisis. En particular, algunos corpus pequeños pueden marcarse completamente sintácticamente. Dichos corpus suelen denominarse corpus profundamente anotados o sintácticos , y la estructura sintáctica en sí misma es un árbol de dependencia .
El marcado manual (anotación) de textos es una tarea costosa y que requiere mucho tiempo. Por el momento, se presentan en el dominio público varias herramientas de software para marcar corpus [3] . Convencionalmente, se pueden dividir en separados (independientes) y orientados a la web (basados en la web) . Al mismo tiempo, el enfoque de los desarrolladores en los últimos años se ha desplazado hacia las aplicaciones web. Estos sistemas tienen una serie de ventajas:
Las tecnologías modernas permiten crear "corpora web", es decir, corpus obtenidos mediante el procesamiento de fuentes de Internet:
Un corpus web es un tipo especial de corpus lingüístico, que se crea mediante la descarga gradual de textos de Internet utilizando procedimientos automatizados que determinan el idioma y la codificación de páginas web individuales sobre la marcha, eliminan plantillas, elementos de navegación, enlaces y anuncios (el llamado repetitivo), realizan la transformación a texto, filtrado, normalización y deduplicación de los documentos recibidos, que luego pueden ser procesados con herramientas tradicionales de la lingüística de corpus (tokenización, mirfosintáctica y anotación sintáctica) e implementados en un sistema de búsqueda de corpus. Crear un corpus web no solo es mucho más económico, sino que, sobre todo, su tamaño puede ser incluso un orden de magnitud mayor que el corpus tradicional [4] .
— Vladimir Benko ARANEA — UNA FAMILIA DE MIL MILLONES DE WEB CORPSCorpus es el principal concepto y base de datos de la lingüística de corpus. El análisis y el procesamiento de diferentes tipos de corpus es el tema de la mayoría de los trabajos en lingüística computacional (por ejemplo , extracción de palabras clave ), reconocimiento de voz y traducción automática , en los que los corpus se utilizan a menudo para crear modelos de Markov ocultos para el etiquetado de partes del discurso y otras tareas. Los diccionarios de corpus y frecuencias pueden ser útiles en la enseñanza de lenguas extranjeras.