El Corpus Alemán de Mannheim (COSMAS corpora o DeReKo) es una colección de textos modernos en alemán mantenida por el Instituto para la Lengua Alemana en Mannheim , Alemania. El corpus contiene varios tipos de textos: literatura científica y de divulgación científica, una gran cantidad de textos periodísticos, ficción, etc. Representando la colección electrónica más grande del mundo de textos modernos en alemán, es una herramienta de la lingüística del corpus .
El corpus alemán de Mannheim tiene varios nombres alternativos, como German Reference Corpus, IDS corpora, COSMAS corpora. Desde 2004, el nombre oficial del cuerpo ha sido Deutsches Referenzkorpus (DeReKo).
La creación de un corpus en el Instituto de Lengua Alemana (IDS) tiene una larga historia. Ya en 1964, Paul Grebe y Ulrich Engel crearon Mannheim Corps 1, un proyecto que en 1967 había recopilado con éxito alrededor de 2,2 millones de palabras de uso común en el lenguaje escrito alemán. Desde entonces, la base de datos de texto electrónico se ha complementado y ampliado a través de una serie de proyectos de recopilación de corpus posteriores. Para 2013 DeReKo es uno de los principales recursos a nivel mundial para aprender alemán . La tasa de crecimiento del volumen del corpus es de unos 300 millones de palabras al año. Con "el estudio del idioma alemán en su uso moderno" como objetivo principal, el Instituto IDS tiene como política garantizar el funcionamiento a largo plazo de DeReKo.
Las características clave de DeReKo son:
El objetivo principal de DeReKo es servir como base práctica para el estudio científico de la escritura alemana moderna. Uno de los principios importantes es que la atención se centra en el idioma en sí, y no en la información que transmite.
El corpus contiene varios tipos de textos: ficción, literatura científica y de divulgación científica, publicaciones periódicas, etc. También hay un subcorpus de habla oral (habla coloquial, grabaciones de habla de hablantes de varios dialectos, etc.). El recurso incluye una base de datos basada en corpus de combinaciones de palabras alemanas.
Este corpus contiene 6 subcorpus principales:
El corpus de habla escrita incluye 3 corpus de Mannheim propiamente dichos, así como muchos otros (ficción, corpus histórico, periodismo, obras completas de Karl Marx y Friedrich Engels , corpus de Thomas Mann, corpus de entrevistas, etc.).
El volumen del corpus es de más de 1846 millones de usos de palabras. A diferencia de otros corpus muy conocidos (como, por ejemplo, el British National Corpus ), DeReKo pretende abarcar el máximo volumen posible de textos, y no equilibrar su composición: la distribución de los textos por hora de creación o tipo de texto no se corresponde a porcentajes predeterminados.
DeReKo tiene lematización y marcado morfológico , pero solo para algunos de los textos. Sin embargo, hay varias anotaciones coherentes completas en el archivo en diferentes niveles de idioma (al menos en las partes del discurso y los niveles de sintaxis). Debido al gran tamaño del corpus, no es factible ni la anotación manual ni el control manual de la anotación automática. Como resultado, el grado esperado de inexactitud es muy alto, especialmente cuando hay fenómenos lingüísticamente complejos.
Las unidades básicas de texto en el corpus DeReKo van acompañadas de información especial: metadatos . Un principio importante de un corpus es que estos metadatos deben ser accesibles. La información específica disponible depende de la fuente de datos y del tipo de texto.
Principales categorías de metadatos:
Debido a restricciones de derechos de autor y licencias, las bases de datos de archivo de DeReKo no se pueden copiar ni descargar del sitio a un disco duro. Pero estos datos pueden ser solicitados y analizados de forma gratuita a través del sistema COSMAS II [1] , cuyos usuarios deben registrarse y aceptar utilizar los datos exclusivamente para fines educativos y no comerciales. COSMAS II le permite utilizar el caso DeReKo para resolver problemas científicos específicos.
Lenguaje del cuerpo | |
---|---|
corpus ingleses |
|
corpus en ruso |
|
Corporación en otros idiomas |
|
Organizaciones |