Corpus escrito de la lengua tártara | |
---|---|
URL | corpus.tatar |
tipo de sitio | corpus de textos |
Idiomas) | Tártaro/Ruso/Inglés |
ubicación del servidor | Tartaristán |
Autor | Sayhunov M.R., Ibragimov T.I., Khusainov R.R. |
Comienzo del trabajo | 2011 |
Estado actual | trabaja y se desarrolla |
El corpus escrito del idioma tártaro es un corpus electrónico del idioma tártaro, disponible para uso en línea. El corpus está destinado a quienes estén interesados en el sistema, el estado y las perspectivas de la lengua tártara. Es necesario para los lingüistas que estudian la lengua tártara en el marco de la lingüística de corpus.
El sitio fue inaugurado el 15 de marzo de 2012. La dirección actual es http://corpus.tatar . Archivado el 26 de abril de 2016 en Wayback Machine .
Disponible en tártaro, ruso e inglés.
Desde finales de 2014, el volumen del corpus tiene más de 116 millones de palabras, que componen más de 10 millones de oraciones, el número de formas de palabras diferentes se acerca a 1,5 millones.
Los textos en el corpus se almacenan como oraciones separadas para poder impedir su copia.
El acceso al uso del edificio es gratuito.
La creación del caso comenzó en 2010 por un grupo de entusiastas. Fue dictado por la necesidad de desarrollar un sistema para la traducción automática de textos del tártaro a un idioma extranjero y viceversa, así como un sistema para la síntesis automática y el reconocimiento del habla tártara sobre un tema determinado.
El corpus puede ser utilizado por lingüistas que estudian el idioma tártaro como parte de la lingüística del corpus, así como para enseñar el idioma y como referencia al compilar varios documentos.
El corpus le permite ver el contexto, determinar la frecuencia de aparición y encontrar palabras con las propiedades requeridas.
Este tipo de búsqueda Archivado el 26 de abril de 2016 en Wayback Machine le permite ver los contextos derecho, izquierdo y semántico de la palabra buscada ordenada por frecuencia.
Contexto derecho: palabras ubicadas inmediatamente después de la palabra actual.
El contexto de la izquierda son las palabras inmediatamente anteriores a la palabra actual.
Contexto semántico: palabras ubicadas en la misma oración con la palabra actual, es decir, que tienen una conexión semántica con ella en un grado u otro.
En 2014 se realizó el marcaje morfológico del Cuerpo. El metalenguaje de las marcas gramaticales se basa en el sistema de "etiquetas" para las lenguas turcas, desarrollado por el proyecto internacional Apertium . Archivado el 14 de abril de 2016 en Wayback Machine . Como parte de este proyecto, se está creando un sistema de traducción automática para una gran cantidad de idiomas. Los principales argumentos a favor de elegir el etiquetador morfológico de Apertium para marcar el Corpus Escrito son:
— alta calidad de la anotación morfológica;
- Apertura absoluta de este proyecto: todos los códigos fuente y desarrollos están disponibles públicamente para todos de forma gratuita. El sistema de búsqueda morfológica compleja
desarrollado por nosotros en 2015-2016 Archivado el 26 de abril de 2016 en Wayback Machine le permite buscar en el corpus en función de varias combinaciones de parámetros tales como forma de palabra, lema, un conjunto de etiquetas morfológicas (gramaticales), el principio, medio, final de una palabra con indicación de las posibles distancias entre los lexemas.
En el sitio web del Corpus escrito de la lengua tártara, es posible escuchar oraciones encontradas y texto libre . Archivado el 26 de abril de 2016 en Wayback Machine .
El sitio web de Corpus alberga varios datos estadísticos Copia de archivo con fecha del 26 de abril de 2016 en Wayback Machine , que los autores reciben a medida que se procesan los datos.
Los creadores del corpus son:
Asistido por: