Corpus escrito de la lengua tártara

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 25 de diciembre de 2017; las comprobaciones requieren 2 ediciones .
Corpus escrito de la lengua tártara
URL corpus.tatar
tipo de sitio corpus de textos
Idiomas) Tártaro/Ruso/Inglés
ubicación del servidor Tartaristán
Autor Sayhunov M.R., Ibragimov T.I., Khusainov R.R.
Comienzo del trabajo 2011
Estado actual trabaja y se desarrolla

El corpus escrito del idioma tártaro  es un corpus electrónico del idioma tártaro, disponible para uso en línea. El corpus está destinado a quienes estén interesados ​​en el sistema, el estado y las perspectivas de la lengua tártara. Es necesario para los lingüistas que estudian la lengua tártara en el marco de la lingüística de corpus.
El sitio fue inaugurado el 15 de marzo de 2012. La dirección actual es http://corpus.tatar . Archivado el 26 de abril de 2016 en Wayback Machine .
Disponible en tártaro, ruso e inglés.

Volumen del casco

Desde finales de 2014, el volumen del corpus tiene más de 116 millones de palabras, que componen más de 10 millones de oraciones, el número de formas de palabras diferentes se acerca a 1,5 millones.
Los textos en el corpus se almacenan como oraciones separadas para poder impedir su copia.

Acceso

El acceso al uso del edificio es gratuito.

Acerca de la construcción de un cuerpo

La creación del caso comenzó en 2010 por un grupo de entusiastas. Fue dictado por la necesidad de desarrollar un sistema para la traducción automática de textos del tártaro a un idioma extranjero y viceversa, así como un sistema para la síntesis automática y el reconocimiento del habla tártara sobre un tema determinado.

Importancia práctica y posibilidades de uso

El corpus puede ser utilizado por lingüistas que estudian el idioma tártaro como parte de la lingüística del corpus, así como para enseñar el idioma y como referencia al compilar varios documentos.
El corpus le permite ver el contexto, determinar la frecuencia de aparición y encontrar palabras con las propiedades requeridas.

Búsqueda estadística contextual

Este tipo de búsqueda Archivado el 26 de abril de 2016 en Wayback Machine le permite ver los contextos derecho, izquierdo y semántico de la palabra buscada ordenada por frecuencia.
Contexto derecho: palabras ubicadas inmediatamente después de la palabra actual.
El contexto de la izquierda son las palabras inmediatamente anteriores a la palabra actual.
Contexto semántico: palabras ubicadas en la misma oración con la palabra actual, es decir, que tienen una conexión semántica con ella en un grado u otro.

Búsqueda morfológica compleja

En 2014 se realizó el marcaje morfológico del Cuerpo. El metalenguaje de las marcas gramaticales se basa en el sistema de "etiquetas" para las lenguas turcas, desarrollado por el proyecto internacional Apertium . Archivado el 14 de abril de 2016 en Wayback Machine . Como parte de este proyecto, se está creando un sistema de traducción automática para una gran cantidad de idiomas. Los principales argumentos a favor de elegir el etiquetador morfológico de Apertium para marcar el Corpus Escrito son:
— alta calidad de la anotación morfológica;
- Apertura absoluta de este proyecto: todos los códigos fuente y desarrollos están disponibles públicamente para todos de forma gratuita. El sistema de búsqueda morfológica compleja
desarrollado por nosotros en 2015-2016 Archivado el 26 de abril de 2016 en Wayback Machine le permite buscar en el corpus en función de varias combinaciones de parámetros tales como forma de palabra, lema, un conjunto de etiquetas morfológicas (gramaticales), el principio, medio, final de una palabra con indicación de las posibles distancias entre los lexemas.

Sistema de síntesis de voz tártaro

En el sitio web del Corpus escrito de la lengua tártara, es posible escuchar oraciones encontradas y texto libre . Archivado el 26 de abril de 2016 en Wayback Machine .

Estadísticas

El sitio web de Corpus alberga varios datos estadísticos Copia de archivo con fecha del 26 de abril de 2016 en Wayback Machine , que los autores reciben a medida que se procesan los datos.

Desventajas y perspectivas de desarrollo

Compiladores

Los creadores del corpus son:

Asistido por:

Literatura [1]

Notas

  1. Corpus escrito de la lengua tártara . Consultado el 22 de abril de 2016. Archivado desde el original el 25 de abril de 2016.

Enlaces