Corpus escrito de la lengua tártara

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 25 de diciembre de 2017; las comprobaciones requieren 2 ediciones .

Corpus escrito de la lengua tártara

URL	corpus.tatar
tipo de sitio	corpus de textos
Idiomas)	Tártaro/Ruso/Inglés
ubicación del servidor	Tartaristán
Autor	Sayhunov M.R., Ibragimov T.I., Khusainov R.R.
Comienzo del trabajo	2011
Estado actual	trabaja y se desarrolla

El corpus escrito del idioma tártaro es un corpus electrónico del idioma tártaro, disponible para uso en línea. El corpus está destinado a quienes estén interesados en el sistema, el estado y las perspectivas de la lengua tártara. Es necesario para los lingüistas que estudian la lengua tártara en el marco de la lingüística de corpus.
El sitio fue inaugurado el 15 de marzo de 2012. La dirección actual es http://corpus.tatar . Archivado el 26 de abril de 2016 en Wayback Machine .
Disponible en tártaro, ruso e inglés.

Volumen del casco

Desde finales de 2014, el volumen del corpus tiene más de 116 millones de palabras, que componen más de 10 millones de oraciones, el número de formas de palabras diferentes se acerca a 1,5 millones.
Los textos en el corpus se almacenan como oraciones separadas para poder impedir su copia.

Acceso

El acceso al uso del edificio es gratuito.

Acerca de la construcción de un cuerpo

La creación del caso comenzó en 2010 por un grupo de entusiastas. Fue dictado por la necesidad de desarrollar un sistema para la traducción automática de textos del tártaro a un idioma extranjero y viceversa, así como un sistema para la síntesis automática y el reconocimiento del habla tártara sobre un tema determinado.

Importancia práctica y posibilidades de uso

El corpus puede ser utilizado por lingüistas que estudian el idioma tártaro como parte de la lingüística del corpus, así como para enseñar el idioma y como referencia al compilar varios documentos.
El corpus le permite ver el contexto, determinar la frecuencia de aparición y encontrar palabras con las propiedades requeridas.

Búsqueda estadística contextual

Este tipo de búsqueda Archivado el 26 de abril de 2016 en Wayback Machine le permite ver los contextos derecho, izquierdo y semántico de la palabra buscada ordenada por frecuencia.
Contexto derecho: palabras ubicadas inmediatamente después de la palabra actual.
El contexto de la izquierda son las palabras inmediatamente anteriores a la palabra actual.
Contexto semántico: palabras ubicadas en la misma oración con la palabra actual, es decir, que tienen una conexión semántica con ella en un grado u otro.

Búsqueda morfológica compleja

En 2014 se realizó el marcaje morfológico del Cuerpo. El metalenguaje de las marcas gramaticales se basa en el sistema de "etiquetas" para las lenguas turcas, desarrollado por el proyecto internacional Apertium . Archivado el 14 de abril de 2016 en Wayback Machine . Como parte de este proyecto, se está creando un sistema de traducción automática para una gran cantidad de idiomas. Los principales argumentos a favor de elegir el etiquetador morfológico de Apertium para marcar el Corpus Escrito son:
— alta calidad de la anotación morfológica;
- Apertura absoluta de este proyecto: todos los códigos fuente y desarrollos están disponibles públicamente para todos de forma gratuita. El sistema de búsqueda morfológica compleja
desarrollado por nosotros en 2015-2016 Archivado el 26 de abril de 2016 en Wayback Machine le permite buscar en el corpus en función de varias combinaciones de parámetros tales como forma de palabra, lema, un conjunto de etiquetas morfológicas (gramaticales), el principio, medio, final de una palabra con indicación de las posibles distancias entre los lexemas.

Sistema de síntesis de voz tártaro

En el sitio web del Corpus escrito de la lengua tártara, es posible escuchar oraciones encontradas y texto libre . Archivado el 26 de abril de 2016 en Wayback Machine .

Estadísticas

El sitio web de Corpus alberga varios datos estadísticos Copia de archivo con fecha del 26 de abril de 2016 en Wayback Machine , que los autores reciben a medida que se procesan los datos.

Desventajas y perspectivas de desarrollo

No hay una versión fuera de línea del corpus.
No hay posibilidad de buscar con homonimia eliminada.

Compiladores

Los creadores del corpus son:

Sayhunov M. R.
Ibragimov T. I. (Doctorado en Filología, Profesor Asociado, Departamento de Lingüística Aplicada, KFU)
Khusainov R. R. (ingeniero, empresa GDC)

Asistido por:

Centro Republicano para el Desarrollo de la Cultura Tradicional
Departamentos de lenguas ugrofinesas de la Universidad de Turku (Finlandia)
RX5 empresas
Redacción de la revista de información científica "Fan һәm Tel"

Literatura [1]

Tatar TV yazma corpora // “Madani җomga” (2012 No. 20) Copia de archivo fechada el 26 de abril de 2016 en Wayback Machine
Tatar telen yazma corpora // "Fan һәm Tel" (2012 No. 1-2) Copia de archivo del 26 de abril de 2016 en Wayback Machine
Tatar teleneң yazma corpora һәm tel messәlәlәre // "Madani җomga" (2012 No. 32) Copia de archivo fechada el 26 de abril de 2016 en Wayback Machine
A la construcción de un modelo estructural y funcional de la orientación de valores de la etnia tártara (basado en los materiales del corpus escrito de la lengua tártara) // Idiomas de Rusia y países vecinos como extranjeros: enseñanza y aprendizaje: materiales de la Conferencia Internacional Científica y Práctica (28 y 29 de noviembre de 2013) Copia de archivo el 26 de abril de 2016 en Wayback Machine
Corpus escrito del idioma tártaro: ideas, problemas, soluciones // Patrimonio cultural inmaterial de los pueblos túrquicos como objeto de preservación: Colección de materiales de la Conferencia Internacional Científica y Práctica (16-19 de julio de 2014) Copia de archivo del 26 de abril , 2016 en la Wayback Machine
Corpus escrito del idioma tártaro con expresión de oraciones visualizadas como herramienta para la investigación lingüística // Filología Comparada y Polilingüismo: Actas de la Conferencia Científica y Práctica de toda Rusia (Kazan, 19-21 de noviembre de 2014) Copia de archivo del 26 de abril de 2016 en la Wayback Machine
El corpus escrito del idioma tártaro: características estructurales y funcionales // Problemas reales de la dialectología de los idiomas de los pueblos de Rusia: Actas de la XIV Conferencia Científica de toda Rusia (Ufa, 20-22 de noviembre de 2014) Copia de archivo del 25 de abril de 2016 en la Wayback Machine
Tatar tele, Tatarlar һәm asimilation of kүreneshe // “Fanni Tatarstan” (2015 No. 1) Copia de archivo del 25 de abril de 2016 en Wayback Machine
La situación lingüística de una comunidad étnica (sobre el material del Corpus de lengua tártara escrita) // "Tatarica" (2015 No. 4) Archivado el 26 de abril de 2016 en Wayback Machine .
El estado lingüístico de la comunidad étnica basado en el material del corpus escrito de la lengua tártara // "Tatarica" (2015 No. 4) Copia de archivo del 26 de abril de 2016 en Wayback Machine
Fonología del idioma tártaro en términos de teoría de fonemas por I. A. Baudouin de Courtenay // I. A. Baudouin de Courtenay and World Linguistics: International Conference: V Baudouin Readings (Universidad Federal de Kazan, 12-15 de octubre de 2015) Copia de archivo del 26 de abril de 2016 en la máquina del camino

Notas

↑ Corpus escrito de la lengua tártara . Consultado el 22 de abril de 2016. Archivado desde el original el 25 de abril de 2016. (indefinido)

Enlaces

Corpus escrito del idioma tártaro - Sitio web oficial Archivado el 26 de abril de 2016 en Wayback Machine .