Proyecto Tatoeba | |
---|---|
URL | tatoeba.org |
Comercial | No |
tipo de sitio | Diccionario abierto de frases en línea multilingüe |
Registro | Obligatorio solo para editar |
Idiomas) | 19 idiomas de interfaz, incluido el ruso ; contenido en 130 idiomas (mayo de 2013) |
Dueño | Trang Ho |
Autor | Trang Ho |
Comienzo del trabajo | 2006 |
Estado actual | real [1] |
Archivos multimedia en Wikimedia Commons |
El proyecto Tatoeba (de la palabra japonesa tatoeba ( Jap. 例えば, "por ejemplo") es un sitio para intercambiar ejemplos de frases en todos los idiomas disponibles del mundo. A diferencia de los diccionarios en línea que almacenan traducciones de palabras, el proyecto se centra en construcciones semánticas sólidas : frases, oraciones, proverbios, etc., sus contrapartes acumuladas en diferentes idiomas se comparan entre sí de forma manual o automática. Una característica del proyecto es su apertura y disponibilidad general: Tatoeba se declara como no comercial project [2] , y cualquier persona que lo desee, independientemente de su especialización y afiliación lingüística, puede realizar cambios en la base de datos del proyecto (añadir y, en algunos casos, editar frases existentes, corregir errores).
Con estas características, el proyecto Tatoeba poco a poco está ganando reconocimiento como un medio único para el aprendizaje autodirigido [3] . En diciembre de 2010, el proyecto admitía 81 idiomas y proporcionaba 11 opciones de interfaz de idioma; en noviembre de 2011 estas cifras eran 94 y 17 respectivamente; en enero de 2014—132 y 19.
La creadora y líder del proyecto es Chang Ho ( Trang Ho ), una francesa de origen vietnamita [4] . Los primeros ejemplos del sitio están fechados el 30 de septiembre de 2007 [5] . La oración #1 es del usuario sysko: es la frase china "¡Veamos!" [6] .
El principio del proyecto es recopilar y vincular traducciones de una frase en particular en un idioma determinado. El sistema analiza todos los datos recibidos. Si el constructo A se traduce a otro idioma como constructo B y éste, a su vez, como constructo C, los tres se mostrarán como una cadena de traducciones directas o indirectas, que de forma predeterminada se mostrarán al buscar cualquiera de los fragmentos. de las frases A, B y C correspondientes (el número de idiomas mostrados puede estar limitado por usuarios individuales).
Todos pueden ver el material acumulado, solo los participantes registrados pueden agregarlo y editarlo. Los miembros con experiencia pueden recibir el estado de "confiable" ("usuario de confianza"). Da acceso a las etiquetas y también le permite vincular las traducciones adecuadas entre sí o "cortar" las inadecuadas. Un círculo limitado de participantes del proyecto tiene el estatus de "guardianes" (mantenedores del corpus), que tienen poderes administrativos.
A diferencia de los libros de texto, los diccionarios en línea y los foros, el proyecto Tatoeba no está dirigido a una audiencia lingüística específica o una base de usuarios profesionales. Cualquier persona con conocimientos básicos de alfabetización puede registrar y completar ejemplos de frases en su idioma nativo o de destino [2] . Para el trabajo, se ofrece a los usuarios la gama completa de idiomas disponibles o la posibilidad de leer selectivamente con indicación del idioma original y/o traducción. Al mismo tiempo, para sus propias traducciones a Tatoeba, se recomienda centrarse únicamente en el original, ya que las traducciones relacionadas pueden ser inexactas [2] . La discusión de los matices de la traducción es posible allí mismo en los comentarios a cada una de las propuestas.
El material así acumulado puede distribuirse gratuitamente para todo tipo de uso, incluido el comercial, cuando se envía a la fuente bajo la licencia CC-BY [7] . El sitio tiene enlaces para descargar todo el corpus de materiales [8] o partes de él [9] . La única restricción de contenido es la prohibición de frases que tienen derechos de autor según la ley francesa.
A cada frase se le asigna un número de serie cuando se envía a la plataforma, pero algunas contribuciones (traducción automática, duplicados, frases inconclusas, etc.) se eliminan posteriormente. El porcentaje de eliminación se puede calcular comparando el último número de serie (abra la frase superior en la lista de contribuciones recientes en la página principal) con el contador de frases en la página principal. Por ejemplo, el 12 de diciembre. En 2011 fueron 1295340 y 1241274, respectivamente.
Las frases gramaticalmente correctas que no concuerden bien como traducciones se pueden dividir (dejar de aparecer como una cadena), pero no eliminarlas. Se guardan en la base del proyecto como puntos de partida para nuevas traducciones. El historial de modificaciones de cada una de las frases, así como las conexiones/desconexiones entre ellas, se adjunta a cada frase y es visible para todos los usuarios.
Desde julio de 2019, el sitio admite técnicamente 342 idiomas. [10] El recurso inicial para el sitio fue el Corpus de ejemplos de idiomas en inglés y japonés del Prof. Yasuhiro Tanaka . En diciembre de 2010, Tatoeba contenía más de 648.000 oraciones; en abril de 2012 esta cifra casi alcanzaba los 1,5 millones, el 12 de enero eran 2 037 379. El mayor número de frases (en orden decreciente, febrero de 2013):
Además, hay más de mil frases en los siguientes idiomas: árabe , islandés , hindi , uigur , vietnamita , noruego ( bokmål ), bielorruso , shanghainés y chino cantonés .
Junto a las lenguas naturales, aparecen en el proyecto lenguas artificiales : Esperanto , Klingon , Interlingua , CycL , Tokipona .
Inicialmente, para introducir un nuevo idioma, bastaba con contactar a los administradores e ingresar cinco ejemplos en él. Posteriormente, la certificación del idioma introducido según la norma ISO 639-3 se convirtió en un requisito necesario . Al solicitar la adición de una nueva sección de idioma, puede ofrecer un símbolo de bandera que lo designará en el sitio; este signo gráfico no está obligado a representar un estado específico de moderno o preexistente [11] .
Además de la transmisión escrita de frases, la plataforma Tatoeba recoge su pronunciación. (Por lo tanto, se prohíbe a los participantes ingresar oraciones con variantes de formas gramaticales y léxicas entre paréntesis que requieran más de una opción de lectura). Para participar en la reposición de la sección de audio es necesario superar una acreditación que acredite la calidad de los ejemplos grabados. [1] Por esta razón, las secciones de audio de Tatoeba tardan relativamente en completarse.
La apertura y accesibilidad, combinadas con la facilidad de uso del sitio, ha llevado a un aumento constante de su popularidad. (El gráfico de actividad del sitio web [12] registra el número de ejemplos de nuevos idiomas desde el 30 de septiembre de 2007). En diciembre de 2010, el número de visitantes diarios fue de aprox. 1.800 [13] que sumaban de uno y medio a dos mil ejemplares al día. Para 2013, la segunda cifra había aumentado a 2,5-3 mil.
Tatoeba promueve la apertura y la libertad de Internet en el proyecto Mozilla Drumbeat , entre varios cientos de otros proyectos participantes.
Tatoeba contribuye a muchos diccionarios y traductores electrónicos, como el diccionario electrónico japonés WWWJDIC [14] . Tatoeba colabora con el proyecto Shtooka , una colección gratuita de grabaciones de audio de palabras, frases, proverbios , etc. en varios idiomas [15] . El material de la plataforma se utiliza en los diccionarios electrónicos Glosbe [16] .
Sobre la base de Tatoeba, se desarrolló una aplicación para el autoaprendizaje de idiomas utilizando tarjetas flash de computadora TaToTen [17] .
Lenguaje del cuerpo | |
---|---|
corpus ingleses |
|
corpus en ruso |
|
Corporación en otros idiomas |
|
Organizaciones |