Bitexto

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 5 de junio de 2020; la verificación requiere 1 edición .

El texto paralelo ( bitexto ) es un texto en un idioma junto con su traducción a otro idioma. La "alineación de texto paralelo" es la identificación de oraciones coincidentes en ambas mitades del texto paralelo. Las grandes colecciones de textos paralelos se denominan "corpus paralelos" (eng. corpus paralelos ). La alineación paralela de corpus a nivel de oración es un requisito previo necesario para varios aspectos de la investigación lingüística . Durante el proceso de traducción, las oraciones se pueden dividir, fusionar, eliminar, insertar o reordenar. Como resultado, la alineación a menudo se convierte en una tarea difícil.

Bitexto

En el campo de la investigación de la traducción, un "bitexto" es un documento combinado que consta de versiones en el idioma de origen y de destino del texto correspondiente. Los bitextos se crean utilizando programas informáticos especiales llamados "herramientas de alineación" ( herramienta de alineación ) o "herramientas de bitexto" ( herramienta de bitexto ), que le permiten alinear automáticamente la versión original del texto y su traducción. Dichos programas, por regla general, combinan dos textos (original y traducción) para cada oración. La colección de bitextos se denomina "base de datos de bitextos" o "corpus bilingüe" y se puede utilizar como referencia y para encontrar las combinaciones adecuadas.

Historia

La idea de bitexto pertenece a Brian Harris, quien primero escribió un estudio sobre este concepto en 1988, y posteriormente fue desarrollado por un grupo de científicos de la Universidad de Montreal (Université de Montréal), llamado RALI ( Recherche appliquée en linguistique informatique o Investigación Aplicada en Lingüística Computacional - "Investigación Aplicada en Lingüística Computacional"). El grupo estaba formado por programadores y lingüistas que estudiaban el procesamiento natural de textos. Los promotores notables del concepto Bitext son Pierre Isabelle y Claude Bédard.

Bitextos y memoria de traducción

La idea de "bitexto" tiene mucho en común con el concepto de memoria de traducción . La principal diferencia entre los dos es que la memoria de traducción es una base de datos en la que los segmentos de texto (oraciones correspondientes) se organizan de tal manera que no están relacionados con el contexto original, es decir, se pierde la secuencia original de oraciones. El bitexto conserva la secuencia original de oraciones. El formato estándar para intercambiar bases de datos de memorias de traducción entre diferentes sistemas de traducción automática es el formato TMX (un diccionario XML publicado por LISA (Localization Industries Association). TMX permite conservar el orden original de las oraciones.

Los bitextos se crean como una herramienta de referencia para consultas de traductores especializados, no como programas automatizados. Por lo tanto, pequeños errores de alineación o imprecisiones que pueden conducir a fallas en la memoria de traducción no les importan.

Véase también

Notas

Literatura

Enlaces

Corpus paralelos en Internet

Programas para alineación de textos paralelos

Documentación