La traducción automática híbrida (HMT) es la integración de diferentes enfoques de traducción automática de las posibles opciones de MT: [1]
Se espera que la arquitectura híbrida combine los beneficios de estos enfoques. [1] En la actualidad, la traducción automática está representada por dos tecnologías principales: la traducción automática estadística (SMT) y la traducción automática basada en reglas (RBMT). [2]
Este enfoque de la traducción automática híbrida implica ejecutar varios sistemas de traducción automática en paralelo. El resultado final se obtiene combinando los resultados de todos los subsistemas. Los subsistemas más comunes utilizados en estos sistemas son la traducción estadística y basada en reglas, pero se han explorado otras combinaciones. Por ejemplo, los investigadores de la Universidad Carnegie Mellon han tenido cierto éxito al fusionar los subsistemas de traducción basada en ejemplos, transferencia, conocimiento y estadística en un solo sistema de traducción automática.
Generación de reglas estadísticasEste enfoque implica el uso de datos estadísticos para crear reglas léxicas y sintácticas. Luego, la entrada se procesa utilizando estas reglas como si fuera un traductor basado en reglas. Este enfoque intenta evitar la tarea compleja y lenta de crear un conjunto de reglas lingüísticas detalladas y completas extrayéndolas de un corpus de aprendizaje. Este enfoque todavía adolece de muchos de los problemas de la traducción automática estadística normal, a saber, que la precisión de la traducción dependerá en gran medida de la similitud del texto de entrada con el del corpus de entrenamiento. Como resultado, este método ha tenido el mayor éxito en aplicaciones de dominio específico y tiene las mismas dificultades de adaptación de dominio que muchos sistemas estadísticos de traducción automática.
MultipasoEste enfoque implica procesar secuencialmente la entrada varias veces. La técnica más común utilizada en los sistemas de traducción automática de varias pasadas es el preprocesamiento de entrada con un sistema de traducción automática basado en reglas. La salida del preprocesador basado en reglas se pasa a un sistema de traducción automática estadística, que produce el resultado final. Esta técnica se utiliza para limitar la cantidad de información que debe tener en cuenta el sistema estadístico, lo que reduce considerablemente la potencia de cálculo requerida. También elimina la necesidad de que un sistema basado en reglas sea un sistema de traducción completo para un idioma, lo que reduce en gran medida la cantidad de esfuerzo humano y mano de obra necesarios para construir el sistema.
Basado en la certezaEste enfoque se diferencia de otros enfoques híbridos en que, en la mayoría de los casos, solo se utiliza una tecnología de traducción. Para cada oración traducida, se genera una puntuación de confianza, en base a la cual puede decidir si probar una tecnología de traducción secundaria o continuar trabajando con la traducción original. Omniscien Technologies es una empresa que utiliza este enfoque, siendo NMT la tecnología principal, pero recurriendo a SMT si la puntuación de confianza está por debajo de un umbral o la longitud de la oración es muy corta (por ejemplo, 1 o 2 palabras). SMT también se usa cuando los patrones de error comunes, como varias palabras repetidas, aparecen en secuencia, como suele ser el caso con NMT cuando se confunde el mecanismo de atención.
La tecnología de traducción híbrida implica el uso de métodos estadísticos para construir automáticamente bases de datos de vocabulario basadas en corpus paralelos, generar varias traducciones posibles tanto a nivel léxico como a nivel de la estructura sintáctica de la oración en el idioma de destino, aplicar la posedición en modo automático y seleccionar la mejor traducción (la más probable) de las posibles sobre la base de un modelo lingüístico construido sobre un corpus específico de la lengua meta. [2]
El sistema híbrido (SMT + RBMT) difiere: (cláusula 2.4.3 [4] )
La MT estadística busca utilizar datos lingüísticos, mientras que los sistemas con un enfoque "clásico" basado en reglas aplican métodos estadísticos. [2] La adición de algunas reglas "transversales", es decir, la creación de sistemas híbridos, es algo[ cuanto? ] mejora la calidad de las traducciones, especialmente cuando la cantidad de datos de entrada utilizados en la construcción de archivos de índice para almacenar información lingüística de un traductor automático basado en N-gramas es insuficiente. [diez]
Combinación de RBMT y traducción automática estadística:
Etapas de la tecnología Hybrid SMT y RBMT: [2]
En la traducción automática híbrida, el sistema RBMT se complementa con dos componentes [14] : un módulo de posedición estadística y un módulo de modelo de lenguaje. La posedición estadística le permite suavizar la traducción RB, acercándola al lenguaje natural, mientras mantiene una estructura clara del texto sintetizado. Los modelos de lenguaje se utilizan para evaluar la fluidez y la corrección gramatical de las traducciones generadas por el sistema híbrido.
Arquitectura típica de HMT: [14]
La combinación de métodos de traducción aparentemente incompatibles, a saber, la tecnología clásica de traducción automática, la traducción automática basada en reglas (MT basada en reglas) y la traducción automática estadística (MT estadística), se puede implementar en una tecnología de traducción híbrida. [15] La diferencia fundamental de la nueva solución es que, en lugar de una opción de traducción, el programa genera muchas traducciones, cuyo número en una oración, según la ambigüedad de las palabras, las construcciones y los resultados del procesamiento estadístico, puede alcanzar varios cientos. Además, el modelo probabilístico del lenguaje le permite elegir la más probable de las opciones propuestas.
Algoritmo típico de HMT: [2]
¿Qué ofrece la tecnología de traducción híbrida?
Beneficios de RBMT: [16]
Almacenado:
Desventajas de RBMT:
Las desventajas se nivelan mediante el uso de corpus paralelos y métodos estadísticos.
Ventajas de SMT: [17]
Desventajas de SMT:
la traducción automática | Enfoques de|
---|---|
|