Traducción automática híbrida

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 29 de marzo de 2021; las comprobaciones requieren 12 ediciones .

La traducción automática híbrida (HMT) es la integración de diferentes enfoques de traducción automática de las posibles opciones de MT: [1]

Traducción automática basada en reglas (RBMT) - Traducción automática basada en reglas .
Traducción automática basada en corpus (CBMT): traducción automática en corpus de texto .
- Traducción automática basada en ejemplos (EBMT )
- Traducción automática estadística (SMT) - Traducción automática estadística .

Se espera que la arquitectura híbrida combine los beneficios de estos enfoques. [1] En la actualidad, la traducción automática está representada por dos tecnologías principales: la traducción automática estadística (SMT) y la traducción automática basada en reglas (RBMT). [2]

Desarrolladores de software Hybrid MT

AppTek HMT [3] "TranSphere®": integración completa de las metodologías SMT y RBMT.
Asia Online [4] "Tecnología de lenguaje humano OmnifluentTM de SAIC".
LinguaSys [5] "Motor de traducción automática de Carabao".
Systran [6] [7] "Motor híbrido de SYSTRAN"
Universidad Politécnica de Valencia [8]
PROMT [2] PROMT Deep Hybrid [9]

Aproximaciones

En capas

Este enfoque de la traducción automática híbrida implica ejecutar varios sistemas de traducción automática en paralelo. El resultado final se obtiene combinando los resultados de todos los subsistemas. Los subsistemas más comunes utilizados en estos sistemas son la traducción estadística y basada en reglas, pero se han explorado otras combinaciones. Por ejemplo, los investigadores de la Universidad Carnegie Mellon han tenido cierto éxito al fusionar los subsistemas de traducción basada en ejemplos, transferencia, conocimiento y estadística en un solo sistema de traducción automática.

Generación de reglas estadísticas

Este enfoque implica el uso de datos estadísticos para crear reglas léxicas y sintácticas. Luego, la entrada se procesa utilizando estas reglas como si fuera un traductor basado en reglas. Este enfoque intenta evitar la tarea compleja y lenta de crear un conjunto de reglas lingüísticas detalladas y completas extrayéndolas de un corpus de aprendizaje. Este enfoque todavía adolece de muchos de los problemas de la traducción automática estadística normal, a saber, que la precisión de la traducción dependerá en gran medida de la similitud del texto de entrada con el del corpus de entrenamiento. Como resultado, este método ha tenido el mayor éxito en aplicaciones de dominio específico y tiene las mismas dificultades de adaptación de dominio que muchos sistemas estadísticos de traducción automática.

Multipaso

Este enfoque implica procesar secuencialmente la entrada varias veces. La técnica más común utilizada en los sistemas de traducción automática de varias pasadas es el preprocesamiento de entrada con un sistema de traducción automática basado en reglas. La salida del preprocesador basado en reglas se pasa a un sistema de traducción automática estadística, que produce el resultado final. Esta técnica se utiliza para limitar la cantidad de información que debe tener en cuenta el sistema estadístico, lo que reduce considerablemente la potencia de cálculo requerida. También elimina la necesidad de que un sistema basado en reglas sea un sistema de traducción completo para un idioma, lo que reduce en gran medida la cantidad de esfuerzo humano y mano de obra necesarios para construir el sistema.

Basado en la certeza

Este enfoque se diferencia de otros enfoques híbridos en que, en la mayoría de los casos, solo se utiliza una tecnología de traducción. Para cada oración traducida, se genera una puntuación de confianza, en base a la cual puede decidir si probar una tecnología de traducción secundaria o continuar trabajando con la traducción original. Omniscien Technologies es una empresa que utiliza este enfoque, siendo NMT la tecnología principal, pero recurriendo a SMT si la puntuación de confianza está por debajo de un umbral o la longitud de la oración es muy corta (por ejemplo, 1 o 2 palabras). SMT también se usa cuando los patrones de error comunes, como varias palabras repetidas, aparecen en secuencia, como suele ser el caso con NMT cuando se confunde el mecanismo de atención.

Tecnología híbrida "SMT y RBMT"

La tecnología de traducción híbrida implica el uso de métodos estadísticos para construir automáticamente bases de datos de vocabulario basadas en corpus paralelos, generar varias traducciones posibles tanto a nivel léxico como a nivel de la estructura sintáctica de la oración en el idioma de destino, aplicar la posedición en modo automático y seleccionar la mejor traducción (la más probable) de las posibles sobre la base de un modelo lingüístico construido sobre un corpus específico de la lengua meta. [2]

El sistema híbrido (SMT + RBMT) difiere: (cláusula 2.4.3 [4] )

MT basada en reglas con un enfoque estadístico de posprocesamiento.
MT estadística con preprocesamiento basado en reglas.
Integración completa de RBMT y SMT. [3]

La MT estadística busca utilizar datos lingüísticos, mientras que los sistemas con un enfoque "clásico" basado en reglas aplican métodos estadísticos. [2] La adición de algunas reglas "transversales", es decir, la creación de sistemas híbridos, es algo[ cuanto? ] mejora la calidad de las traducciones, especialmente cuando la cantidad de datos de entrada utilizados en la construcción de archivos de índice para almacenar información lingüística de un traductor automático basado en N-gramas es insuficiente. [diez]

Combinación de RBMT y traducción automática estadística:

Análisis lingüístico de la oración de entrada;
Generación de variantes de traducción;
Uso de tecnologías estadísticas;
Evaluación y selección de la mejor opción de traducción utilizando el Modelo de Lenguaje. [11] [12] [13]

Etapas de la tecnología Hybrid SMT y RBMT: [2]

Entrenamiento RBMT basado en un corpus paralelo utilizando tecnologías estadísticas;
Funcionamiento basado en un sistema entrenado.

Arquitectura de la tecnología Híbrida "SMT y RBMT"

En la traducción automática híbrida, el sistema RBMT se complementa con dos componentes [14] : un módulo de posedición estadística y un módulo de modelo de lenguaje. La posedición estadística le permite suavizar la traducción RB, acercándola al lenguaje natural, mientras mantiene una estructura clara del texto sintetizado. Los modelos de lenguaje se utilizan para evaluar la fluidez y la corrección gramatical de las traducciones generadas por el sistema híbrido.

Arquitectura típica de HMT: [14]

vivienda paralela;
Educación;
modelo de lenguaje;
Datos para posedición;
Reglas de síntesis;
Glosario de terminología.
Explotación:
- - Traducción híbrida.

Cómo funciona HMT

La combinación de métodos de traducción aparentemente incompatibles, a saber, la tecnología clásica de traducción automática, la traducción automática basada en reglas (MT basada en reglas) y la traducción automática estadística (MT estadística), se puede implementar en una tecnología de traducción híbrida. [15] La diferencia fundamental de la nueva solución es que, en lugar de una opción de traducción, el programa genera muchas traducciones, cuyo número en una oración, según la ambigüedad de las palabras, las construcciones y los resultados del procesamiento estadístico, puede alcanzar varios cientos. Además, el modelo probabilístico del lenguaje le permite elegir la más probable de las opciones propuestas.

Algoritmo típico de HMT: [2]

Creación de un diccionario terminológico a partir de textos paralelos para RBMT de forma automática.
Generación de todas las posibles traducciones en base a:
- - variantes léxicas;
- — opciones para la síntesis de diferentes diseños;
- - aplicar la posedición.
Elección de la mejor opción, a través del Modelo de Lenguaje implementado.

Ventajas y desventajas

¿Qué ofrece la tecnología de traducción híbrida?

Rápida configuración automática basada en las Memorias de Traducción del cliente;
Precisión terminológica de la traducción, así como la unidad de estilo;
Obtención de datos útiles adicionales - Diccionario terminológico bilingüe.

Ventajas y desventajas de la traducción automática basada en reglas

Beneficios de RBMT: [16]

Almacenado:

— precisión sintáctica y morfológica;
- estabilidad y previsibilidad del resultado;
- la capacidad de personalizar el área temática.

Desventajas de RBMT:

— la complejidad y duración del desarrollo;
— la necesidad de mantener y actualizar las bases de datos lingüísticas;
- "acento de máquina" al traducir.

Las desventajas se nivelan mediante el uso de corpus paralelos y métodos estadísticos.

– sintonización automática de bases de datos lingüísticas (extracción terminológica rápida y de alta calidad),
— el acento “máquina” desaparece durante la traducción (opciones de síntesis y posedición).

Ventajas y desventajas de los Sistemas de Traducción Estadística

Ventajas de SMT: [17]

- configuración rápida;
— fácil de agregar nuevas direcciones de traducción;
- Suavidad de traducción.

Desventajas de SMT:

- "Deficiencia" de edificios paralelos;
- numerosos errores gramaticales;
— inestabilidad de la traducción.

Véase también

Notas

↑ 1 2 Copia archivada (enlace no disponible) . Consultado el 27 de marzo de 2013. Archivado desde el original el 13 de marzo de 2016. (indefinido)
↑ 1 2 3 4 5 6 Tecnología de traducción híbrida - Y. Epifantseva, LLC <PROMT>, Conferencia "Tecnologías de Internet rusas", 2011 . Archivado desde el original el 8 de abril de 2013. (indefinido)
↑ 12 Solicitud rechazada . Fecha de acceso: 29 de marzo de 2013. Archivado desde el original el 4 de marzo de 2016. (indefinido)
↑ 1 2 http://nlp.amrita.edu:8080/project/mhrd/ms/Final_Thesis.pdf (enlace descendente)
↑ Copia archivada (enlace no disponible) . Fecha de acceso: 29 de marzo de 2013. Archivado desde el original el 4 de marzo de 2016. (indefinido)
↑ Tecnología de traducción automática de SYSTRAN . Consultado el 1 de abril de 2013. Archivado desde el original el 8 de abril de 2013. (indefinido)
↑ Tecnología híbrida SYSTRAN . Consultado el 1 de abril de 2013. Archivado desde el original el 8 de abril de 2013. (indefinido)
↑ http://web.iti.upv.es/~fcn/Students/ta/Talk-ToniL-PRACT_ISSUES-13_4p.pdf (enlace no disponible)
↑ Copia archivada . Consultado el 29 de marzo de 2013. Archivado desde el original el 12 de mayo de 2015. (indefinido)
↑ Copia archivada (enlace no disponible) . Consultado el 17 de abril de 2013. Archivado desde el original el 19 de abril de 2014. (indefinido)
↑ Copia archivada . Consultado el 1 de abril de 2013. Archivado desde el original el 4 de marzo de 2016. (indefinido)
↑ Copia archivada . Consultado el 1 de abril de 2013. Archivado desde el original el 5 de marzo de 2016. (indefinido)
↑ Acerca de la aproximación de autómatas de lenguajes reales: resumen de descarga gratuita sobre el tema Matemáticas discretas y Cibernética matemática. Pedido de entrega de una disertación sobre matemáticas... . Consultado el 4 de abril de 2013. Archivado desde el original el 8 de abril de 2013. (indefinido)
↑ 1 2 Por qué se necesita la tecnología de traducción híbrida - A. Molchanov, PROMT LLC, Conferencia AINL, 2013 . Archivado desde el original el 8 de abril de 2013. (indefinido)
↑ Compañía PROMT - traductores y diccionarios para traducir texto del inglés, ruso, alemán, francés, español, portugués e italiano (enlace inaccesible) . Consultado el 23 de marzo de 2013. Archivado desde el original el 8 de abril de 2013. (indefinido)
↑ Copia archivada (enlace no disponible) . Consultado el 27 de marzo de 2013. Archivado desde el original el 9 de noviembre de 2012. (indefinido)
↑ Por qué se necesita la tecnología de traducción híbrida - A. Molchanov, OOO <PROMT>, Conferencia "AINL", 2013 . Archivado desde el original el 8 de abril de 2013. (indefinido)

Enfoques de la traducción automática
Basado en diccionario Basado en reglas Basado en la transformación Estadístico Basado en ejemplos interlingüístico neural Híbrido

procesamiento natural del lenguaje
Definiciones generales	corpus de textos corpus de habla Para las palabras bolsa de palabras Integridad de la IA N-grama Cifrado de bigrama trigrama
Análisis de texto	Segmentación de texto Marcado parcial análisis de superficie Procesamiento de textos compuestos Extracción de colocaciones derivación lematización Reconocimiento de entidad nombrada Resolución de correferencia Análisis de sentimiento de texto Extracción de conceptos analizando Resolución de la polisemia léxica Extraer terminología Extracción de información Identificación de idioma Definición de caso
Referencia	Extrayendo oraciones Generación abstracta Referenciación multi-documento Simplificación de texto
Traducción automática	automatizado Híbrido Interlingüístico Basado en reglas Basado en ejemplos Basado en diccionario Basado en la transformación neural Estadístico Sincrónico
Identificación y recogida de datos	Reconocimiento de voz síntesis de voz Reconocimiento óptico de caracteres Generación de texto
Modelo Temático	colocación de pachinko Colocación latente de Dirichlet Análisis semántico latente
revisión por pares	Evaluación automatizada de ensayos concordante Entrada de texto predictivo Corrector gramatical Corrector ortográfico Adivinanzas de sintaxis
Interfaz de lenguaje natural	asistente virtual Interlocutor virtual sistema de preguntas y respuestas interfaz de voz Literatura Interactiva