Traducción automática simultánea

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 23 de marzo de 2014; las comprobaciones requieren 26 ediciones .

Traducción automática simultánea (traducción de voz a voz en tiempo real): traducción automática " instantánea " de voz , de un idioma natural a otro , utilizando software y hardware especiales. . También denominada dirección de investigaciones científicas relacionadas con la construcción de este tipo de sistemas. .

A diferencia del texto impreso o las señales artificiales, el habla natural no permite una división simple e inequívoca en elementos (fonemas, palabras, frases), ya que no tienen límites físicos evidentes. Los límites de las palabras en un flujo de voz se pueden determinar automáticamente solo durante el reconocimiento seleccionando la secuencia óptima de palabras que mejor coincida con el flujo de voz de entrada de acuerdo con criterios acústicos, lingüísticos, semánticos y otros. [una]

Historia

Junio ​​de 2012  - Programa de traducción automática simultánea (Instituto Tecnológico de Karlsruhe (Estado Federal de Baden-Württemberg, Alemania) [2] . El dispositivo traduce conferencias orales de profesores del instituto del alemán al inglés y reproduce la traducción en forma de subtítulos [3 ] .

Octubre de 2012 - Traducción de voz automática, casi simultánea, del inglés al chino mandarín. Desarrollador - Microsoft. [4] Sistema de aprendizaje automático basado en redes neuronales artificiales (Deep Neural Networks), que reduce los malentendidos a cada séptima u octava palabra. Pero el mayor logro es la generación de habla preservando las modulaciones de la voz del hablante. [5]

Noviembre de 2012: el servicio lanzado por el operador móvil japonés NTT Docomo permite a los suscriptores que hablan diferentes idiomas comunicarse en tiempo real. [6] Idiomas admitidos por el servicio: (japonés <-> inglés), (japonés <-> coreano), (japonés <-> chino). [7]

Mayo de 2015: se lanza Blabber Messenger , que traduce el habla a 14 idiomas y el chat a 88.

Cómo funciona

El proceso de traducción de voz electrónica (S2S Real-Time Translation), por regla general, incluye las siguientes tres etapas) [8] [9] :

  1. reconocimiento automático de voz (ASR - reconocimiento automático de voz) - conversión de voz en texto;
  2. traducción automática (MT - Traducción automática); — traducción automática de texto de un idioma a otro.
  3. La síntesis de voz (TTS - text-to-speech) es una tecnología que hace posible pronunciar texto con una voz casi natural.

El hablante del idioma A habla por el micrófono y el motor de reconocimiento de voz reconoce[ ¿Qué? ] pronunciado. Hay una comparación de los datos de entrada con modelos fonológicos que consisten en una gran cantidad de bibliotecas de voz. Filtrado de esta manera, utilizando el diccionario y la gramática del idioma A, se convierte en una cadena de palabras basada en la matriz de frases del idioma [ término desconocido ] A. El motor de traducción automática convertirá esta cadena. Los primeros sistemas reemplazaron cada palabra con la palabra correspondiente en el idioma B. Los sistemas más avanzados no usan una traducción literal, sino que toman en cuenta todo el contexto de la frase para producir la traducción adecuada. La traducción creada se pasa al módulo de síntesis de voz , que evalúa la pronunciación y la entonación correspondientes a una serie de palabras de la matriz de datos de voz del idioma B. Los datos correspondientes a la frase se seleccionan, combinan y muestran en la forma requerida por el consumidor en lengua B.

Sistemas de traducción de voz

Los sistemas de traducción de voz (ST - Speech Translation) [10] , constan de dos componentes principales: Reconocimiento automático de voz (ASR - reconocimiento automático de voz) y Traducción automática (MT - Traducción automática) y difieren:

El reconocimiento del habla espontánea continua es el objetivo final de todos los esfuerzos de reconocimiento del habla. El reconocimiento automático de voz se divide en vinculación y su ausencia, a la voz de una persona en particular.

Si consideramos el esquema clásico "ciencia-tecnología-sistemas prácticos

problemas”, entonces los problemas más serios en los que funcionará un sistema práctico de reconocimiento automático o comprensión del habla surgen bajo las condiciones: [11]

Clasificación generalizada de los sistemas de reconocimiento de voz. Ver ( [12] )

Tradicionalmente, los sistemas de traducción automática se dividen en categorías: [13] [14] [15]

Los límites entre los sistemas basados ​​en ejemplos y los basados ​​en reglas no están muy claros, ya que ambos usan diccionarios y reglas para trabajar con diccionarios.

Traducción automática estadística

La traducción automática estadística se basa en encontrar la traducción más probable de una oración, utilizando datos de un corpus bilingüe (Parallel Corpora) - Bitext . Como resultado, al realizar una traducción, la computadora no opera con algoritmos lingüísticos, sino que calcula la probabilidad de usar una palabra o expresión en particular. La palabra o secuencia de palabras que tiene la probabilidad óptima se considera la traducción más apropiada del texto de origen y la computadora la sustituye en el texto resultante. En la traducción automática estadística, la tarea no es traducir el texto, sino descifrarlo.

Arquitectura típica de los sistemas estadísticos de MT. [17] [18]

  • Corpus monolingüe (lengua de traducción).
  • El modelo de lenguaje es un conjunto de n-gramas (secuencias de formas de palabras de longitud n) del corpus de textos.
  • Cuerpo paralelo.
  • La tabla de frases es una tabla de correspondencias entre frases del corpus fuente y el corpus de traducción con algunos coeficientes estadísticos.
  • Decodificador estadístico: entre todas las opciones de traducción posibles, selecciona la más probable.

Como modelo de lenguaje, los sistemas de traducción estadística utilizan principalmente varias modificaciones del modelo n-gram, que establece que la "gramaticalidad" de elegir la siguiente palabra al formar un texto está determinada solo por qué (n-1) palabras vienen antes. [Dieciocho]

  • n-gramas.
    •  - Ventajas: - alta calidad de traducción, para frases que encajan completamente en el modelo n-gram.
    •  — Desventajas: — la traducción de alta calidad solo es posible para frases que encajan completamente en el modelo de n-grama.

Beneficios de SMT

  • Configuración rápida
  • Fácil de agregar nuevas direcciones de traducción
  • Suavidad de traducción

Desventajas de SMT

  • <Escasez> de casos paralelos
  • Numerosos errores gramaticales
  • Inestabilidad de traducción

Los sistemas que no utilizan el aprendizaje se denominan sistemas " independientes del hablante ". Los sistemas que utilizan el aprendizaje son sistemas " Habladores dependientes ".

Sistemas de traducción automática basados ​​en reglas

Los sistemas de traducción automática basada en reglas se dividen en: [15] [19]

  • sistemas de traducción palabra por palabra;
  • sistemas de transferencia (Transferencia): transforma las estructuras del idioma de entrada en estructuras gramaticales del idioma de salida;
  • sistemas interlingüísticos (Interlingua) - un lenguaje intermedio para describir el significado.

Componentes de un RBMT típico:

  • Bases de datos lingüísticas: - diccionarios bilingües; — archivos de nombres, transliteración; - tablas morfológicas.
  • Módulo de traducción: - reglas gramaticales; — algoritmos de traducción.

Características de los sistemas RBMT:

  • Ventajas: — precisión sintáctica y morfológica; - estabilidad y previsibilidad del resultado; - la capacidad de personalizar el área temática.
  • Desventajas: - la complejidad y duración del desarrollo, - la necesidad de mantener y actualizar las bases de datos lingüísticas; - "acento de máquina" al traducir.
Modelos híbridos SMT + RBMT

Arquitectura de tecnología híbrida: [15]

  • Entrenamiento: Corpus Paralelo->Entrenamiento: - Modelo del lenguaje; — Datos para la posedición; — Reglas de síntesis; — Glosario de terminología.
  • Operación: traducción híbrida.

Etapas de la tecnología Híbrida:

  • Entrenamiento RBMT basado en un corpus paralelo utilizando tecnologías estadísticas;
  • Funcionamiento basado en un sistema entrenado.

Sistemas de síntesis de voz

Arquitectura típica del sistema "Text-to-Speech". [veinte]

  • Análisis de texto : - Determinación de la estructura del texto; — normalización de texto; — Análisis lingüístico.
  • Análisis fonético: - Gráfica - Transformación fonética.
  • Análisis prosódico: - Tono y longitud de las frases.
  • Síntesis de voz : - Representación de voz.

A su vez, la síntesis de voz se divide en grupos [21] :

  • síntesis paramétrica;
  • síntesis concatenativa o de compilación (compilación);
  • síntesis según las reglas;
  • síntesis orientada al dominio.

Cancelación de ruido

Fuentes de ruido en los sistemas de voz: [22] - interferencia de micrófonos, cables, ADC (convertidor analógico a digital), ruido externo que se produce en el entorno del hablante.

Clasificación del ruido según sus características:

  • ruido periódico/no periódico;
  • la amplitud de la gama de frecuencias en la que se distribuye la energía del ruido: – ruido de banda ancha (ancho de banda superior a 1 kHz) y de banda estrecha (ancho de banda inferior a 1 kHz);
  • ruido del habla que consiste en las voces de las personas alrededor del hablante.

El ruido blanco se considera el más peligroso en términos de su efecto sobre la señal de voz y el ruido más difícil de eliminar: - ruido no periódico, cuya densidad espectral se distribuye uniformemente en todo el rango de frecuencia.

En el campo de los sistemas de reconocimiento de voz en ruido, existen los siguientes enfoques:

  • Los desarrolladores no prestan atención al ruido.
  • Primero, se elimina el ruido y luego se reconoce la señal de voz purificada. Este concepto suele utilizarse en el desarrollo de sistemas de reducción de ruido como un módulo adicional de los sistemas de reconocimiento.
  • Reconocimiento de una señal ruidosa sin su mejora preliminar, que estudia cómo una persona reconoce y comprende el habla ruidosa; porque no prefiltra la señal de voz para despejarla de ruido.

Métodos para lograr la inmunidad al ruido :

  • se reducen a la selección de algunas características invariantes del ruido, o al aprendizaje en condiciones de ruido o a la modificación de los estándares de reconocimiento utilizando la estimación del nivel de ruido.

El punto débil de tales métodos es el funcionamiento poco fiable de los sistemas de reconocimiento configurados para el reconocimiento en ruido, en ausencia de ruido, así como una fuerte dependencia de las características físicas del ruido.

  • Cálculo de coeficientes de predicción lineal. Como elementos de los estándares, en lugar de valores numéricos, se utilizan distribuciones de probabilidad (media matemática, dispersión).
  • Procesamiento de señales digitales: - técnicas de enmascaramiento de ruido (los valores numéricos comparables a las características del ruido se ignoran o se usan con factores de ponderación más bajos) y técnicas de reducción de ruido usando múltiples micrófonos (por ejemplo, limpiando el ruido de baja frecuencia usando un micrófono en un lado de la el dispositivo y el ruido de alta frecuencia usando el otro lado).
  • Depuración de la señal útil de ruidos extraños, utilizando arreglos de micrófonos que simulan un micrófono direccional con un haz de dirección variable (el método más simple de "retardo y suma" o uno más complejo con modificación de los pesos de los micrófonos).

Modelos y métodos de optimización

La mayoría de las métricas existentes para la evaluación automática de la traducción automática se basan en la comparación con un punto de referencia humano. [17]

Al entrenar el sistema de traducción de voz , se utilizan los siguientes métodos para optimizar la calidad y la velocidad de la traducción: [10] [23] [24] [25]

  • ASR/WER en cascada con MT/BLEU

Reconocimiento automático de voz (ASR)

  • ASR / WER (Tasa de error de palabra) - la probabilidad de un error en la palabra clave;
  • ASR / PER (tasa de error de palabras independientes de la posición): la probabilidad de errores en palabras independientes de la posición (en diferentes oraciones);
  • ASR / CSR (Command Success Rate): la probabilidad de ejecución exitosa del comando.

Traducción asistida por máquina (MAT)

  • MT / BLEU (suplente de evaluación bilingüe): la probabilidad de hacer coincidir la traducción con la muestra.

Características

Además de los problemas asociados con la traducción de texto, la traducción simultánea de voz se ocupa de problemas particulares, que incluyen la incoherencia del idioma hablado, menos restricciones de la gramática del idioma hablado, límite de palabras poco claro del idioma hablado y corrección de errores de reconocimiento de voz. Además, la traducción simultánea tiene sus ventajas sobre la traducción de texto, incluida una estructura menos compleja del lenguaje hablado y menos vocabulario en el lenguaje hablado.

Estándares

A medida que muchos países comiencen a investigar y desarrollar la traducción de voz, será necesario estandarizar las interfaces y los formatos de datos para garantizar que los sistemas sean interoperables.

Un estudio colaborativo internacional creado por consorcios de traducción de voz:

  • (C-STAR) Consorcio para la Investigación Avanzada de la Traducción del Habla: un consorcio internacional para la traducción del habla para un estudio conjunto de la traducción del habla;
  • (A-STAR) Asia-Pacífico: para la región de Asia-Pacífico .

Fueron fundados como una organización de investigación colaborativa internacional para el diseño de formatos estándar bilingües, que son importantes para avanzar en la investigación científica de esta tecnología y estandarizar interfaces y formatos de datos para conectar el módulo de traducción de voz a nivel internacional. [una]

Calificaciones de calidad de traducción

  • BLEU (suplente de evaluación bilingüe) es un algoritmo para evaluar y optimizar la calidad del texto, la traducción automática.
  • WER (Word Error Rate) es un algoritmo para evaluar y optimizar la calidad del texto, la traducción automática.
  • Clasificador “Habla/no habla” ( habla/no habla ) — determinando la probabilidad de un reconocimiento de voz correcto. Un compromiso entre la definición de voz como ruido o ruido como voz ( errores de tipo I y tipo II ).

Véase también

Literatura

Enlaces

  • es:Traducción de voz
  • es:Reconocimiento de voz
  • es:Síntesis de voz
  • es:Traducción automática
  • es:Traducción móvil
  • es:Traducción automática estadística
  • es:Texto paralelo
  • es:Errores tipo I y tipo II

Notas

  1. http://www.proceedings.spiiras.nw.ru/data/src/2010/12/00/spyproc-2010-12-00-01.pdf  (enlace no disponible)
  2. KIT - KIT - Medios - Notas de Prensa - Archivo de Notas de Prensa - Traducción Simultánea: Universidad sin Barreras Lingüísticas . Consultado el 1 de febrero de 2013. Archivado desde el original el 21 de mayo de 2013.
  3. Se ha desarrollado un programa de traducción simultánea de conferencias en Alemania | Noticias de traducción . Consultado el 1 de febrero de 2013. Archivado desde el original el 13 de noviembre de 2012.
  4. Avance en el reconocimiento de voz para la palabra hablada y traducida - Microsoft Research . Fecha de acceso: 17 de febrero de 2013. Archivado desde el original el 15 de marzo de 2013.
  5. Microsoft muestra una traducción casi instantánea del inglés al chino/habrahabr . Consultado el 1 de febrero de 2013. Archivado desde el original el 15 de marzo de 2013.
  6. Los japoneses presentaron un sistema de traducción automática de conversaciones telefónicas . Consultado el 30 de abril de 2020. Archivado desde el original el 25 de enero de 2021.
  7. NTT DOCOMO presentará la traducción móvil de conversaciones y señalización | Centro de Prensa | NTT DOCOMO Global . Consultado el 13 de febrero de 2013. Archivado desde el original el 16 de febrero de 2013.
  8. ^ Investigación de IBM | Traducción de voz a voz . Fecha de acceso: 17 de febrero de 2013. Archivado desde el original el 15 de marzo de 2013.
  9. Fuente . Consultado el 15 de febrero de 2013. Archivado desde el original el 4 de marzo de 2016.
  10. 12 personas: investigación de Microsoft . Consultado el 22 de febrero de 2013. Archivado desde el original el 23 de marzo de 2014.
  11. Problemas modernos en el campo del reconocimiento de voz. - Auditech.Ltd (enlace inaccesible) . Fecha de acceso: 3 de marzo de 2013. Archivado desde el original el 15 de julio de 2013. 
  12. Cuenta suspendida . Consultado el 2 de marzo de 2013. Archivado desde el original el 27 de noviembre de 2013.
  13. en:Traducción automática
  14. Copia archivada (enlace no disponible) . Fecha de acceso: 24 de febrero de 2013. Archivado desde el original el 18 de diciembre de 2011. 
  15. 1 2 3 4 Fuente . Consultado el 27 de febrero de 2013. Archivado desde el original el 25 de junio de 2012.
  16. Reconocimiento de voz, traducción automática y traducción de voz: un paradigma de aprendizaje discriminatorio unificado: Microsoft Research . Consultado el 22 de febrero de 2013. Archivado desde el original el 23 de marzo de 2014.
  17. 1 2 Copia archivada (enlace no disponible) . Consultado el 23 de febrero de 2013. Archivado desde el original el 9 de noviembre de 2012. 
  18. 1 2 Sistema de traducción automática estadística (Sistema de traducción automática estadística distribuida) | Ilya (w-495) Nikitin - Academia.edu . Consultado el 19 de marzo de 2013. Archivado desde el original el 22 de marzo de 2013.
  19. Sistema de traducción automática estadística (Sistema de traducción automática estadística distribuida) | Ilya (w-495) Nikitin - Academia.edu . Consultado el 18 de marzo de 2013. Archivado desde el original el 22 de marzo de 2013.
  20. Fuente . Fecha de acceso: 22 de febrero de 2013. Archivado desde el original el 24 de diciembre de 2012.
  21. Sorokin V. N. Síntesis del habla. — M.: Nauka, 1992, pág. 392.
  22. http://www.sovmu.spbu.ru/main/sno/uzmf2/uzmf2_22.pdf  (enlace inaccesible)
  23. Fuente . Fecha de acceso: 24 de febrero de 2013. Archivado desde el original el 23 de enero de 2014.
  24. Copia archivada (enlace no disponible) . Consultado el 25 de febrero de 2013. Archivado desde el original el 18 de junio de 2006. 
  25. Fuente . Consultado el 25 de febrero de 2013. Archivado desde el original el 23 de marzo de 2014.