Identificación de idioma

Identificación de idioma ( identificación de idioma inglés ), en el método de procesamiento de lenguaje natural  - definición de idioma . El problema de identificación de idiomas es un caso especial de categorización de textos y se resuelve utilizando métodos estadísticos .

Resumen

Para la identificación de idiomas se implementa la arquitectura PPRLM (reconocimiento de fonemas en paralelo + modelo de idioma) con conexión en paralelo de reconocedores fonéticos entrenados en varios idiomas. El reconocimiento fonético se basa en modelos ocultos de Markov (HMM) utilizando el algoritmo de Viterbi .

Para tomar una decisión sobre la pertenencia de un mensaje de voz a un idioma de destino en particular, se implementa un enfoque con un clasificador basado en las máquinas de vectores de soporte (SVM - support vector machines).

El principio de funcionamiento de un sistema construido sobre la base del PPRLM clásico es el siguiente:

  1. hay varios reconocedores fonéticos en el sistema;
  2. cada archivo de sonido de entrada es reconocido por reconocedores fonéticos;
  3. de acuerdo con la secuencia resultante de fonemas de cada reconocedor fonético, se calculan medidas de proximidad al modelo de n-gramas de un idioma de destino particular;
  4. el idioma con la máxima medida de cercanía del modelo n-gramm se considera ganador .

En los sistemas PPRLM avanzados, la identificación del idioma se implementa como una tarea abierta: se realiza una verificación de "pertenece" / "no pertenece" del archivo procesado al idioma de destino, la decisión se toma automáticamente, teniendo en cuenta el umbral establecido por el usuario.

Los siguientes pasos se añaden al algoritmo básico:

  1. la secuencia de fonemas resultante de cada reconocedor fonético se superpone con el modelo de n-grama de una u otra lengua "de referencia", y se consideran medidas de proximidad del modelo de n-grama a la secuencia de fonemas;
  2. el conjunto completo de medidas de proximidad de modelos de n-gramas a secuencias de fonemas es un vector de entrada para el clasificador SVM ;
  3. En función del resultado de la clasificación, el clasificador SVM toma una decisión sobre la pertenencia al idioma de destino comparándolo con el umbral establecido para cada idioma de destino por separado.

El archivo de audio se habla en el idioma de destino si la puntuación otorgada por el clasificador SVM es mayor que el umbral. En este caso, el archivo de sonido puede estar asignado a uno o varios idiomas a la vez o no estar asignado a ninguno de ellos.

Véase también

Literatura

Enlaces

Bibliotecas

Servicios web