Identificación de idioma
Identificación de idioma ( identificación de idioma inglés ), en el método de procesamiento de lenguaje natural - definición de idioma . El problema de identificación de idiomas es un caso especial de categorización de textos y se resuelve utilizando métodos estadísticos .
Resumen
Para la identificación de idiomas se implementa la arquitectura PPRLM (reconocimiento de fonemas en paralelo + modelo de idioma) con conexión en paralelo de reconocedores fonéticos entrenados en varios idiomas. El reconocimiento fonético se basa en modelos ocultos de Markov (HMM) utilizando el algoritmo de Viterbi .
Para tomar una decisión sobre la pertenencia de un mensaje de voz a un idioma de destino en particular, se implementa un enfoque con un clasificador basado en las máquinas de vectores de soporte (SVM - support vector machines).
El principio de funcionamiento de un sistema construido sobre la base del PPRLM clásico es el siguiente:
- hay varios reconocedores fonéticos en el sistema;
- cada archivo de sonido de entrada es reconocido por reconocedores fonéticos;
- de acuerdo con la secuencia resultante de fonemas de cada reconocedor fonético, se calculan medidas de proximidad al modelo de n-gramas de un idioma de destino particular;
- el idioma con la máxima medida de cercanía del modelo n-gramm se considera ganador .
En los sistemas PPRLM avanzados, la identificación del idioma se implementa como una tarea abierta: se realiza una verificación de "pertenece" / "no pertenece" del archivo procesado al idioma de destino, la decisión se toma automáticamente, teniendo en cuenta el umbral establecido por el usuario.
Los siguientes pasos se añaden al algoritmo básico:
- la secuencia de fonemas resultante de cada reconocedor fonético se superpone con el modelo de n-grama de una u otra lengua "de referencia", y se consideran medidas de proximidad del modelo de n-grama a la secuencia de fonemas;
- el conjunto completo de medidas de proximidad de modelos de n-gramas a secuencias de fonemas es un vector de entrada para el clasificador SVM ;
- En función del resultado de la clasificación, el clasificador SVM toma una decisión sobre la pertenencia al idioma de destino comparándolo con el umbral establecido para cada idioma de destino por separado.
El archivo de audio se habla en el idioma de destino si la puntuación otorgada por el clasificador SVM es mayor que el umbral. En este caso, el archivo de sonido puede estar asignado a uno o varios idiomas a la vez o no estar asignado a ninguno de ellos.
Véase también
Literatura
- Josué Goodman. Comentario extendido sobre árboles de lenguaje y compresión . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
- Benedetto, D., E. Caglioti y V. Loreto. Árboles de lenguaje y zipping . Physical Review Letters , 88:4 (2002), Teoría de la complejidad .
- Cavnar, William B. y John M. Trenkle. "Categorización de texto basada en N-Gram". Actas de SDAIR-94, 3er Simposio Anual sobre Análisis de Documentos y Recuperación de Información (1994) [1] .
- Cilibrasi, Rudi y Paul M. B. Vitanyi. Agrupamiento por compresión . IEEE Transactions on Information Theory 51(4), abril de 2005, 1523-1545.
- Dunning, T. (1994) "Identificación estadística del lenguaje". Informe técnico MCCS 94-273, Universidad Estatal de Nuevo México, 1994.
- Goodman, Josué. (2002) Comentario ampliado sobre "Language Trees and Zipping" . Microsoft Research, 21 de febrero de 2002. (Esta es una crítica a la compresión de datos a favor del método Naive Bayes).
- Grafenstette, Gregorio. (1995) Comparación de dos esquemas de identificación de idiomas. Actas de la 3ra Conferencia Internacional sobre el Análisis Estadístico de Datos Textuales (JADT 1995).
- Poutsma, Arjen. (2001) Aplicación de técnicas de Monte Carlo a la identificación de idiomas. SmartHaven, Ámsterdam. Presentado en CLIN 2001 .
- El economista. (2002) " Los elementos del estilo: el análisis de datos comprimidos conduce a resultados impresionantes en lingüística "
- Radim Řehůrek y Milan Kolkus. (2009) " Identificación de idiomas en la Web: Extendiendo el método del diccionario (enlace no disponible) " Lingüística computacional y procesamiento inteligente de textos
Enlaces
Bibliotecas
Servicios web
- Servicio web de identificación de idioma: API de detección de idioma (JSON y XML) que detecta más de 100 idiomas en textos, sitios web y documentos
- API de detección de idioma : API de idioma de identificación simple
- dataTXT-LI : API RESTful de identificación de idioma, parte de la familia de API semánticas dataTXT de diente de león (extracción de entidades con nombre, similitud de texto, etc.)
- AlchemyAPI : API de identificación de idioma, disponible como SDK y a través de una API RESTfull ( demostración basada en la web ).
- Identificación de lenguaje PetaMem : ofrece una opción entre métodos ngram, nvect e inteligente.
- Abra Xerox LanguageIdentifier , disponible en formato web o a través de API.
- GlobalNLP : lenguaje de identificación basado en la web
- Detector de idioma , identificación en línea de texto o URL y API disponible para desarrolladores.
- ¿Qué lenguaje es este? Identificador de idioma en línea : herramienta basada en la web escrita por Henrik Falck.
- Rosette Language Identifier : producto de Basis Technology.
- Identificador de idioma : producto por Sematext; expone la API de Java y está disponible a través de REST/Webservice.
- G2LI (Identificador de idioma del Laboratorio de infraestructura de información global) .
- Rosoka Cloud de IMT Holdings proporciona servicios web RESTfull de extracción de identificación de idioma, entidad y relación disponibles a través de Amazon Web Services Marketplace.
- API de análisis de texto y sentimiento de Semantria que cuenta con detección de idioma
- API de detección de idioma de Loque.la : Identificación del idioma del sitio web con API, (json/XML)
- Stel KS Identificación de idioma: API de identificación de idioma (11 idiomas)