Identificación de idioma

Identificación de idioma ( identificación de idioma inglés ), en el método de procesamiento de lenguaje natural - definición de idioma . El problema de identificación de idiomas es un caso especial de categorización de textos y se resuelve utilizando métodos estadísticos .

Resumen

Para la identificación de idiomas se implementa la arquitectura PPRLM (reconocimiento de fonemas en paralelo + modelo de idioma) con conexión en paralelo de reconocedores fonéticos entrenados en varios idiomas. El reconocimiento fonético se basa en modelos ocultos de Markov (HMM) utilizando el algoritmo de Viterbi .

Para tomar una decisión sobre la pertenencia de un mensaje de voz a un idioma de destino en particular, se implementa un enfoque con un clasificador basado en las máquinas de vectores de soporte (SVM - support vector machines).

El principio de funcionamiento de un sistema construido sobre la base del PPRLM clásico es el siguiente:

hay varios reconocedores fonéticos en el sistema;
cada archivo de sonido de entrada es reconocido por reconocedores fonéticos;
de acuerdo con la secuencia resultante de fonemas de cada reconocedor fonético, se calculan medidas de proximidad al modelo de n-gramas de un idioma de destino particular;
el idioma con la máxima medida de cercanía del modelo n-gramm se considera ganador .

En los sistemas PPRLM avanzados, la identificación del idioma se implementa como una tarea abierta: se realiza una verificación de "pertenece" / "no pertenece" del archivo procesado al idioma de destino, la decisión se toma automáticamente, teniendo en cuenta el umbral establecido por el usuario.

Los siguientes pasos se añaden al algoritmo básico:

la secuencia de fonemas resultante de cada reconocedor fonético se superpone con el modelo de n-grama de una u otra lengua "de referencia", y se consideran medidas de proximidad del modelo de n-grama a la secuencia de fonemas;
el conjunto completo de medidas de proximidad de modelos de n-gramas a secuencias de fonemas es un vector de entrada para el clasificador SVM ;
En función del resultado de la clasificación, el clasificador SVM toma una decisión sobre la pertenencia al idioma de destino comparándolo con el umbral establecido para cada idioma de destino por separado.

El archivo de audio se habla en el idioma de destino si la puntuación otorgada por el clasificador SVM es mayor que el umbral. En este caso, el archivo de sonido puede estar asignado a uno o varios idiomas a la vez o no estar asignado a ninguno de ellos.

Véase también

Literatura

Josué Goodman. Comentario extendido sobre árboles de lenguaje y compresión . arXiv: cond-mat/0202383 [cond-mat.stat-mech]
Benedetto, D., E. Caglioti y V. Loreto. Árboles de lenguaje y zipping . Physical Review Letters , 88:4 (2002), Teoría de la complejidad .
Cavnar, William B. y John M. Trenkle. "Categorización de texto basada en N-Gram". Actas de SDAIR-94, 3er Simposio Anual sobre Análisis de Documentos y Recuperación de Información (1994) [1] .
Cilibrasi, Rudi y Paul M. B. Vitanyi. Agrupamiento por compresión . IEEE Transactions on Information Theory 51(4), abril de 2005, 1523-1545.
Dunning, T. (1994) "Identificación estadística del lenguaje". Informe técnico MCCS 94-273, Universidad Estatal de Nuevo México, 1994.
Goodman, Josué. (2002) Comentario ampliado sobre "Language Trees and Zipping" . Microsoft Research, 21 de febrero de 2002. (Esta es una crítica a la compresión de datos a favor del método Naive Bayes).
Grafenstette, Gregorio. (1995) Comparación de dos esquemas de identificación de idiomas. Actas de la 3ra Conferencia Internacional sobre el Análisis Estadístico de Datos Textuales (JADT 1995).
Poutsma, Arjen. (2001) Aplicación de técnicas de Monte Carlo a la identificación de idiomas. SmartHaven, Ámsterdam. Presentado en CLIN 2001 .
El economista. (2002) " Los elementos del estilo: el análisis de datos comprimidos conduce a resultados impresionantes en lingüística "
Radim Řehůrek y Milan Kolkus. (2009) " Identificación de idiomas en la Web: Extendiendo el método del diccionario (enlace no disponible) " Lingüística computacional y procesamiento inteligente de textos

Enlaces

Bibliotecas

LID - Identificación de lenguaje en Python : algoritmo y ejemplo de código de una herramienta LID basada en n-gramas en Python y Scheme por Damir Cavar.
lid Language Identifier : por Lingua-Systems; Biblioteca C / C++ y Perl Extension ( demostración en línea ).
lc4j, una biblioteca Java de categorización de lenguajes , por Marco Olivo.
Servicios lingüísticos extendidos de Microsoft para Windows 7 : incluida la detección de idioma de Microsoft.
Paquete de código API de Windows 7 para .NET : incluye interfaces administradas para lo anterior.
NTextCat: API de identificación de idiomas gratuita para .NET (C#) : más de 280 idiomas disponibles listos para usar. Reconoce el idioma y la codificación ( UTF-8 , Windows-1252 , Big5 , etc.) de texto. monocompatible .
jsli es una biblioteca de identificación de lenguaje JavaScript pura.
biblioteca cldr -R para el código de detección de lenguaje compacto de Chromium-Author.
language-detection : biblioteca de detección de lenguaje de código abierto para Java (forks: lang-guess y language-detector ).
cld2 : biblioteca de detección de idioma de código abierto para C++ de Google
GuessLanguage : biblioteca de detección de idioma de código abierto para javascript
GuessLanguage : biblioteca de detección de idioma de código abierto para python
Text LanguageDetect : detección de idioma de pera (no se mantiene actualmente)
datagrama : biblioteca de clasificación JavaScript MIT de código abierto. Clasifique y reconozca automáticamente los idiomas de los datos de entrada. Se puede utilizar para cualquier tipo de clasificación basada en datos entrenados.

Servicios web

Servicio web de identificación de idioma: API de detección de idioma (JSON y XML) que detecta más de 100 idiomas en textos, sitios web y documentos
API de detección de idioma : API de idioma de identificación simple
dataTXT-LI : API RESTful de identificación de idioma, parte de la familia de API semánticas dataTXT de diente de león (extracción de entidades con nombre, similitud de texto, etc.)
AlchemyAPI : API de identificación de idioma, disponible como SDK y a través de una API RESTfull ( demostración basada en la web ).
Identificación de lenguaje PetaMem : ofrece una opción entre métodos ngram, nvect e inteligente.
Abra Xerox LanguageIdentifier , disponible en formato web o a través de API.
GlobalNLP : lenguaje de identificación basado en la web
Detector de idioma , identificación en línea de texto o URL y API disponible para desarrolladores.
¿Qué lenguaje es este? Identificador de idioma en línea : herramienta basada en la web escrita por Henrik Falck.
Rosette Language Identifier : producto de Basis Technology.
Identificador de idioma : producto por Sematext; expone la API de Java y está disponible a través de REST/Webservice.
G2LI (Identificador de idioma del Laboratorio de infraestructura de información global) .
Rosoka Cloud de IMT Holdings proporciona servicios web RESTfull de extracción de identificación de idioma, entidad y relación disponibles a través de Amazon Web Services Marketplace.
API de análisis de texto y sentimiento de Semantria que cuenta con detección de idioma
API de detección de idioma de Loque.la : Identificación del idioma del sitio web con API, (json/XML)
Stel KS Identificación de idioma: API de identificación de idioma (11 idiomas)

procesamiento natural del lenguaje
Definiciones generales	corpus de textos corpus de habla Para las palabras bolsa de palabras Integridad de la IA N-grama Cifrado de bigrama trigrama
Análisis de texto	Segmentación de texto Marcado parcial análisis de superficie Procesamiento de textos compuestos Extracción de colocaciones derivación lematización Reconocimiento de entidad nombrada Resolución de correferencia Análisis de sentimiento de texto Extracción de conceptos analizando Resolución de la polisemia léxica Extraer terminología Extracción de información Identificación de idioma Definición de caso
Referencia	Extrayendo oraciones Generación abstracta Referenciación multi-documento Simplificación de texto
Traducción automática	automatizado Híbrido Interlingüístico Basado en reglas Basado en ejemplos Basado en diccionario Basado en la transformación neural Estadístico Sincrónico
Identificación y recogida de datos	Reconocimiento de voz síntesis de voz Reconocimiento óptico de caracteres Generación de texto
Modelo Temático	colocación de pachinko Colocación latente de Dirichlet Análisis semántico latente
revisión por pares	Evaluación automatizada de ensayos concordante Entrada de texto predictivo Corrector gramatical Corrector ortográfico Adivinanzas de sintaxis
Interfaz de lenguaje natural	asistente virtual Interlocutor virtual sistema de preguntas y respuestas interfaz de voz Literatura Interactiva