Reconocimiento de voz
El reconocimiento de voz es el proceso automático de convertir una señal de voz en información digital (por ejemplo, datos de texto ). El problema inverso es la síntesis de voz .
Historia
El primer dispositivo de reconocimiento de voz apareció en 1952 , podía reconocer los números pronunciados por una persona . [1] En 1962, IBM Shoebox se presentó en la Feria de Tecnología Informática de Nueva York .
En 1963, en los Estados Unidos, se presentaron dispositivos de reconocimiento en miniatura con un dispositivo de memoria de fibra óptica llamado "Septron" ( Sceptron , pero pronunciado [ˈseptrɑːn] sin "k"), desarrollado por ingenieros de Sperry Corporation, [2] realizando una u otra secuencia de acciones a determinadas frases pronunciadas por el operador humano. Los "septrons" eran adecuados para su uso en el campo de las comunicaciones fijas (por cable) para automatizar la marcación por voz y la grabación automática de texto dictado por teletipo , podrían usarse en el ámbito militar (para el control por voz de muestras complejas de equipos militares ), aviación (para crear " aviónica inteligente " que reaccione a las piloto y miembros de la tripulación),órdenes sistemas de control automatizado , etc. [2] [3] [4] señales de control al equipo de a bordo y una voz monosilábica respondiéndole respecto la posibilidad de implementar la tarea establecida por él [5] .
Los programas comerciales de reconocimiento de voz aparecieron a principios de los noventa. Por lo general, los utilizan personas que, debido a una lesión en la mano, no pueden escribir una gran cantidad de texto. Estos programas (como Dragon NaturallySpeaking, Navegador de voz) traducir la voz del usuario en texto, descargando así sus manos. La fiabilidad de traducción de tales programas no es muy alta, pero mejora gradualmente con los años.
El aumento en el poder de cómputo de los dispositivos móviles hizo posible crear programas para ellos con una función de reconocimiento de voz. Entre tales programas, vale la pena señalar la aplicación Microsoft Voice Command, que le permite trabajar con muchas aplicaciones usando su voz. Por ejemplo, puede habilitar la reproducción de música en el reproductor o crear un nuevo documento.
El uso del reconocimiento de voz se está volviendo cada vez más popular en diversas áreas comerciales, por ejemplo, un médico en una clínica puede pronunciar diagnósticos que se ingresarán de inmediato en una tarjeta electrónica. U otro ejemplo. Seguramente todos al menos una vez en la vida soñaron con usar su voz para apagar la luz o abrir la ventana. Recientemente, los sistemas automáticos de síntesis y reconocimiento de voz se han utilizado cada vez más en aplicaciones telefónicas interactivas. En este caso, la comunicación con el portal de voz se vuelve más natural, ya que la elección en él se puede realizar no solo con la ayuda de la marcación por tonos, sino también con la ayuda de los comandos de voz. Al mismo tiempo, los sistemas de reconocimiento son independientes de los hablantes, es decir, reconocen la voz de cualquier persona.
El próximo paso en las tecnologías de reconocimiento de voz puede considerarse el desarrollo de las llamadas interfaces de acceso silencioso (silent speech interfaces, SSI). Estos sistemas de procesamiento de voz se basan en recibir y procesar señales de voz en una etapa temprana de articulación. Esta etapa en el desarrollo del reconocimiento de voz se debe a dos deficiencias importantes de los sistemas de reconocimiento modernos: la excesiva sensibilidad al ruido, así como la necesidad de un habla clara y distinta al acceder al sistema de reconocimiento. El enfoque basado en SSI consiste en utilizar nuevos sensores libres de ruido para complementar las señales acústicas procesadas.
Clasificación de los sistemas de reconocimiento de voz
Los sistemas de reconocimiento de voz se clasifican: [6]
- por el tamaño del diccionario (conjunto limitado de palabras, diccionario grande);
- en función del hablante (sistemas dependientes del hablante y independientes del hablante);
- por tipo de habla (habla continua o separada);
- por propósito (sistemas de dictado, sistemas de comando);
- según el algoritmo utilizado (redes neuronales, modelos ocultos de Markov, programación dinámica);
- por tipo de unidad estructural (sintagmas, palabras, fonemas, difonos, alófonos);
- según el principio de asignación de unidades estructurales (reconocimiento por patrón, selección de elementos léxicos).
Para los sistemas automáticos de reconocimiento de voz, la inmunidad al ruido se proporciona, en primer lugar, mediante el uso de dos mecanismos: [7]
- El uso de varios métodos de trabajo en paralelo para aislar los mismos elementos de una señal de voz basados en el análisis de una señal acústica;
- Uso paralelo e independiente de la percepción segmentaria (fonémica) y holística de las palabras en el flujo del habla.
Métodos y algoritmos para reconocimiento de voz
“... es obvio que los algoritmos de procesamiento de señales de voz en un modelo de percepción del habla deberían usar el mismo sistema de conceptos y relaciones que usa una persona” [8] [9] .
Hoy en día, los sistemas de reconocimiento de voz se basan en los principios de reconocimiento[ ¿por quién? ] formas de reconocimiento [ término desconocido ] . Los métodos y algoritmos que se han utilizado hasta ahora se pueden dividir en las siguientes grandes clases: [10] [11]
Clasificación de los métodos de reconocimiento de voz en base a la comparación con el estándar.
- Programación dinámica - algoritmos dinámicos temporales (Dynamic Time Warping).
Clasificación dependiente del contexto. Cuando se implementa, los elementos léxicos separados se distinguen del flujo de voz: fonemas y alófonos, que luego se combinan en sílabas y morfemas.
- Métodos de análisis discriminante basados en discriminación bayesiana;
- Modelos ocultos de Markov;
- Redes neuronales (Redes neuronales).
El algoritmo de transformación de línea de tiempo dinámica se utiliza para determinar si las señales de voz representan la misma frase hablada original.
Arquitectura de los sistemas de reconocimiento
Una de las arquitecturas de los sistemas automáticos de procesamiento de voz basados en datos estadísticos puede ser la siguiente. [12] [13]
- Módulo de reducción de ruido y separación de señal útil.
- Modelo acústico: le permite evaluar el reconocimiento de un segmento de voz en términos de similitud en el nivel de audio. Para cada sonido, se construye inicialmente un modelo estadístico complejo que describe la pronunciación de este sonido en el habla.
- Modelo de lenguaje: le permite determinar las secuencias de palabras más probables. La complejidad de construir un modelo de lenguaje depende en gran medida del lenguaje específico. Entonces, para el idioma inglés, es suficiente usar modelos estadísticos (los llamados N-gramas). Para los idiomas altamente flexivos (idiomas en los que hay muchas formas de la misma palabra), a los que pertenece el ruso, los modelos lingüísticos construidos solo con estadísticas ya no dan ese efecto: se necesitan demasiados datos para evaluar de manera confiable las estadísticas. Relaciones entre palabras. Por lo tanto, se utilizan modelos de lenguaje híbrido que utilizan las reglas del idioma ruso, información sobre la parte del discurso y la forma de la palabra, y el modelo estadístico clásico.
- Un decodificador es un componente de software de un sistema de reconocimiento que combina los datos obtenidos durante el reconocimiento de modelos acústicos y de lenguaje y, en función de su combinación, determina la secuencia de palabras más probable, que es el resultado final del reconocimiento de voz continuo.
Etapas del reconocimiento [12]
- El procesamiento del habla comienza con una evaluación de la calidad de la señal del habla. En esta etapa, se determina el nivel de interferencia y distorsión.
- El resultado de la evaluación ingresa al módulo de adaptación acústica, que controla el módulo para calcular los parámetros de voz necesarios para el reconocimiento.
- Los segmentos que contienen voz se seleccionan en la señal y se evalúan los parámetros de voz. Hay una selección de características probabilísticas fonéticas y prosódicas para el análisis sintáctico, semántico y pragmático. (Evaluación de la información sobre la parte del discurso, la forma de la palabra y las relaciones estadísticas entre las palabras).
- A continuación, los parámetros del habla ingresan al bloque principal del sistema de reconocimiento: el decodificador. Este es el componente que hace coincidir el flujo de voz de entrada con la información almacenada en los modelos acústicos y de lenguaje y determina la secuencia de palabras más probable, que es el resultado final del reconocimiento.
Signos de habla coloreada emocionalmente en los sistemas de reconocimiento
Los conceptos básicos que caracterizan los parámetros del habla humana asociados con la forma, el tamaño, la dinámica de los cambios en el tracto de formación del habla y describen el estado emocional de una persona se pueden dividir en cuatro grupos de características objetivas que permiten distinguir entre el habla patrones: espectral-temporal, cepstral, amplitud-frecuencia y signos de dinámica no lineal. Más detalles, cada grupo de características: [9] [14] [15]
Rasgos espectrales-temporales
Características espectrales:
- El valor promedio del espectro de la señal de voz analizada;
- Medias normalizadas del espectro;
- Tiempo relativo de residencia de la señal en las bandas del espectro;
- Tiempo de residencia normalizado de la señal en las bandas del espectro;
- Valor mediano del espectro del habla en bandas;
- Potencia relativa del espectro del habla en bandas;
- Variación de las envolventes del espectro del habla;
- Valores normalizados de la variación de las envolventes del espectro del habla;
- Coeficientes de correlación cruzada de envolventes espectrales entre bandas de espectro.
Signos temporales:
- Duración del segmento, fonemas;
- altura del segmento;
- Factor de forma del segmento.
Las características espectrales-temporales caracterizan la señal de voz en su esencia física y matemática a partir de la presencia de tres tipos de componentes:
- secciones periódicas (tonales) de una onda de sonido;
- secciones no periódicas de una onda de sonido (ruido, explosivo);
- secciones que no contienen pausas de voz.
Las características espectrales-temporales permiten reflejar la originalidad de la forma de la serie temporal y el espectro de impulsos vocales en diferentes individuos y las características de las funciones de filtrado de sus tractos de habla. Caracterizan las características del flujo del habla asociadas con la dinámica de la reestructuración de los órganos de articulación del habla del hablante, y son características integrales del flujo del habla, lo que refleja la peculiaridad de la relación o sincronismo del movimiento de los órganos de articulación del habla. altavoz.
Signos cepstrales
- Coeficientes cepstrales de frecuencia Mel;
- Coeficientes de predicción lineal corregidos para la sensibilidad desigual del oído humano;
- factores de potencia de la frecuencia de registro;
- Coeficientes de espectro de predicción lineal;
- Coeficientes de cepstrum de predicción lineal.
La mayoría de los sistemas automáticos de reconocimiento de voz modernos se centran en extraer la respuesta de frecuencia del tracto vocal humano, mientras descartan las características de la señal de excitación. Esto se explica por el hecho de que los coeficientes del primer modelo proporcionan una mejor separabilidad de los sonidos. Para separar la señal de excitación de la señal del tracto vocal, se utiliza el análisis cepstral .
Características amplitud-frecuencia
- Intensidad, amplitud
- Energía
- Frecuencia de tono (PCH)
- Frecuencias formantes
- Jitter (jitter) - modulación de frecuencia de jitter del tono fundamental (parámetro de ruido);
- Shimmer (brillo) - modulación de amplitud en el tono fundamental (parámetro de ruido);
- Función nuclear de base radial
- Operador Teager no lineal
Las características de amplitud-frecuencia permiten obtener estimaciones, cuyos valores pueden variar según los parámetros de la transformada discreta de Fourier (el tipo y el ancho de la ventana), así como con pequeños desplazamientos de la ventana sobre la muestra. . Una señal de voz representa acústicamente vibraciones sonoras de estructura compleja que se propagan en el aire, las cuales se caracterizan en relación a su frecuencia (número de vibraciones por segundo), intensidad (amplitud de oscilación) y duración. Los signos de amplitud-frecuencia llevan la información necesaria y suficiente para una persona en una señal de voz con un tiempo de percepción mínimo. Pero el uso de estas características no permite que se utilicen completamente como una herramienta para identificar el habla coloreada emocionalmente.
Señales de dinámica no lineal
- mapeo de Poincaré;
- carta recursiva;
- El indicador característico máximo de Lyapunov es el estado emocional de una persona, que corresponde a una cierta geometría del atractor (retrato de fase); [dieciséis]
- Retrato de fase (atractor);
- La dimensión de Kaplan-York es una medida cuantitativa del estado emocional de una persona, desde la "calma" hasta la "ira" (deformación y posterior cambio del espectro de la señal del habla). [16] .
Para el grupo de signos de dinámica no lineal, la señal del habla se considera como un valor escalar observado en el sistema del tracto vocal humano. El proceso de producción del habla puede considerarse no lineal y puede analizarse mediante métodos de dinámica no lineal. La tarea de la dinámica no lineal es encontrar y estudiar en detalle los modelos matemáticos básicos y los sistemas reales que parten de las propuestas más típicas sobre las propiedades de los elementos individuales que componen el sistema y las leyes de interacción entre ellos. En la actualidad, los métodos de la dinámica no lineal se basan en la teoría matemática fundamental, la cual se fundamenta en el teorema de Takens, que aporta una base matemática rigurosa a las ideas de autorregresión no lineal y demuestra la posibilidad de restaurar el retrato de fase de un atractor a partir de una serie temporal o de una de sus coordenadas. (Un atractor es un conjunto de puntos o un subespacio en el espacio de fase al que se aproxima la trayectoria de fase después de la caída de los transitorios). Las estimaciones de las características de la señal a partir de las trayectorias de voz reconstruidas se utilizan en la construcción de espacio de fase determinista no lineal. modelos de la serie temporal observada. Las diferencias reveladas en forma de atractores se pueden usar para reglas de diagnóstico y características que permiten reconocer e identificar correctamente varias emociones en una señal de voz coloreada emocionalmente.
Opciones de calidad de voz
Parámetros de calidad de voz para canales digitales:
[17]
- inteligibilidad silábica del habla;
- inteligibilidad frasal del habla;
- Calidad del habla comparada con la calidad del habla de la ruta de referencia;
- Calidad de voz en condiciones reales de trabajo.
Conceptos básicos
- La inteligibilidad del habla es el número relativo de elementos del habla recibidos correctamente (sonidos, sílabas, palabras, frases), expresado como porcentaje del número total de elementos transmitidos.
- La calidad del habla es un parámetro que caracteriza la evaluación subjetiva del sonido del habla en el sistema de transmisión de voz probado.
- El ritmo normal del habla es hablar a una velocidad en la que la duración media de la frase de control es de 2,4 segundos.
- Velocidad de habla acelerada: habla a una velocidad en la que la duración promedio de la frase de control es de 1,5 a 1,6 s.
- La reconocibilidad de la voz del hablante es la capacidad de los oyentes para identificar el sonido de la voz con una persona específica previamente conocida por el oyente.
- La inteligibilidad semántica es un indicador del grado de reproducción correcta del contenido informativo del habla.
- La calidad integral es un indicador que caracteriza la impresión general del oyente a partir del discurso recibido.
Aplicación
La facilidad de uso se declaró como la principal ventaja de los sistemas de voz . Se suponía que los comandos de voz salvarían al usuario final de la necesidad de usar el tacto y otros métodos de entrada de datos y comandos.
Los ejemplos exitosos del uso de la tecnología de reconocimiento de voz en aplicaciones móviles son: ingresar una dirección por voz en Yandex.Navigator, búsqueda por voz de Google Now.
Además de los dispositivos móviles, la tecnología de reconocimiento de voz se utiliza ampliamente en diversas áreas comerciales:
- Telefonía: automatización del procesamiento de llamadas entrantes y salientes mediante la creación de sistemas de voz de autoservicio, en particular para: obtener antecedentes y consultas, pedir servicios/bienes, cambiar los parámetros de los servicios existentes, realizar encuestas, preguntas, recopilar información, informar y cualquier otro escenario;
- Soluciones "Smart Home": interfaz de voz para la gestión de sistemas "Smart Home";
- Electrodomésticos y robots: interfaz de voz de robots electrónicos; control por voz de electrodomésticos, etc.;
- Computadoras de escritorio y portátiles: entrada de voz en juegos y aplicaciones de computadora;
- Automóviles: control por voz en el interior del automóvil, por ejemplo, un sistema de navegación;
- Servicios sociales para personas con discapacidad.
Véase también
Notas
- ↑ Davies, KH, Biddulph, R. y Balashek, S. (1952) Reconocimiento automático de voz de dígitos hablados , J. Acoust. soc. Soy. 24 (6) págs. 637-642
- ↑ 1 2 Klass, Philip J. El dispositivo de fibra óptica reconoce señales . // Semana de la aviación y tecnología espacial . - Nueva York: McGraw-Hill , 1962. - Vol. 77 - núm. 20 - pág. 94-101.
- ↑ Células de memoria . // Revisión Militar . - Abril 1963. - Vol. 43 - núm. 4 - pág. 99.
- ↑ Armagnac, Alden P. "¡Díselo a Sceptron!" // Ciencia popular . - Abril 1963. - Vol. 182 - núm. 4 - pág. 120.
- ↑ Computadora operada por voz probada . // Artillería de Defensa Aérea . - Primavera 1983. - No. 2 - pág. 54.
- ↑ Cuenta suspendida . Consultado el 10 de marzo de 2013. Archivado desde el original el 27 de noviembre de 2013. (indefinido)
- ↑ Problemas modernos en el campo del reconocimiento de voz. . Consultado el 6 de junio de 2020. Archivado desde el original el 6 de junio de 2020. (indefinido)
- ↑ http://phonoscopic.rf/articles_and_publications/Lobanova_Search_of_identical_fragments.pdf (enlace inaccesible)
- ↑ 1 2 Fuente . Consultado el 29 de abril de 2013. Archivado desde el original el 21 de agosto de 2013. (indefinido)
- ↑ Fuente . Consultado el 25 de abril de 2013. Archivado desde el original el 15 de septiembre de 2012. (indefinido)
- ↑ Fuente . Consultado el 25 de abril de 2013. Archivado desde el original el 22 de diciembre de 2014. (indefinido)
- ↑ 1 2 Reconocimiento de voz | Centro de Tecnologías del Habla | ODM . Consultado el 20 de abril de 2013. Archivado desde el original el 28 de abril de 2013. (indefinido)
- ↑ Fuente . Consultado el 29 de abril de 2013. Archivado desde el original el 4 de marzo de 2016. (indefinido)
- ↑ Análisis de los signos de un texto emocionalmente coloreado . Consultado el 6 de junio de 2020. Archivado desde el original el 6 de junio de 2020. (indefinido)
- ↑ Fuente . Consultado el 1 de mayo de 2013. Archivado desde el original el 4 de marzo de 2016. (indefinido)
- ↑ 1 2 Disertación sobre el tema "Investigación del estado psicofisiológico de una persona basada en los signos emocionales del habla" resumen sobre la especialidad VAK 05.11.17, 05.13.01 - Dispositivo .... Consultado el 30 de abril de 2013. Archivado desde el original el 14 de octubre de 2013. (indefinido)
- ↑ GOST R 51061-97. PARÁMETROS DE CALIDAD DEL HABLA. SISTEMAS DE TRANSMISIÓN DE VOZ A BAJA VELOCIDAD POR CANALES DIGITALES. (enlace no disponible) . Consultado el 29 de abril de 2013. Archivado desde el original el 3 de septiembre de 2014. (indefinido)
Enlaces
diccionarios y enciclopedias |
|
---|
En catálogos bibliográficos |
|
---|