El reconocimiento de voz es una forma de autenticación biométrica que le permite identificar a una persona mediante una combinación de características de voz únicas . Se refiere a métodos dinámicos de biometría . Sin embargo, dado que la voz de una persona puede cambiar según la edad, el estado emocional, la salud, los niveles hormonales y otros factores, no es absolutamente precisa [1] . Con el desarrollo de la tecnología de grabación y reproducción de sonido, la tecnología de reconocimiento se utiliza con diversos grados de éxito en el campo de la seguridad de la información , los sistemas de acceso y seguridad y la ciencia forense .
El trabajo sobre el reconocimiento de voz se remonta a mediados del siglo pasado. El primer sistema se creó a principios de la década de 1950: sus desarrolladores se dieron a la tarea de reconocer números. El sistema desarrollado podía identificar números , pero hablados con una sola voz, como el sistema "Audrey" de Bell Laboratories . Trabajó sobre la base de determinar el formante en el espectro de potencia de cada pasaje del discurso [2] . En términos generales, el sistema constaba de tres partes principales: analizadores y cuantificadores, plantillas de comparación de redes y, finalmente, sensores. Fue creado, respectivamente, sobre la base elemental de varios filtros de frecuencia, interruptores y tubos llenos de gas como parte de los sensores [3] .
A finales de la década aparecieron sistemas que reconocían las vocales independientemente del hablante [4] . En la década de los 70, comenzaron a utilizarse nuevos métodos que permitían lograr resultados más perfectos: el método de programación dinámica [5] y el método de predicción lineal (Linear Predictive Coding - LPC). En la mencionada empresa, Bell Laboratories, se han creado sistemas que utilizan precisamente estos métodos [6] . En los años 80, el siguiente paso en el desarrollo de sistemas de reconocimiento de voz fue el uso de modelos ocultos de Markov (Hidden Markov Models - HMM). En este momento, comenzaron a aparecer los primeros grandes programas de reconocimiento de voz, como Kurzweil text-to-speech [7] . A finales de la década de los 80, también comenzaron a utilizarse los métodos de las redes neuronales artificiales (Artificial Neural Network - ANN) [8] . En 1987, apareció en el mercado la muñeca Julie de Worlds of Wonder, que eran capaces de entender la voz [7] . Y 10 años después, Dragon Systems lanzó el programa "NaturallySpeaking 1.0" [9] .
Las principales fuentes de errores de reconocimiento de voz son:
El reconocimiento de género se puede distinguir como un tipo separado de tarea, que se resuelve con bastante éxito: con una gran cantidad de datos iniciales, el sexo se determina casi sin error, y en pasajes cortos como una vocal acentuada, la probabilidad de error es 5.3% para hombres y 3,1 % para las mujeres [11 ] .
También se consideró el problema de la imitación de la voz. Los estudios realizados por France Telecom han demostrado que la imitación de voz profesional prácticamente no aumenta la probabilidad de un error de identidad: los imitadores fingen la voz solo externamente, enfatizando las características del habla, pero no pueden falsificar el contorno básico de la voz. Incluso las voces de los parientes cercanos, los gemelos tendrán una diferencia, al menos en la dinámica de control [11] . Pero con el desarrollo de la tecnología informática, ha surgido un nuevo problema que requiere el uso de nuevos métodos de análisis: la transformación de voz, que aumenta la probabilidad de error hasta en un 50% [11] .
Para describir la confiabilidad del sistema, se utilizan dos criterios: FRR (False Rejection Rate) - la probabilidad de una falsa denegación de acceso ( error de primer tipo ) y FAR (False Acceptance Rate) - la probabilidad de una falsa admisión cuando el sistema identifica erróneamente a alguien más como propio (error de segundo tipo) . Además, a veces los sistemas de reconocimiento se caracterizan por un parámetro como EER (Equal Error Rates), que representa el punto de coincidencia de las probabilidades FRR y FAR. Cuanto más fiable es el sistema, menor EER tiene [12] .
Valores de errores de identificación para diversas modalidades biométricas [10]
signo biométrico | Prueba | Condiciónes de la prueba | TRF% | LEJOS% |
---|---|---|---|---|
huellas dactilares | CVF 2006 | Población heterogénea (incluye trabajadores manuales y ancianos) | 2.2 | 2.2 |
Cara | MBE 2010 | Base de fotos de la policía
Base de datos de fotos de documentos |
4.0
0.3 |
0.1
0.1 |
Voz | NIST 2010 | Reconocimiento independiente del texto | 3..4 | 1.0 |
El iris del ojo | HIELO 2006 | Iluminación controlada, amplia gama de calidad de imagen | 1.1…1.4 | 0.1 |
El reconocimiento se puede dividir en dos áreas principales: identificación y verificación . En el primer caso, el sistema debe identificar de forma independiente al usuario mediante la voz; en el segundo caso, el sistema debe confirmar o denegar el identificador presentado por el usuario [11] . La definición del hablante objeto de estudio consiste en una comparación por parejas de modelos de voz que tienen en cuenta las características individuales del habla de cada hablante. Por lo tanto, primero debemos recopilar una base de datos suficientemente grande. Y en base a los resultados de esta comparación, se puede formar una lista de fonogramas que son, con cierta probabilidad, el habla del usuario que nos interesa [11] .
Aunque el reconocimiento de voz no puede garantizar un resultado 100 % correcto, se puede utilizar con bastante eficacia en áreas como la medicina forense y forense; Servicio de inteligencia; vigilancia antiterrorista; la seguridad; banca y así sucesivamente [11] .
Todo el proceso de procesamiento de una señal de voz se puede dividir en varias etapas principales:
Cada etapa representa un algoritmo o algún conjunto de algoritmos, que finalmente da el resultado deseado [13] .
Las características principales de la voz están formadas por tres propiedades principales: la mecánica de las oscilaciones de las cuerdas vocales, la anatomía del tracto vocal y el sistema de control de la articulación. Además, a veces es posible utilizar el diccionario del hablante, sus turnos de habla [11] . Las características principales por las cuales se toma una decisión sobre la personalidad del hablante se forman teniendo en cuenta todos los factores del proceso de producción del habla: la fuente de la voz, las frecuencias de resonancia del tracto vocal y su atenuación, así como la dinámica del control de la articulación. Si consideramos las fuentes con más detalle, las propiedades de la fuente de voz incluyen: la frecuencia promedio del tono fundamental, el contorno y las fluctuaciones de la frecuencia del tono fundamental y la forma del pulso de excitación. Las características espectrales del tracto vocal están descritas por la envolvente del espectro y su pendiente media, frecuencias formantes , espectro de largo plazo o cepstrum . Además, también se consideran la duración de las palabras, el ritmo (distribución del estrés), el nivel de la señal, la frecuencia y la duración de las pausas [14] . Para determinar estas características, se deben utilizar algoritmos bastante complejos, pero dado que, por ejemplo, el error de las frecuencias formantes es bastante grande, para simplificar, los coeficientes de cepstrum calculados a partir de la envolvente del espectro o la función de transferencia del tracto vocal encontrada por Se utiliza el método de predicción lineal. Además de los coeficientes de cepstrum mencionados, también se utilizan sus primeras y segundas diferencias de tiempo [11] . Este método fue propuesto por primera vez por Davis y Mermelstein [15] .
Análisis cepstralEn trabajos sobre reconocimiento de voz, el método más popular es la transformación cepstral del espectro de señales de voz [11] . El esquema del método es el siguiente: en un intervalo de tiempo de 10 - 20 ms, se calcula el espectro de potencia actual, luego se aplica la transformada inversa de Fourier del logaritmo de este espectro (cepstrum) y se encuentran los coeficientes: , - frecuencia superior en el espectro de la señal de voz, - espectro de potencia. El número de coeficientes cepstrales n depende del suavizado requerido del espectro y varía de 20 a 40. Si se utiliza un banco de filtros de paso de banda , los coeficientes de transformada cepstral discreta se calculan como , donde Y(m) es la señal de salida de el m-ésimo filtro, es el n-ésimo coeficiente de cepstrum.
Las propiedades auditivas se tienen en cuenta mediante una transformación no lineal de la escala de frecuencia, generalmente en la escala de tiza [11] . Esta escala se forma en base a la presencia en el oído de las denominadas bandas críticas , de manera que las señales de cualquier frecuencia dentro de la banda crítica son indistinguibles. La escala de mel se calcula como , donde f es la frecuencia en Hz, M es la frecuencia en mel. O se utiliza otra escala - ladrido , tal que la diferencia entre las dos frecuencias, igual a la banda crítica, es igual a 1 ladrido. La frecuencia B se calcula como . Los coeficientes que se encuentran en la literatura a veces se denominan MFCC - Coeficientes cepstrales de frecuencia de Mel. Su número oscila entre 10 y 30. El uso de la primera y segunda diferencia temporal de los coeficientes cepstrales triplica la dimensión del espacio de decisión, pero mejora la eficiencia del reconocimiento del hablante [11] .
El cepstrum describe la forma de la envolvente del espectro de la señal, que está influenciada tanto por las propiedades de la fuente de excitación como por las características del tracto vocal. En experimentos, se encontró que la envolvente del espectro afecta fuertemente el reconocimiento de la voz. Por lo tanto, el uso de varios métodos de análisis de la envolvente del espectro para el reconocimiento de voz está plenamente justificado [11] .
MétodosDado que muchos sistemas utilizan el espacio de los coeficientes cepstrales, sus primeras y segundas diferencias, se presta mucha atención a la construcción de reglas de decisión. Los métodos más populares para aproximar la densidad de probabilidad en el espacio de características con una mezcla ponderada de distribuciones normales ( GMM - Gauss Mixture Models), la máquina de vectores de soporte (SVM - Support Vector Machines), el método de modelos ocultos de Markov (HMM - Hidden Modelos de Markov), redes neuronales artificiales , así como modificaciones del análisis factorial [11] .
El método GMM se deriva del teorema de que cualquier función de densidad de probabilidad se puede representar como una suma ponderada de distribuciones normales:
; es el modelo de altavoz, k es el número de componentes del modelo; — los pesos de los componentes son tales que es la función de distribución del argumento multidimensional [11] . , - su peso, k - el número de componentes en la mezcla. Aquí n es la dimensión del espacio de características, es el vector de expectativa matemática del j-ésimo componente de la mezcla y es la matriz de covarianza .
Muy a menudo, los sistemas con este modelo utilizan una matriz de covarianza diagonal. Se puede utilizar para todos los componentes del modelo o incluso para todos los modelos. Para encontrar la matriz de covarianza, los pesos, los vectores medios, a menudo se usa el algoritmo EM . En la entrada tenemos una secuencia de entrenamiento de vectores X = {x 1 , . . . , x T } . Los parámetros del modelo se inicializan con valores iniciales y luego, en cada iteración del algoritmo, los parámetros se vuelven a evaluar. Para determinar los parámetros iniciales se suele utilizar un algoritmo de agrupamiento como el algoritmo K-means . Después de dividir el conjunto de vectores de entrenamiento en M clústeres, los parámetros del modelo se pueden definir de la siguiente manera: los valores iniciales coinciden con los centros de los clústeres, las matrices de covarianza se calculan en función de los vectores que caen en este clúster, los pesos de los componentes están determinados por la proporción de los vectores de este grupo entre el número total de vectores de entrenamiento.
Los parámetros se vuelven a evaluar de acuerdo con las siguientes fórmulas:
GMM también se puede llamar una extensión del método de cuantificación vectorial ( método centroide ). Cuando se usa, se crea un libro de códigos para las regiones que no se superponen en el espacio de características (a menudo se usa el agrupamiento de K-means). La cuantización vectorial es el modelo más simple en los sistemas de reconocimiento independientes del contexto [11] .
La máquina de vectores de soporte (SVM) construye un hiperplano en un espacio multidimensional que separa dos clases: los parámetros del hablante objetivo y los parámetros de los hablantes de la base de referencia. El hiperplano se calcula utilizando vectores de soporte, elegidos de una manera especial. Se realizará una transformación no lineal del espacio de parámetros medidos en algún espacio de características de mayor dimensión, ya que la superficie de separación puede no corresponder al hiperplano. La superficie de separación en el hiperplano se construye mediante la máquina de vectores de soporte si se cumple la condición de separabilidad lineal en el nuevo espacio de características. Así, el éxito de la aplicación SMM depende de la transformación no lineal elegida en cada caso particular. Las máquinas de vectores de soporte se utilizan a menudo con GMM o HMM. Por lo general, para frases cortas de unos pocos segundos de duración, los HMM sensibles a fonemas [11] se utilizan mejor para un enfoque dependiente del contexto .
Según la consultora International Biometric Group, con sede en Nueva York, la tecnología más común es el escaneo de huellas dactilares. Se nota que de los 127 millones de dólares recaudados por la venta de dispositivos biométricos, el 44% corresponde a escáneres dactiloscópicos. Los sistemas de reconocimiento facial ocupan el segundo lugar en demanda con un 14 %, seguidos por el reconocimiento de la forma de la palma de la mano (13 %), el reconocimiento de voz (10 %) y el reconocimiento del iris (8 %). Los dispositivos de verificación de firma constituyen el 2% de esta lista. Algunos de los fabricantes más conocidos en el mercado de biometría de voz son Nuance Communications, SpeechWorks, VeriVoice [17] .
En febrero de 2016, The Telegraph publicó un artículo en el que anunciaba que los clientes del banco británico HSBC podrán acceder a cuentas y realizar transacciones mediante identificación por voz. La transición iba a tener lugar a principios del verano [18] .