Interfaz de acceso silencioso ( interfaces de voz silenciosa en inglés , SSI ): sistemas de procesamiento de voz basados en la recepción y procesamiento de señales de voz en una etapa temprana de articulación .
Las interfaces de acceso silencioso tienen una historia muy reciente, que se remonta a principios de la década de 2000. En la última década, el rendimiento de los sistemas automáticos de procesamiento de voz, incluidos el reconocimiento de voz, el reconocimiento de texto, la traducción y la síntesis de voz, ha mejorado significativamente. Esto ha llevado al uso del habla y la tecnología del habla en una amplia gama de servicios, como sistemas de recuperación de información, centros de llamadas , control por voz de teléfonos móviles y sistemas de navegación para automóviles , traductores personales y el uso de la tecnología del habla en seguridad. Sin embargo, las interfaces de voz basadas en señales de voz acústicas tradicionales todavía tienen una serie de limitaciones significativas.
En primer lugar, las señales acústicas transmitidas por el aire están sujetas a distorsión debido al ruido . Todavía no se vislumbran sistemas de procesamiento de voz confiables que funcionen perfectamente en restaurantes, aeropuertos y otros lugares públicos llenos de gente, a pesar de los esfuerzos titánicos.
En segundo lugar, las interfaces de voz tradicionales requieren un habla clara e inteligible, lo que tiene dos desventajas principales: en un lugar público, compromete la confidencialidad del mensaje y, en segundo lugar, molesta a los demás. Los servicios que requieren acceso, recuperación y transmisión de información privada o confidencial, como PIN y contraseñas, son particularmente vulnerables.
A principios de la década de 2000, para solucionar este problema, se propusieron las interfaces de acceso silencioso , que permiten a los usuarios comunicarse hablando "en silencio", es decir, sin emitir ningún sonido. Esto se hace mediante la recepción de señales de voz en las primeras etapas de la articulación humana, es decir, antes de que aparezca el habla en el aire; después de eso, las señales de articulación se transmiten al sistema para su posterior procesamiento e interpretación. Debido a este nuevo enfoque, las interfaces de acceso silencioso tienen el potencial de superar las principales deficiencias de las interfaces de voz tradicionales actuales:
Además, las interfaces de acceso silencioso podrían ser una alternativa para las personas con problemas del habla (p. ej., laringectomizados) y para las personas mayores o debilitadas que no pueden hablar lo suficientemente alto, claro e inteligible.
paquete H. Chan y otros demostraron ( 2001 , 2002) [1] que la señal mioeléctrica de los músculos faciales articulatorios contiene suficiente información para distinguir con precisión un pequeño conjunto de palabras. Estas palabras se reconocen incluso cuando se pronuncian en voz baja, es decir, en ausencia de una señal de audio (Jorgensen et al. 2003, Bradley et al. 2006). Trabajos recientes sugieren que el reconocimiento de unidades fonémicas basado en unidades electromiográficas (EMG) (Jou et al. 2006, Walliczek et al. 2006) allana el camino para el reconocimiento de extensas bases de vocabulario.
También, más recientemente, ha surgido una investigación que permite el desarrollo de una Interfaz de Acceso Silencioso basada en los movimientos de la lengua y los labios utilizando imágenes ópticas y de ultrasonido (Denby y Stone 2004, Denby et al. 2006, Hueber et al. 2007).
Los sistemas SSI que convierten "gruñidos" en voz se desarrollan predominantemente en Japón . En los Estados Unidos, DARPA está financiando investigaciones sobre la actividad glótica para el uso de sensores en entornos ruidosos:
Como parte del programa de codificación de voz moderna ( English Advanced speech encoding , abreviado ASE ) [2] , se desarrollarán tecnologías que permitirán el intercambio de información en condiciones militares difíciles.
Se han logrado grandes avances en el desarrollo del codificador de voz ( vocoder ) en los últimos 50 años , pero la codificación de voz de tasa de bits ultrabaja (ULBR) a 300 bps sigue siendo un gran desafío. En particular, los codificadores de voz ULBR todavía no tienen un analizador de voz de alta calidad que reconozca el habla del hablante sin interferencias; estas desventajas se acentúan en ambientes acústicamente difíciles (por ejemplo, en un espacio ruidoso o en un espacio con sonido reverberante).
El enfoque perseguido por el programa Advanced Speech Encoding (ASE) es utilizar nuevos sensores que no se ven afectados por el ruido como complemento a las señales acústicas procesadas (ver figura). Dichos sensores se explorarán por su potencial para que el habla audible/antes del habla se pueda utilizar como un medio alternativo de comunicación en entornos acústicamente duros y peligrosos donde el camuflaje militar es obligatorio.
—