Clonación de voz

La versión actual de la página aún no ha sido revisada por colaboradores experimentados y puede diferir significativamente de la versión revisada el 28 de junio de 2016; las comprobaciones requieren 25 ediciones .

La clonación de sonido ( en inglés Voice Changing, clonación de voz ) es una tecnología que implementa un cambio en la voz de una persona, producido mediante software y hardware, tanto en tiempo real como en modo de lote diferido.

La tecnología hace posible simular las características personales del discurso de una persona con una coincidencia bastante completa con el original, llamado "objetivo de copia".

Evaluación General de Tecnología

Actualmente, los sistemas de reconocimiento de voz están relativamente bien desarrollados . Se utilizan en el control por voz de varios electrodomésticos (en teléfonos, sistemas de audio para automóviles y, por último, en lavadoras). El proceso inverso, extraer palabras de una señal de audio y sintetizar el habla , se encuentra con una serie de dificultades.

Productos de software

Se considera que los programas pertenecen a la categoría "Software de cambio de voz" o "Cambiador de voz":

Morphvox
cambiador de voz
Anonimizador de voz

También paquetes SDK:

Kit de herramientas de clonación de voz para Festival y HTS (Mac) Archivado el 28 de mayo de 2011 en Wayback Machine - Paquete de investigación del Speech Technology Research Center y Junichi Yamagishi de la Universidad de Edimburgo

Servicio vía web y teléfono

Anteriormente, algunas empresas comercialmente un servicio de cambio de voz de la persona que llama por teléfono en tiempo real. Esto se hizo de la siguiente manera:

Previamente, el suscriptor (cliente) en el sitio web ordenaba una llamada a su teléfono y una llamada al teléfono del "objetivo de la copia" y el sistema recibía muestras de las voces del cliente y el "objetivo de la copia";
Luego, el suscriptor ordenó que le devolvieran la llamada a su teléfono y al teléfono del suscriptor que le interesaba. El sistema conectó al suscriptor, la señal de él pasó a través del servidor de la compañía, donde las características de frecuencia y el color del timbre de la voz cambiaron a los parámetros de la voz de la persona: el "objetivo de la copia". El suscriptor escuchó las palabras del cliente, pero para él estas palabras (supuestamente) sonaban como la voz de una persona: "objetivo de copia".

Descripción de la tecnología

La tecnología de clonación de voz en una conversación telefónica en tiempo real se basa basado en algoritmos conocidos para el procesamiento matemático de la señal portadora de voz [1] [2, 4]. Al mismo tiempo, utilizan Métodos DFT para analizar frecuencias en una señal discreta (utilizando un método especial de transformada de Fourier ) obtenidos mediante la digitalización de una señal telefónica analógica utilizando el códec de voz de banda estrecha G.729 [2] [5, 6, 7, 8 ]. La síntesis del habla alterada basada en la señal portadora, es decir, la "voz clonada" resultante, realiza la posibilidad de la máxima preservación de las características acústicas personales de la voz original copiada: características fonéticas de pronunciación, acento e incluso artefactos como tartamudeo [3] [9]. Por lo tanto, es imposible identificar la artificialidad del hablante incluso con un procesamiento especial y un análisis matemático de la señal telefónica original. El uso ilegal de la tecnología de clonación de voz está estrictamente prohibido de acuerdo con el programa de protección especial del servicio en línea que brinda este servicio. La tecnología descrita de clonación de voz en redes telefónicas fue, según los creadores, el último producto que antes no tenía análogos.

Nivel anterior

Los sistemas existentes para crear el habla de la máquina han demostrado ser buenos en ciertos nichos técnicos: en sistemas de navegación para automóviles, relojes de pulsera, diccionarios traductores electrónicos de "lectura", etc. En tales sistemas, no se establece la tarea de imitar la voz de una persona en particular, por lo que el habla de la máquina resultante tampoco está personalizada , y es fácilmente reconocible debido a su pronunciado origen artificial.

Anteriormente, los intentos de sintetizar el habla de una persona en particular se basaban en el principio de crear un "núcleo" de un clon del habla, que contiene un conjunto completo de características acústicas, fonéticas y prosódicas: características del habla individual. Esto requería una base de datos personalizada bastante detallada de la voz "copiada". La persona cuya voz necesitaba ser copiada tenía que leer un texto largo preparado, especialmente diseñado y que contenía una gran cantidad de fonemas, para maximizar las características del discurso del hablante.

Esto presentó ciertas dificultades, ya que se sabe que una persona común se cansa incluso después de 15 minutos de lectura continua, y después de 20 minutos de lectura, su voz puede incluso quebrarse por completo. Incluso para un orador profesional, 45 minutos de lectura ininterrumpida manteniendo todo el complejo de características individuales del habla es una tarea bastante difícil. Los requisitos para la calidad de la grabación de voz también eran muy altos: era necesario excluir varios tipos de ruido que podrían interferir con el modelado. La grabación personalizada de la voz original obtenida de esta manera se sometió a análisis de frecuencia y procesamiento matemático, y el proceso computacional a menudo tomó más de un día. Después de eso, la base de datos de voz individual de una persona en particular podría ser utilizada por un sintetizador de voz. Naturalmente, la duración del proceso de codificación y, lo que es más importante, la necesidad de grabar el habla de referencia en un entorno de estudio redujo significativamente el rango de aplicación del sistema de copia de voz en condiciones normales.

Notas

↑ Abe M., Nakamura S., Shikano K. y Kuwabara H. "Conversión de voz mediante cuantificación vectorial", en Proc. del Int. Conf. en Acústica, Habla y Sig. proc. ICASSP, Nueva York, EE. UU., abr. 1988, vol. 1, págs. 655-658.
↑ Levine S. y Smith JO "Una representación de audio de senos+transitorios+ruido para compresión de datos y modificaciones de escala de tiempo/tono", en Proc. 105a conv. AudioIng. Soc., preprint #4781, sept. 1998.
↑ Huang X., Acero A., Honorable HW. "Procesamiento del lenguaje hablado: una guía de teoría, algoritmos y desarrollo de sistemas", Prentice Hall, NJ, 2001. - p. 980.

Literatura

B. M. Lobanov, L. I. Tsirulnik "Síntesis informática y clonación del habla", Minsk "Ciencia bielorrusa", 2008, 316 páginas.
Abe M., Nakamura S., Shikano K. y Kuwabara H. "Conversión de voz mediante cuantificación vectorial", en Proc. del Int. Conf. en Acústica, Habla y Sig. proc. ICASSP, Nueva York, EE. UU., abr. 1988, vol. 1, págs. 655–658.
Número de patente: US 6615174B1, sept. 2, 2003.
Rec. UIT-T. G.729, "Codificación de voz a 8 kbit/s mediante predicción lineal excitada por código algebraico de estructura conjugada (CS-ACELP)", marzo de 2011. 1996.
Levine S. y Smith JO "Una representación de audio de senos + transitorios + ruido para compresión de datos y modificaciones de escala de tiempo/tono", en Proc. 105a conv. AudioIng. Soc., preprint #4781, sept. 1998.
Talkin D. "Algoritmo robusto para el seguimiento del tono" en "Codificación y síntesis del habla", Kleijn, WB y Palival, KK Eds. Elsevier, Ámsterdam, Países Bajos, 1995.
Grocholevski S. "Primera base de datos para polaco hablado", en Proc. En t. Conf. Sobre Recursos Lingüísticos y Evaluación, Granada, 1998, pp. 1059–1062.
KY Lee, Y Zhao, "Algoritmos de conversión estadística de contornos de tono basados en frases prosódicas". Actas de la Conferencia Internacional "Prosodia del Habla 2004". (SP 2004)", Nara, Japón, 23-26 de marzo de 2004.
Huang X., Acero A., Honorable HW. "Procesamiento del lenguaje hablado: una guía de teoría, algoritmos y desarrollo de sistemas", Prentice Hall, NJ, 2001. - p. 980.