La clonación de sonido ( en inglés Voice Changing, clonación de voz ) es una tecnología que implementa un cambio en la voz de una persona, producido mediante software y hardware, tanto en tiempo real como en modo de lote diferido.
La tecnología hace posible simular las características personales del discurso de una persona con una coincidencia bastante completa con el original, llamado "objetivo de copia".
Actualmente, los sistemas de reconocimiento de voz están relativamente bien desarrollados . Se utilizan en el control por voz de varios electrodomésticos (en teléfonos, sistemas de audio para automóviles y, por último, en lavadoras). El proceso inverso, extraer palabras de una señal de audio y sintetizar el habla , se encuentra con una serie de dificultades.
Se considera que los programas pertenecen a la categoría "Software de cambio de voz" o "Cambiador de voz":
También paquetes SDK:
Anteriormente, algunas empresas comercialmente un servicio de cambio de voz de la persona que llama por teléfono en tiempo real. Esto se hizo de la siguiente manera:
Descripción de la tecnología
La tecnología de clonación de voz en una conversación telefónica en tiempo real se basa basado en algoritmos conocidos para el procesamiento matemático de la señal portadora de voz [1] [2, 4]. Al mismo tiempo, utilizan Métodos DFT para analizar frecuencias en una señal discreta (utilizando un método especial de transformada de Fourier ) obtenidos mediante la digitalización de una señal telefónica analógica utilizando el códec de voz de banda estrecha G.729 [2] [5, 6, 7, 8 ]. La síntesis del habla alterada basada en la señal portadora, es decir, la "voz clonada" resultante, realiza la posibilidad de la máxima preservación de las características acústicas personales de la voz original copiada: características fonéticas de pronunciación, acento e incluso artefactos como tartamudeo [3] [9]. Por lo tanto, es imposible identificar la artificialidad del hablante incluso con un procesamiento especial y un análisis matemático de la señal telefónica original. El uso ilegal de la tecnología de clonación de voz está estrictamente prohibido de acuerdo con el programa de protección especial del servicio en línea que brinda este servicio. La tecnología descrita de clonación de voz en redes telefónicas fue, según los creadores, el último producto que antes no tenía análogos.
Nivel anterior
Los sistemas existentes para crear el habla de la máquina han demostrado ser buenos en ciertos nichos técnicos: en sistemas de navegación para automóviles, relojes de pulsera, diccionarios traductores electrónicos de "lectura", etc. En tales sistemas, no se establece la tarea de imitar la voz de una persona en particular, por lo que el habla de la máquina resultante tampoco está personalizada , y es fácilmente reconocible debido a su pronunciado origen artificial.
Anteriormente, los intentos de sintetizar el habla de una persona en particular se basaban en el principio de crear un "núcleo" de un clon del habla, que contiene un conjunto completo de características acústicas, fonéticas y prosódicas: características del habla individual. Esto requería una base de datos personalizada bastante detallada de la voz "copiada". La persona cuya voz necesitaba ser copiada tenía que leer un texto largo preparado, especialmente diseñado y que contenía una gran cantidad de fonemas, para maximizar las características del discurso del hablante.
Esto presentó ciertas dificultades, ya que se sabe que una persona común se cansa incluso después de 15 minutos de lectura continua, y después de 20 minutos de lectura, su voz puede incluso quebrarse por completo. Incluso para un orador profesional, 45 minutos de lectura ininterrumpida manteniendo todo el complejo de características individuales del habla es una tarea bastante difícil. Los requisitos para la calidad de la grabación de voz también eran muy altos: era necesario excluir varios tipos de ruido que podrían interferir con el modelado. La grabación personalizada de la voz original obtenida de esta manera se sometió a análisis de frecuencia y procesamiento matemático, y el proceso computacional a menudo tomó más de un día. Después de eso, la base de datos de voz individual de una persona en particular podría ser utilizada por un sintetizador de voz. Naturalmente, la duración del proceso de codificación y, lo que es más importante, la necesidad de grabar el habla de referencia en un entorno de estudio redujo significativamente el rango de aplicación del sistema de copia de voz en condiciones normales.