Resumen de Expression control of singing voice synthesis: modeling pitch and dynamics with unit selection and statistical approaches

Ayuda

Resumen de Expression control of singing voice synthesis: modeling pitch and dynamics with unit selection and statistical approaches

Marti Umbert Morist

Las tecnologías de síntesis de sonido se han aplicado en diferentes campos, como el habla, los instrumentos musicales, y la voz cantada. Estas tecnologías deben tener una representación realista del sonido original y también tienen que reproducir sus características expresivas. Así podemos hablar de síntesis expresiva del habla, de actuaciones expresivas de instrumentos, y de síntesis expresiva de voz cantada. De hecho, la voz cantada tiene puntos en común con el habla (misma fuente sonora) y con los instrumentos (aspectos musicales como la melodía y otros recursos expresivos).

Modelar la expresividad de la voz cantada es una tarea difícil. El instrumento nos es tan familiar que podemos detectar fácilmente si los resultados obtenidos artificialmente son similares a los de un cantante. La dificultad de la tarea también está vinculada a la variedad de características a controlar relacionadas con la melodía, la dinámica, el ritmo y el timbre.

El objetivo de esta tesis es generar los controles para sintetizadores de voz cantada y así conseguir una expresividad parecida a la humana. Concretamente, nos fijaremos como objetivo obtener la frecuencia fundamental y la dinámica proponiendo cuatro sistemas. Respecto al sistema de selección de unidades hemos definido las funciones de costos para la selección de unidades así como su transformación i concatenación. Con los sistemas estadísticos hemos modelado tanto secuencias de notas como secuencias de transiciones y sostenimientos. También hemos presentado un último sistema híbrido de los anteriores. Hemos entrenado todos estos sistemas con dos bases de datos expresivas que hemos diseñado, registrado y etiquetado. El diseño lo hemos basado en secuencias de tres notas o silencios.

Nuestra evaluación perceptual compara los sistemas propuestos con un sistema por defecto y un sistema controlado por una voz humana. La evaluación concluye que el sistema híbrido consigue la expresividad más cercana a la de una voz humana. La evaluación objetiva se centra en le eficiencia de los sistemas.

Esta tesis contribuye al tema planteado en los siguientes aspectos: 1) recoge diversas definiciones que se han elaborado sobre la expresividad, 2) repasa trabajos anteriores en el control de la expresividad de la síntesis de la voz cantada, 3) presenta una recopilación online de sonidos que muestran los resultados de estos trabajos, 4) propone una metodología para la creación de bases de datos expresivos, 5) implementa un sistema basado en la selección de unidades para el control de la expresividad, 6) propone dos sistemas estadísticos, 7) presenta un sistema híbrido, 8) compara los sistemas propuestos con sistemas de referencia, 9) propone otro caso de uso donde aplicar el control de expresividad, y finalmente, 10) proporciona una serie de propuestas para mejorar la evaluación de sistemas de síntesis de voz cantada.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Mi Documat

Selección

Coordinado por: