Ir al contenido

Documat


Descriptor control of sound transformations and mosaicing synthesis

  • Autores: Graham Keith Coleman
  • Directores de la Tesis: Jordi Bonada Sanjaume (dir. tes.) Árbol académico, Xavier Serra Casals (dir. tes.) Árbol académico
  • Lectura: En la Universitat Pompeu Fabra ( España ) en 2016
  • Idioma: español
  • Tribunal Calificador de la Tesis: Rafael Ramírez Camacho (presid.) Árbol académico, Josep Lluís Arcos Rosell (secret.) Árbol académico, Bob Sturm (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: TDX
  • Resumen
    • El muestreo, como una técnica musical o de síntesis, es una manera de reutilizar expresiones musicales grabadas. En esta disertación se exploran estrategias para ampliar la síntesis de muestreo, sobretodo la síntesis de “mosaicing”. Esta última intenta de imitar una señal objetiva desde un conjunto de señales fuente, transformando y ordenando estas señales en el tiempo, de la misma manera que se haría un mosaico con baldosas rotas.

      Una de estas ampliaciones de síntesis consiste en el control automático de transformaciones de sonido hacia objetivos definidos en un espacio perceptivo. La estrategia elegida utiliza modelos que predicen cómo se transformará el sonido de entrada en función de los parámetros seleccionados. En un caso, los modelos son conocidos, y pueden ser usadas búsquedas numéricas para encontrar parámetros suficientes; en el otro, los modelos son desconocidos y se tienen que aprender desde los datos.

      Otra ampliación se centra en el muestro en sí. Mezclando múltiples sonidos a la vez, quizás es posible hacer mejores imitaciones, específicamente mejorar la armonía del resultado, entre otros aspectos. Sin embargo, utilizar múltiples mezclas crea nuevos problemas computacionales, especialmente si algunas propiedades como la continuidad, importante para la síntesis de muestreo de alta calidad, deben preservarse.

      En esta tesis se presenta un nuevo sintetizador mosaicing que incorpora todos estos elementos: control automático de transformaciones de sonido utilizando modelos, mezclas apoyadas en descriptores de armonía y timbre perceptuales, y preservación de la continuidad del contexto de muestreo de los parámetros de transformación. Usando pruebas de escucha, el algoritmo híbrido propuesto fue comparado con algoritmos clásicos y contemporáneos: el algoritmo híbrido dio resultados positivos en una variedad de medidas de calidad.

      Capítulo 1 introduce la motivación para la investigación y las preguntas de investigación, y menciona aplicaciones posibles. Capítulo 2 resume las obras previas sobre la síntesis “mosaicing”, y sobre la síntesis y transformación controlada por descriptores de objetivo. Capítulo 3 da alguna terminología y preliminares sobre modelos de transformación. Capítulo 4 desarrolla un modelo de un pequeño conjunto de transformaciones, y muestra una estrategia prueba del concepto para controlar estas transformaciones por la optimización numérica. Capítulo 5 es una tentativa de aprender modelos de transformación desde los datos. Capítulo 6 introduce nuevos métodos de mosaicing de mezcla, y estos métodos son evaluados en Capítulo 7 por pruebas de escucha, para la aplicación de transferencia de textura. Capítulo 8 resume los resultados y trata de labor futura.

      Las referencias más importantes son las obras sobre la síntesis concatenativa de [1]–[5], las obras sobre el control guiada por descriptores [6]–[13], y las obras sobre métodos de la aproximación escasa de señales [14]–[17].

      [1] D. Schwarz, “Corpus-Based Concatenative Synthesis,” Signal Process. Mag. IEEE, vol. 24, no. 2, pp. 92–104, 2007.

      [2] J. Bonada and X. Serra, “Synthesis of the Singing Voice by Performance Sampling and Spectral Models,” IEEE Signal Process. Mag., vol. 24, no. 2, pp. 67–79, Mar. 2007.

      [3] A. Zils and F. Pachet, “Musical Mosaicing,” Digit. Audio Eff. DAFx, 2001.

      [4] M. D. Hoffman, P. R. Cook, and D. M. Blei, “Bayesian Spectral Matching: Turning Young MC into MC Hammer via MCMC Sampling,” in Proceedings of ICMC 2009, 2009.

      [5] B. L. Sturm, C. Roads, A. McLeran, and J. J. Shynk, “Analysis, visualization, and transformation of audio signals using dictionary-based methods,” in Proceedings of the International Computer Music Conference. International Computer Music Association, 2008.

      [6] D. Wessel, C. Drame, and M. Wright, “Removing the Time Axis from Spectral Model Analysis-Based Additive Synthesis: Neural Networks versus Memory-Based Machine Learning,” presented at the International Computer Music Conference, Ann Arbor, Michigan, 1998, pp. 62–65.

      [7] T. Jehan, “Perceptual synthesis engine: an audio-driven timbre generator,” Masters Thesis, Massachusetts Institute of Technology, 2001.

      [8] S. Le Groux and P. F. Verschure, “Perceptsynth: mapping perceptual musical features to sound synthesis parameters,” in IEEE International Conference on Acoustics, Speech and Signal Processing, 2008. ICASSP 2008, 2008, pp. 125–128.

      [9] D. Mintz, “Toward Timbral Synthesis: a new method for synthesizing sound based on timbre description schemes,” Masters Thesis, University of California, 2007.

      [10] T. Nakano and M. Goto, “VocaListener: A singing-to-singing synthesis system based on iterative parameter estimation,” in Proceedings of the 2009 Sound and Music Conference, Porto, Portugal, 2009, pp. 343–348.

      [11] J. Janer, “Singing-driven Interfaces for Sound Synthesizers,” Universitat Pompeu Fabra, Barcelona, 2008.

      [12] G. Coleman and J. Bonada, “Sound Transformation by Descriptor Using an Analytic Domain,” in Proc. DAFx08, 2008.

      [13] M. Caetano and X. Rodet, “Evolutionary Spectral Envelope Morphing by Spectral Shape Descriptors,” in Proc. ICMC09, Montreal, 2009.

      [14] S. G. Mallat and Z. Zhang, “Matching pursuits with time-frequency dictionaries,” IEEE Trans. Signal Process., vol. 41, no. 12, pp. 3397–3415, 1993.

      [15] Y. C. Pati, R. Rezaiifar, and P. S. Krishnaprasad, “Orthogonal matching pursuit: Recursive function approximation with applications to wavelet decomposition,” in CONF REC ASILOMAR CONF SIGNALS SYST COMPUT, IEEE, LOS ALAMITOS, CA,(USA), 1993, 1993, vol. 1, pp. 40–44.

      [16] S. Krstulovic and R. Gribonval, “MPTK: Matching Pursuit made Tractable,” in Proc. Int. Conf. Acoust. Speech Signal Process. (ICASSP’06), Toulouse, France, 2006, vol. 3, pp. III–496 – III–499.

      [17] S. S. Chen, D. L. Donoho, and M. A. Saunders, “Atomic decomposition by basis pursuit,” SIAM Rev., vol. 43, no. 1, pp. 129–159, 2001.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno