Audio source separation for music in low-latency and high-latency scenarios

Ricardo Pau Marxer Piñón

Ayuda

Audio source separation for music in low-latency and high-latency scenarios

Autores: Ricardo Pau Marxer Piñón
Directores de la Tesis: Xavier Serra Casals (dir. tes.) , Jordi Janer Mestres (codir. tes.)
Lectura: En la Universitat Pompeu Fabra ( España ) en 2013
Idioma: español
Tribunal Calificador de la Tesis: Emmanuel Vincent (presid.) , Oscar Camara Rey (secret.) , Axel Röbel (voc.)
Enlaces
- Tesis en acceso abierto en: TDX e-Repositori UPF
Resumen
- En el campo del tratamiento digital de la señal, la separación de fuentes consiste en la obtención de las señales originales que han sido mezcladas en un conjunto de señales observadas. Las soluciones a este problema se han estudiado ampliamente para señales musicales. Hay dos limitaciones principales para su adopción generalizada. En algunos casos la alta latencia y coste computacional es el mayor obstáculo. En un segundo escenario, la calidad de los resultados es insuficiente. Gran parte de la investigación se ha enfocado en la mejora de la calidad de separación de la música en condiciones generales, pero pocos estudios se han centrado en el desarrollo de técnicas de baja latencia y bajo coste computacional de mezclas monoaurales, así como en la calidad de separación de instrumentos específicos.
  
  Esta tesis propone métodos para tratar estos temas en cada uno de los casos de forma independiente. En primer lugar, nos centramos en los métodos con un bajo coste computacional y baja latencia. Proponemos el uso de la regularización de Tikhonov como método de descomposición del espectro en el contexto de baja latencia. Lo comparamos con las técnicas existentes en tareas de estimación y seguimiento de los tonos, que son pasos cruciales en muchos métodos de separación. A continuación utilizamos y evaluamos el método de descomposición del espectro en tareas de separación de voz cantada, bajo y percusión. En segundo lugar, proponemos varios métodos de alta latencia que mejoran la separación de la voz cantada, gracias al modelado de componentes que a menudo no se toman en cuenta, como la respiración y las consonantes. Finalmente, exploramos el uso de correlaciones temporales y anotaciones manuales para mejorar la separación de los instrumentos de percusión y señales musicales polifónicas complejas.