Ir al contenido

Documat


Knowknowledge-based probabilistic modeling for tracking lyrics in music audio signals

  • Autores: Georgi Dzhambazov
  • Directores de la Tesis: Xavier Serra Casals (dir. tes.) Árbol académico
  • Lectura: En la Universitat Pompeu Fabra ( España ) en 2017
  • Idioma: español
  • Tribunal Calificador de la Tesis: Axel Röbel (presid.) Árbol académico, Emilia Gómez Gutiérrez (secret.) Árbol académico, Matthias Mauch (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: TDX
  • Resumen
    • Esta tesis propone metodologías específicas de procesamiento de señales y aprendizaje automático para alinear de manera automática la letra de una canción a su correspondiente grabación de audio. La investigación llevada a cabo recae en el campo más amplio de la recuperación de información musical (MIR), y por lo tanto, pretendemos con ella mejorar algunas de las metodologías más avanzadas de la actualidad, introduciendo conocimiento específico del dominio.

      El objetivo de este trabajo es diseñar modelos capaces de rastrear en la señal de audio musical el aspecto secuencial de un elemento particular de la letra, los fonemas. Se puede entender que la música comprende diferentes facetas, una de las cuales es la letra. Los modelos que construimos tienen en cuenta el contexto complementario que existe alrededor de la letra, que es cualquier faceta musical complementaria a las letras. Las facetas utilizadas en esta tesis incluyen la estructura de la composición musical, la estructura temporal de un enunciado de la letra, la estructura métrica. Desde esta perspectiva, analizamos no sólo las características acústicas de bajo nivel, que representan el timbre de los fonemas, sino también las características de alto nivel, en las que se manifiesta el contexto complementario. Proponemos modelos probabilísticos específicos para representar cómo las transiciones entre fonemas cantados consecutivamente están condicionadas por diferentes facetas del contexto complementario.

      El contexto complementario, al cual abordamos, se despliega en el tiempo según principios propios de una tradición musical. Para capturar estos principios, hemos creado corpus y conjuntos de datos para dos tradiciones musicales, dichas que tienen un rico conjunto de tales principios: makam turco otomano y ópera de Beijing. Los conjuntos de datos y los corpus comprenden diferentes tipos de datos: grabaciones de audio, partituras y metadatos. Desde esta perspectiva, los modelos propuestos pueden aprovechar tanto los datos como el conocimiento del dominio de la música de determinados estilos musicales para mejorar los enfoques existentes usados como referencia. Como punto de partida, elegimos un reconocedor fonético basado en modelos ocultos de Markov (HMM): una metodología ampliamente utilizada para el rastreo de fonemas tanto en el canto como en los problemas de procesamiento del habla. Presentamos mejoras en los pasos típicos de los enfoques de reconocimiento fonético existentes, dirigidos hacia las características de las tradiciones musicales estudiadas. Además de los puntos de partida mejorados, usamos modelos probabilísticos basados ​​en redes bayesianas dinámicas (DBN) que representan la relación de las transiciones de fonemas con su contexto complementario. Se construyen dos modelos independientes para dos granularidades de contexto complementario: la estructura temporal de un enunciado de la letra (alto nivel) y la estructura del ciclo métrico (nivel más fino). En un modelo explotamos el hecho de que las duraciones de las sílabas dependen de su posición dentro de un enunciado de la letra. La información sobre las duraciones esperadas se obtiene de la partitura, así como de conocimientos específicos de la música. Luego, en otro modelo, analizamos cómo los onsets de notas vocales, estimados a partir de grabaciones de audio, influyen en las transiciones entre vocales consecutivas y consonantes. También proponemos cómo detectar las posiciones de tiempo de los onsets de nota cantada mediante el rastreo simultáneo de las posiciones en el ciclo métrico (es decir, acentos métricos).

      Con el fin de evaluar el potencial de los modelos propuestos, utilizamos la alineación de letra a grabación de audio como una tarea concreta. Cada modelo mejora la precisión de la alineación, en comparación con el modelo de referencia inicial, que se basa únicamente en la acústica del timbre fonético. Esto valida nuestra hipótesis de que el conocimiento del contexto complementario es un factor importante para el seguimiento computacional de las letras, especialmente en el desafiante caso de cantar junto a un acompañamiento instrumental.

      Los resultados de este estudio no son sólo metodologías teóricas y datos, sino también herramientas de software específicas que se han integrado en Dunya - un conjunto de herramientas, construido en el contexto de CompMusic, un proyecto para avanzar el análisis computacional de la música del mundo. Con esta aplicación, también hemos demostrado que las metodologías desarrolladas son útiles no sólo para el seguimiento de letras, sino también para otros casos de uso, como una experiencia y apreciación enriquecidas al escuchar música, o fines educativos.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno