Ir al contenido

Documat


Resumen de Deep learning methods for motivic pattern extraction and classification

Aitor Arronte Alvarez

  • El estudio de patrones motívicos ha jugado un papel importante en la comprensión de varios fenómenos naturales, cognitivos, sociales y culturales en las ciencias y las humanidades. Los patrones mínimamente identificables portan información que es resistente al cambio y, por lo tanto, resistente a largos procesos evolutivos. Estos patrones brindan información rica y suficiente sobre los procesos y estructuras que los integran, y por lo tanto son de gran importancia en el estudio de procesos socio-cognitivos como la transmisión y difusión oral de músicas del mundo, la identificación de estilos de canto, o la clasificación de dialectos basados en la entonación.

    En esta tesis investigamos qué papel juegan los patrones motívicos en la identificación de la música vocal transmitida oralmente utilizando métodos de aprendizaje profundo (DL), y ampliamos nuestros hallazgos al reconocimiento automático del habla, más concretamente a la identificación automática de dialectos árabes. El objetivo principal de este trabajo es comprender de manera integral las propiedades de las estructuras motívicas en el dominio acústico.

    Con el fin de lograr este objetivo, los métodos de DL se utilizan como el principal enfoque computacional para aprender embebidos acústicos de patrones motívicos musicales y del habla. Los algoritmos de DL mapean características de bajo nivel en otras de orden superior a través de representaciones de aprendizaje que requieren grandes cantidades de datos. En esta tesis se muestra cómo el aprendizaje de patrones mínimamente suficientes puede actuar como un optimizador implícito de arquitecturas de DL, que pueden ser utilizadas en diversas tareas y escenarios dentro del procesamiento acústico.

    El aprendizaje de señales acústicas de calidad depende en gran medida de las técnicas de aumento de datos que extienden el espacio muestral a través de una serie de transformaciones y deformaciones de la señal. En este trabajo, y como resultado del enfoque adoptado, se muestra cómo aprender a segmentar la señal de audio por patrones motívicos consigue mejores resultados que el aumento de datos y, por tanto, puede reemplazarlo. El método presentado segmenta la señal de audio y aumenta el espacio muestral sin necesidad de transformar la señal, descartando información menos relevante para la tarea. Este resultado es de particular interés en contextos de bajos recursos, donde los métodos de DL han encontrado problemas de aplicabilidad.


Fundación Dialnet

Mi Documat