Els sistemes de recomanació de música (RecSys) son una part integral de les actuals plataformes de música en streaming. Tot i que s'ha fet investigació sobre molts aspectes relacionats amb RecSys, encara falta investigació sobre l’exploració i el descobriment de continguts que permeti fidelitzar usuaris a llarg plaç. Després de realitzar un estudi preliminar, hem vist que existeix una manca d’eines per al re-descobriment de les col·leccions de música personals. Per abordar aquest problema, en aquesta tesi ens focalitzem en l’us d’etiquetes musicals sobre estil i mood i treballem en espais latents de dades entrenant predictors automàtics d'etiquetes basats en models d'aprenentatge profund (deep auto-tagging systems). Analitzem i comparem diferents arquitectures de xarxes neuronals, bases de dades, i diferents tècniques de projecció de dades per entendre com aquestes afecten al concepte de similaritat percebuda entre peces musicals que han estat projectades en punts propers dels espais latents. Finalment, mostrem una interfície web que hem desenvolupat per visualitzar i navegar col·leccions de música utilitzant els espais latents. Hem avaluat aquesta interfície a partir d’entrevistes semi estructurades i hem conclòs que la interfície proporciona una alternativa excel·lent als sistemes tradicionals de navegació de col·leccions musicals. Creiem que les contribucions d'aquesta tesi permeten que es desenvolupi més recerca i es creïn més aplicacions industrials per abordar el problema de l’exploració i descobriment de música.
Music recommendation systems (RecSys) are integral to modern music streaming services. While there is much research on many aspects of RecSys, there is not enough research on exploration and discovery that contributes to long-term user retention. After conducting an anonymous survey, we identify that the exploration and rediscovery of the personal collections in particular needs improvement.
To address this, we take advantage of music tags (genre, moods) and use deep auto-tagging systems to construct latent spaces. We investigate different architectures, datasets, layers, and projections and how they affect the perceived similarity of nearest neighbors. Finally, we present a novel web interface to visualize music collections using audio embeddings.
We evaluate the proposed solution via semi-structured user interviews and conclude that it provides an excellent alternative to existing solutions. We believe that the contributions of this work enable more research and industry solutions for music exploration and discovery.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados