Ir al contenido

Documat


Resumen de Recommender systems in social settings: proposal, development and testing in real scenarios

Ángel Castellanos González

  • español

    Desde los trabajos más tempranos en Sistemas de Recomendación, el principal objetivo de esta línea de investigación es el de asistir a los usuarios en el descubrimiento de contenidos relevantes entre la abrumadora cantidad de datos disponibles en la web. Los sistemas de recomendación fueron concebidos en los 90 con el auge de Internet y el incremento de los datos disponibles que ello conllevó. Hoy en día, con la explosión de los contenidos generados por los usuarios en el contexto de la Web 2.0, la necesidad de sistemas recomendación es la misma que en los años 90, sino más, pero los problemas relacionados que deben abordar estos sistemas son más y más complejos. Este contexto de los contenidos generados por usuarios y la web social afecta directamente al rendimiento de los sistemas de recomendación, siendo uno de los problemas más acuciantes el modelado con precisión de las preferencias de los usuarios. Los trabajos iniciales en el área principalmente abordaba este aspecto desde el punto de vista de los sistemas de filtro colaborativo; sin embargo, el uso de rasgos basado en el contenido de los ítems está cada día más extendido. De entre esto sistemas basados en el contenido de los ítems, la mayoría de los trabajos propuestos en la literatura normalmente dependen del modelado de usuarios e ítems por separado: los perfiles de usuario son analizados y modelados de acuerdo a rasgos basados en el contenido para luego buscar los ítems más relacionados con este modelo. Esta metodología introduce el problema de la separación entre usuarios e ítems; esto es, la separación entre sus ambos espacios de representación. Para superar este problema, esta tesis propone un espacio común de representación para recomendación. Conceptualmente, modelar las dos dimensiones en conjunto parece ser el método más sensato. En particular, esta tesis propone un modelado conceptual de usuarios-ítems basado en conceptos a través de la aplicación del Análisis de Conceptos Formales (ACF). Nuestra hipótesis principal es que la abstracción basada en conceptos de los perfiles de usuarios e ítems que ACF genera facilitará la mejor identificación de relaciones entre los usuarios y los ítems, las cuales pueden ser entendidas como preferencias de usuario. Por lo tanto, usuarios e ítems serán representados en un espacio común mediante las preferencias de usuario descubiertas (en la forma de conceptos formales), organizadas jerárquicamente de un modo natural de acuerdo a su especificidad. De esta manera, se espera superar el problema de la separación ente usuarios e ítems, mejorando de este modo el proceso de recomendación. De cara a probar nuestra hipótesis de trabajo, hemos aislado el proceso de la evaluación del rendimiento de nuestra propuesta. La razón de ello es la de primero evaluar el rendimiento de ACF para la representación de datos, para luego evaluar esta representación cuando se aplique a la recomendación de contenidos. Para ello, hemos aplicado nuestro modelado basado en ACF a dos escenarios independientes de la tarea de recomendación (Topic Detection @ Replab 2013 e Image Diversification @ MediaEVAL 2014 and 2015). La evaluación de ACF en estos escenarios prueba la idoneidad general de este modelado, logrando resultados en el estado del arte para ambos escenarios. Esta evaluación también prueba que, al contrario que otras propuestas en la literatura, nuestro sistema se ve a penas afectado por los diferentes parámetros relacionados con su funcionamiento. Finalmente, hemos abordado una extensiva comparación, en relación a la calidad de las representaciones generadas, con otras conocidas metodologías para la representación de datos (Hierarchical Agglomerative Clustering y Latent Dirichlet Allocation). Como es probado por esta comparación, la representación basada en ACF tiene más calidad y presenta un comportamiento más homogéneo que el resto de metodologías. En una etapa posterior, hemos extendido esta metodología mediante la integración de rasgos semánticos relacionados con el contenido de los ítems. No solo este modelo logra mejorar la etapa de modelado, sino que también posibilita una representación de más alto nivel y más abstracta, la cual resulta en modelos más compactos y ligeros. Este aspecto facilita abordar los retos relacionados con la aplicación de nuestra propuesta a escenarios sociales (Topic Detection @ Replab 2013). Hemos finalmente aplicado nuestro modelo FCA para crear un espacio de representación común para la recomendación de contenidos. En primer lugar, hemos llevado a cabo una aproximación preliminar para probar la idoneidad de nuestra propuesta en escenarios de recomendación sociales (NEWSREEL 2014 y ESWC LOD-RecSys 2014). Del análisis de los resultados de esta experimentación preliminar, hemos refinado nuestra propuesta para crear un espacio común de recomendación. La evaluación de esta propuesta, llevada a cabo en diferentes escenarios sociales (UMAP 2011 Dataset y ESWC LOD-RecSys 2015), hemos analizado también los diferentes aspectos envueltos en el proceso de recomendación, probando que, cuando están disponibles, el uso de modelos basados en rasgos semánticos de alto nivel conlleva una recomendación más precisa que cuando el texto en bruto es utilizado. Hemos confirmado también que, como ya dicho previamente por otros trabajos experimentales, en entornos sociales, los sistemas que aplican rasgos basados en contenido mejoran a los sistemas basados en filtro colaborativo. Finalmente, este análisis extensivo demuestra que el buen rendimiento de nuestro modelo para la representación de datos permanece cuando es aplicado a la tarea de recomendación. En particular, nuestro espacio de representación común basado en ACF mejora el rendimiento de otros sistemas de recomendación reportados en la literatura como estado del arte para la tarea.

  • English

    Since the earlier works in recommender systems, the main aim of this research area is to assist users in the finding of relevant content among the overwhelming amount of data available on the Web. Recommender systems research interest started in the 90s with the rise of the Internet and the increasing of available data that it entailed. Nowadays, with the explosion of user-generated content in the context of the Web 2.0, the necessity of recommender systems is the same than in the 90s, but the related problems that they have to face are more challenging every day. This context of user-generated content and social web hinders the implementation of recommender systems, being one of the most acute the accurate modelling of user preferences. The initial works on the literature mainly addressed this issue from the perspective of Collaborative Filtering systems; however, the use of Content-based features is becoming more widespread. Among these Content-based systems, most of the works in the literature usually rely on the modelling of user and item dimensions by separate: user profiles are analyzed and modelled according to their Content-based features to then find the items that are most closely related to this model. This methodology introduces the problem of the user-item gap; i.e., the gap between both representation spaces. To overcome this problem, this thesis proposes a common representation space for recommendation. The modelling of both dimensions together in a common representation space appears to be, conceptually, the most sensible choice. In particular, we propose on a concept-based user-item modelling generated through the application of Formal Concept Analysis (FCA). Our main hypothesis is that the concept-based abstraction of user and item profiles that FCA generates will facilitate the better identification of useritem relationships, which can be understood by user preferences. Therefore, users and items will be represented in a common space by means of the unfolding user preferences (in the form of formal concepts), hierarchically organized in a natural way according to this specificity. In this way, it is expected to overcome the user-item gap problem, thus improving the recommendation process. In order to test our claim, we have isolated the evaluation of the performance of our proposal. The rationale is to firstly evaluate the performance of FCA for data representation to then evaluate this representation when applied for the recommendation task. To that end, we have applied the proposed FCA-modelling to two different scenarios independently of the recommendation task (Topic Detection @ Replab 2013 and Image Diversification @ MediaEVAL 2014 and 2015). The evaluation of FCA in these scenarios proves its overall suitability, achieving state-of-the-art results for both scenarios. This evaluation proves as well that, in contrast to other proposals in the literature, our system is barely affected by the different parameters related to its operation. Finally, we have addressed an extensive comparison to other well-known data representation methodologies (namely, Hierarchical Agglomerative Clustering and Latent Dirichlet Allocation) in relation to the quality of the generated representations. As proven by this comparison, the FCA-based representation has more quality and presents a more homogeneous behaviour than the rest of methodologies. In a later step, we have extended this modelling by integrating semantic features related to the item content. Not only does this enhanced model improve the modelling step, but it also enables a higher-level and more abstract representation, which results in lighter and more compact model. This aspect facilitates the overcoming of the challenges related to the application of our proposal to social-based real scenarios (i.e., Topic Detection @ Replab 2013). We have finally applied our FCA-based model to the recommendation task. We have firstly conducted a preliminary experimentation to prove the suitability of our proposal in social-based recommendation scenarios (NEWSREEL 2014 and ESWC LOD-RecSys 2014). From the analysis of the outcome of this preliminary experimentation, we have refined our FCA-based recommendation approach to create a common representation space for recommendation. Throughout its evaluation carried out in different social-based scenarios (UMAP 2011 Dataset and ESWC LOD-RecSys 2015), we have analysed the different aspect involved in the recommendation process, proving that, when available, higher-level semantic features entails more accurate recommendations than when raw textual descriptions are applied. We have confirmed as well that, as stated by other experimental works in the literature, in these social-based environments, systems using Content-based features outperform Collaborative Filtering systems Finally, this extensive analysis confirms our initial hypothesis in regards to our proposal. The high performance of our model for data representation remains when applied to the recommendation task. In particular, our FCA-based common representation space outperforms other recommender systems reported in the literature for the addressed tasks.


Fundación Dialnet

Mi Documat