Ir al contenido

Documat


Resumen de Desarrollo y validación de modelos para el aprendizaje de la ordenación en recuperación de información

Oscar José Alejo Machado

  • El problema de ranking, considerado como un tópico estándar de investigación dentro de las ramas de la Inteligencia Artificial (IA) y la Recuperación de Información (RI), se conoce comúnmente como el problema del Learning to Rank (L2R). Este problema resulta clave para la RI, donde dada una consulta, que representa la información que necesita un usuario, un conjunto de documentos tienen que ser ordenados según sus valores de relevancia en relación a dicha consulta. En este entorno, poder llevar a cabo un ajuste preciso de una determinada función de ranking es de vital importancia para los motores de búsqueda web, como por ejemplo Google, Yahoo!, Bing, Yandex, Baidy, etcétera., debido a que esto afecta directamente la experiencia de búsqueda de millones de usuarios. Para resolver este problema, el L2R intenta construir tal modelo de ranking mediante el uso de datos de entrenamiento que consisten en consultas, sus correspondientes documentos recuperados, y niveles de relevancia dados por especialistas humanos. A tal efecto, y motivado por un interés creciente de la comunidad científica, han sido usadas tecnologías de Aprendizaje Automático (Machine Learning, ML) y estrategias basadas en Soft Computing, con el objetivo de crear nuevos modelos y métodos que de una forma supervisada construyan una función de ranking optimizando una medida de RI sobre un determinado conjunto de datos. Una vez que el modelo sea construido, y dada una nueva consulta, el sistema retorna una lista ordenada de documentos usando el modelo de ranking aprendido.

    Sin embargo, a pesar de que muchas de estas propuestas de modelos y estrategias han ofrecido soluciones satisfactorias y modos adecuados de encaminar esta tarea, todavía las expectativas de mejores soluciones está limitada. Esto se debe a que muchos métodos tienen comportamientos inestables, sólo garantizan una aproximación local, no logran una buena generalización del modelo que implementan, y muchas veces no pueden evitar crear funciones sesgadas hacia las consultas más relevantes. Además, la optimización de las medidas de evaluación utilizadas en las funciones de ranking no es una tarea trivial, debido a que estas métricas presentan discontinuidades y no son diferenciables.

    En la presente tesis, se describe el dominio conceptual del problema del L2R, su desglose categórico, principales métodos, medidas de evaluación y colecciones estándares para la experimentación. Se presenta un estudio bibliométrico de la producción científica sobre el L2R que permite conocer información fidedigna sobre el comportamiento y las tendencias investigativas dentro del L2R y así definir algunos patrones a seguir en esta investigación. A partir de estas premisas, se introducen una serie de modelos y estrategias para mejorar la tarea del L2R, sobre diferentes colecciones de datos, en relación a la precisión alcanzada en el ranking, la estabilidad en el rendimiento y el coste computacional. Se propone un primer método basado en Particle Swarm Optimization (PSO) y que optimiza directamente cualquier medida de evaluación de RI. Este método, RankPSO, además de las ventajas que toma de la inteligencia de enjambre, usa un diseño simple mediante una función de ranking lineal e implementa una estrategia de diversificación con el objetivo de prevenir convergencias tempranas a mínimos locales. Por otro lado, se desarrolla una nueva metaheurística de optimización global denominada Procedimiento de Búsqueda del Pescador (FSP, Fisherman Search Procedure). Este método heurístico es fácil de implementar y por su formulación puede ser aplicado a un gran número de problemas de optimización. Luego, se presenta una variante adaptada y mejorada de FSP para tratar el problema del L2R. Este método, denominado RankFSP, es capaz de construir una función de ranking optimizando cualquier medida de RI, e implementa además una estrategia para evadir los mínimos locales y los puntos de búsqueda estancados. También fueron propuestos e incorporados, con cada modelo de L2R, nuevos métodos y estrategias para llevar a cabo la reducción de dimensionalidad en las colecciones de datos estudiadas. Todos estos métodos y propuestas fueron validadas experimentalmente, demostrando con su aplicación mejoras sustanciales en la tarea del ranking. Finalmente, también se propone una herramienta software para asistir y facilitar la labor experimental de los investigadores del área.


Fundación Dialnet

Mi Documat