Ir al contenido

Documat


Resumen de Improving the Search Experience on Complex Search Scenarios

Jorge Juan Gabín Brenlla

  • español

    Los escenarios de búsqueda complejos, como los que se encuentran en los ámbitos académico y profesional, requieren que los usuarios formulen consultas precisas, estructuradas y específicas del dominio para recuperar información relevante. A diferencia de las búsquedas web cotidianas, estos entornos exigen una comprensión más profunda tanto de la necesidad de información como del lenguaje especializado del dominio. Esto implica a menudo el uso de frases clave (keyphrases), expresiones booleanas y una lógica de consulta avanzada. Aunque los avances recientes en la Recuperación de Información y el Procesamiento del Lenguaje Natural han llevado a mejoras en los sistemas de búsqueda de propósito general, dichos sistemas con frecuencia no logran abordar los requisitos de las tareas de búsqueda complejas, donde la formulación eficaz de consultas y la precisión en la recuperación presentan grandes desafíos.

    Esta tesis aborda aspectos críticos de la experiencia de búsqueda compleja a través de varias contribuciones específicas. Primero, examina el uso de modelos de texto-a-texto para etiquetar automáticamente documentos con frases clave de alta calidad e introduce un método de filtrado para suprimir resultados alucinados, mejorando así la precisión de la anotación con frases clave. Segundo, investiga la reformulación de consultas desde dos perspectivas: la reducción del espacio de búsqueda aprovechando los embeddings de frases clave para sugerir conceptos más específicos o relacionados, y la mejora de la cobertura de los resultados de búsqueda empleando modelos generativos que se ayudan de resultados de búsqueda para producir variantes de consultas semánticamente equivalentes.

    Tercero, demuestra que los modelos de recuperación basados en representaciones densas, que normalmente se entrenan con consultas de tipo pregunta, no son idóneos para la búsqueda basada en frases clave.

    Para abordar esta limitación, la tesis propone adaptaciones en los datos de entrenamiento y en el ajuste fino del modelo, mejorando así el rendimiento en escenarios donde las consultas se expresan como frases clave centradas en un tema en lugar de preguntas en lenguaje natural.

    En conjunto, estas contribuciones mejoran componentes distintos pero estrechamente interrelacionados del proceso de búsqueda—la anotación de documentos, la reformulación de consultas y la recuperación de información—mejorando en última instancia la experiencia de búsqueda para los usuarios que operan en entornos complejos.

  • galego

    Os escenarios de busca complexos, como os que se atopan nos ámbitos académico e profesional, requiren que os usuarios formulen consultas precisas, estruturadas e específicas do dominio para poder recuperar información relevante. A diferenza das buscas web cotiás, estas contornas esixen unha comprensión máis profunda tanto da necesidade de información como da linguaxe especializada do dominio. Isto implica a miúdo o uso de frases clave (keyphrases), expresións booleanas e unha lóxica de consulta avanzada. Aínda que os avances recentes na Recuperación de Información e no Procesamento da Linguaxe Natural levaron a melloras nos sistemas de busca de propósito xeral, ditos sistemas con frecuencia non logran abordar os requisitos das tarefas de busca complexas, onde a formulación eficaz de consultas e a precisión na recuperación presentan grandes desafíos.

    Esta tese aborda aspectos críticos da experiencia de procura complexa a través de varias contribucións específicas. Primeiro, examina o uso de modelos de texto-a-texto para etiquetar automaticamente documentos con frases clave de alta calidade e introduce un método de filtrado para suprimir resultados alucinados, mellorando así a precisión da anotación con frases clave. Segundo, investiga a reformulación de consultas desde dúas perspectivas: a redución do espazo de busca aproveitando os embeddings de frases clave para suxerir conceptos máis específicos ou relacionados, e a mellora da cobertura dos resultados de busca empregando modelos xenerativos que se axudan de resultados de busca para producir variantes de consultas semanticamente equivalentes. Terceiro, demostra que os modelos de recuperación baseados en representacións densas, que normalmente se adestran con consultas de tipo pregunta, non son axeitados para a busca baseada en frases clave. Para abordar esta limitación, a tese propón adaptacións nos datos de adestramento e no axuste fino do modelo, mellorando así o rendemento en escenarios onde as consultas se expresan como frases clave centradas nun tema en lugar de preguntas en linguaxe natural.

    En conxunto, estas contribucións melloran compoñentes distintos pero estreitamente interrelacionados do proceso de busca—a anotación de documentos, a reformulación de consultas e a recuperación de información—, mellorando en última instancia a experiencia de busca para os usuarios que operan en contornos complexos.

  • English

    Complex search scenarios, such as those encountered in academic and professional domains, require users to formulate precise, structured, and often domain-specific queries in order to retrieve relevant information.

    Unlike everyday web searches, these environments demand a deeper understanding of both the information need and the specialised language of the domain. This often involves the use of keyphrases, boolean expressions, and advanced query logic. Although recent advancements in Information Retrieval and Natural Language Processing have led to improvements in general-purpose search systems, such systems frequently fail to address the specialised requirements of complex search tasks, where effective query formulation and retrieval precision present significant challenges.

    This thesis addresses critical aspects of the complex search experience through several targeted contributions. First, it examines the use of text-to-text models to automatically label documents with high-quality keyphrases and introduces a filtering method to suppress hallucinated outputs, thereby improving the precision of keyphrase annotation. Second, it investigates query reformulation from two perspectives: narrowing the search space by leveraging keyphrase embeddings to suggest more specific or related concepts, and improving the recall of the search results by employing retrieval-augmented generation to produce semantically equivalent query variants. Third, it demonstrates that dense retrieval models, which are typically trained on question-like queries, are not ideally suited to keyphrase-driven search. To address this limitation, the thesis proposes adaptations to training data and model fine-tuning, thereby enhancing performance in scenarios where queries are expressed as topic-focused keyphrases rather than natural language questions.

    Collectively, these contributions improve distinct yet closely interrelated components of the search pipeline—namely, document annotation, query reformulation, and information retrieval—ultimately enhancing the search experience for users operating in complex environments.


Fundación Dialnet

Mi Documat