Impact of Text Length for Information Retrieval Tasks based on Probabilistic Topics

Badenes-Olmedo, Carlos; Lozano-Álvarez, Borja; Corcho, Oscar

Impact of Text Length for Information Retrieval Tasks based on Probabilistic Topics

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/117485

Información del item - Informació de l'item - Item information
Título:	Impact of Text Length for Information Retrieval Tasks based on Probabilistic Topics
Título alternativo:	Influencia de la Longitud del Texto en Tareas de Recuperación de Información mediante Tópicos Probabilísticos
Autor/es:	Badenes-Olmedo, Carlos \| Lozano-Álvarez, Borja \| Corcho, Oscar
Palabras clave:	Probabilistic topics \| Text similarity \| Hierarchical topics \| Document retrieval \| Tópicos probabilísticos \| Semejanza de textos \| Jerarquía de tópicos \| Recuperación de documentos
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	sep-2021
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2021, 67: 27-36. https://doi.org/10.26342/2021-67-2
Resumen:	Information retrieval has traditionally been approached using vector models to describe texts. In large document collections, these models need to reduce the dimensions of the vectors to make the operations manageable without compromising their performance. Probabilistic topic models (PTM) propose smaller vector spaces. Words are organized into topics and documents are related to each other from their topic distributions. As in many other AI techniques, the texts used to train the models have an impact on their performance. Particularly, we are interested on the impact that length of texts may have to create PTM. We have studied how it influences to semantically relate multilingual documents and to capture the knowledge derived from their relationships. The results suggest that the most adequate texts to train PTM should be of equal or greater length than those used to make inferences later and documents should be related by hierarchy-based similarity metrics at large-scale. \| La recuperación de información ha utilizado tradicionalmente modelos vectoriales para describir los textos. A gran escala, estos modelos necesitan reducir las dimensiones de los vectores para que las operaciones sean manejables sin comprometer su rendimiento. Los modelos probabilísticos de tópicos (MPT) proponen espacios vectoriales más pequeños. Las palabras se organizan en tópicos y los documentos se relacionan entre sí a partir de sus distribuciones de tópicos. Como en muchas otras técnicas de IA, los textos utilizados para entrenar los modelos influyen en su rendimiento. En particular, nos interesa el impacto de la longitud de los textos al crear MPT. Hemos estudiado cómo influye al relacionar semánticamente documentos multilingües y al capturar el conocimiento derivado de sus relaciones. Los resultados sugieren que los textos más adecuados deben ser de igual o mayor longitud que los utilizados para hacer inferencias posteriormente y las relaciones deben basarse en métricas de similitud jerárquicas.
Patrocinador/es:	This work is supported by the project KnowledgeSpaces with reference PID2020-118274RB-I00, financed by the Spanish Ministry of Science and Innovation.
URI:	http://hdl.handle.net/10045/117485
ISSN:	1135-5948
DOI:	10.26342/2021-67-2
Idioma:	eng
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica:	si
Versión del editor:	https://doi.org/10.26342/2021-67-2
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 67 (2021)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_67_02.pdf		1,29 MB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo