Semantically-enabled Browsing of Large Multilingual Document Collections

Badenes-Olmedo, Carlos (2021). Semantically-enabled Browsing of Large Multilingual Document Collections. Tesis (Doctoral), E.T.S. de Ingenieros Informáticos (UPM). https://doi.org/10.20868/UPM.thesis.67594.

Descripción

Título: Semantically-enabled Browsing of Large Multilingual Document Collections
Autor/es:
  • Badenes-Olmedo, Carlos
Director/es:
Tipo de Documento: Tesis (Doctoral)
Fecha de lectura: Junio 2021
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of CARLOS_BADENES_OLMEDO.pdf]
Vista Previa
PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (7MB) | Vista Previa

Resumen

Searching for similar documents and exploring the major themes are common activities when browsing document collections. With the ongoing growth in the number of digital documents in multiple languages, we need better tools to browse large multilingual corpora. Manual document annotation has been traditionally used to facilitate such document browsing. However, manual annotation is knowledge-intensive and tedious task and can be alleviated by using automatic document annotation algorithms. Most algorithms represent documents in a common feature space that abstracts them away from the specific sequence of words used in them. Probabilistic Topic Models reduce that feature space by annotating documents with thematic information. Over this low-dimensional latent space some algorithms have been proposed to perform document similarity search, including collections of texts in multiple languages. However, dictionaries or comparable corpora are required to create multilingual topics and thematic information is usually hidden behind specific representations that limits the explanatory capability of topics to justify content-based similarities. In this thesis we address the challenge of automatically relating documents from large multilingual corpora based on the knowledge offered by the topics covered in the collection, and without the need for theme-aligned data. In order to do so, we have created a framework where probabilistic topic models can be created and reused, a hierarchical model for describing documents with thematic annotations and an unsupervised algorithm that relates multilingual documents from their most relevant themes. Evaluations on classifying and sorting documents by similar content reveal good results on multiple domains. ----------RESUMEN---------- La búsqueda de documentos similares y la exploración de los principales temas tratados son actividades comunes cuando se examinan colecciones de documentos. Con el continuo crecimiento del número de documentos digitales en múltiples idiomas, se necesitan mejores herramientas que permitan la navegación de corpus multilingües de gran tamaño. Tradicionalmente se ha utilizado anotaciones manuales para facilitar esa exploración. Sin embargo, es una tarea tediosa que requiere conocimiento del dominio, y puede aliviarse mediante algoritmos automáticos de anotación de documentos. La mayoría de los algoritmos representan documentos en un espacio de características comunes que los abstraen de la secuencia específica de palabras utilizadas en ellos. Los modelos probabilísticos de tópicos reducen ese espacio de características anotando los documentos con información temática. Sobre este espacio latente de reducidas dimensiones se han propuesto algoritmos que realizan búsquedas de documentos semejantes, incluso en colecciones de textos en múltiples idiomas. Sin embargo, para crear temas multilingües se necesitan datos o diccionarios que permitan alinear los temas y la información temática queda oculta tras representaciones que limitan su capacidad explicativa para justificar las relaciones basadas en el contenido. En esta tesis abordamos el desafío de relacionar automáticamente documentos multilingües a gran escala sin perder el conocimiento que ofrecen los temas para explicar las relaciones y sin necesitar corpus paralelos o comparables. Para ello, hemos creado un marco de trabajo donde se pueden crear y reutilizar modelos probabilísticos de tópicos, un modelo jerárquico para describir documentos con anotaciones temáticas y un algoritmo no supervisado que relaciona documentos multilingües a partir de sus principales temas. Las evaluaciones exhaustivas en múltiples dominios han mostrado buenos resultados en tareas de clasificación y recuperación de documentos por contenido similar.

Más información

ID de Registro: 67594
Identificador DC: https://oa.upm.es/67594/
Identificador OAI: oai:oa.upm.es:67594
Identificador DOI: 10.20868/UPM.thesis.67594
Depositado por: Archivo Digital UPM 2
Depositado el: 07 Jul 2021 07:50
Ultima Modificación: 07 Jul 2021 12:04
  • Logo InvestigaM (UPM)
  • Logo Sherpa/Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Logo Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Logo del Portal Científico UPM
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo de Recolecta
  • Logo de OpenCourseWare UPM