Modelos de lenguaje contextuales para la búsqueda e integración de datos tabulares

José Ramiro Pilaluisa Quinatoa

Ayuda

Modelos de lenguaje contextuales para la búsqueda e integración de datos tabulares

Autores: José Ramiro Pilaluisa Quinatoa
Directores de la Tesis: David Tomás Díaz (dir. tes.)
Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2023
Idioma: español
Número de páginas: 127
Tribunal Calificador de la Tesis: Pietro Manzoni (presid.) , Irene Garrigós Fernández (secret.) , José M. Cecilia (voc.)
Enlaces
- Tesis en acceso abierto en: RUA
Resumen
- español
  Esta tesis propone una aproximación para la búsqueda e integración de datos en formato tabular. La novedad de la propuesta radica en el uso de modelos de lenguaje contextuales. Estos modelos han revolucionado el campo del procesamiento del lenguaje natural (PLN) en los últimos años. Sin embargo, son pocas las aproximaciones que han utilizado estos modelos para trabajar con datos estructurados como son las tablas. Si bien existe alguna aproximación para la tarea de búsqueda de tablas, no existen en la actualidad aproximaciones que usen estos modelos en todo el proceso de búsqueda e integración a nivel de unión y combinación de datos. En este trabajo se hace una propuesta de adaptación de estos modelos de lenguaje, originalmente usados sobre datos no estructurados, para ser aplicados sobre datos estructurados. Durante el proceso se evaluará la efectividad de diferentes modelos existentes y se ajustarán sus parámetros de entrada para determinar la configuración más efectiva en la tarea. Además, se contrastarán los modelos contextuales con otros no contextuales, analizando el papel que tiene el contexto en el rendimiento del sistema. El trabajo incluye también un estudio para la mejora del rendimiento de estos sistemas mediante la eliminación de contenido. Para ello, se estudia cómo reducir el número de filas de las tablas afecta a la representación vectorial (word embedding) generada por el modelo de lenguaje. De esta manera se busca determinar la posibilidad de reducir tablas de gran tamaño sin perder representatividad en el espacio semántico que genera el modelo. Por último, la tesis concluye haciendo una propuesta de anotación de datos tabulares para conseguir un conjunto de datos que permita entrenar mejor este tipo de sistemas basado en técnicas de aprendizaje automático. Este apartado incluye un estudio piloto de anotación en el que se desarrolla un corpus inicial de tablas para el propósito indicado.
- English
  This thesis proposes an approach for searching and integrating data in tabular format. The novelty of the proposal lies in the use of contextual language models. These models have revolutionised the field of natural language processing (NLP) in recent years. However, few approaches have used these models to work with structured data such as tables. Although some approaches exist for the task of table retrieval, there are currently no approaches that use these models in the whole process of search and integration with union and join operators.
  
  In this paper a proposal is made to adapt these language models, originally used on unstructured data, to be applied on structured data. In the process, the effectiveness of different existing models will be evaluated and their input parameters will be adjusted to determine the most effective configuration for the task. In addition, contextual models will be contrasted with non-contextual models, analysing the role of context in the performance of the system.
  
  The work also includes a study of how to improve the performance of these systems by removing content from the tables. To this end, we study how reducing the number of rows in the tables affects the vector representation (word embedding) generated by the language model. In this way, we want to determine the possibility of reducing large tables without losing representativeness in the semantic space generated by the language model.
  
  Finally, the thesis concludes with a proposal for the annotation of tabular data in order to obtain a dataset that allows better training and evaluation of this type of systems based on machine learning techniques. At present, there are no challenging and varied datasets for the integration task, especially in the case of the join operation. A pilot study of annotation is included, in which an initial corpus of tables is developed for the task of searching and integrating tabular data.