Modelos de lenguaje contextuales para la búsqueda e integración de datos tabulares

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/133342
Información del item - Informació de l'item - Item information
Título: Modelos de lenguaje contextuales para la búsqueda e integración de datos tabulares
Autor/es: Pilaluisa, José
Director de la investigación: Tomás, David
Centro, Departamento o Servicio: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
Palabras clave: Procesamiento del lenguaje natural | Modelos de lenguaje | Recuperación de información | Integración de datos | Creación de corpus
Fecha de creación: 2022
Fecha de publicación: 2023
Fecha de lectura: 19-ene-2023
Editor: Universidad de Alicante
Resumen: Esta tesis propone una aproximación para la búsqueda e integración de datos en formato tabular. La novedad de la propuesta radica en el uso de modelos de lenguaje contextuales. Estos modelos han revolucionado el campo del procesamiento del lenguaje natural (PLN) en los últimos años. Sin embargo, son pocas las aproximaciones que han utilizado estos modelos para trabajar con datos estructurados como son las tablas. Si bien existe alguna aproximación para la tarea de búsqueda de tablas, no existen en la actualidad aproximaciones que usen estos modelos en todo el proceso de búsqueda e integración a nivel de unión y combinación de datos. En este trabajo se hace una propuesta de adaptación de estos modelos de lenguaje, originalmente usados sobre datos no estructurados, para ser aplicados sobre datos estructurados. Durante el proceso se evaluará la efectividad de diferentes modelos existentes y se ajustarán sus parámetros de entrada para determinar la configuración más efectiva en la tarea. Además, se contrastarán los modelos contextuales con otros no contextuales, analizando el papel que tiene el contexto en el rendimiento del sistema. El trabajo incluye también un estudio para la mejora del rendimiento de estos sistemas mediante la eliminación de contenido. Para ello, se estudia cómo reducir el número de filas de las tablas afecta a la representación vectorial (word embedding) generada por el modelo de lenguaje. De esta manera se busca determinar la posibilidad de reducir tablas de gran tamaño sin perder representatividad en el espacio semántico que genera el modelo. Por último, la tesis concluye haciendo una propuesta de anotación de datos tabulares para conseguir un conjunto de datos que permita entrenar mejor este tipo de sistemas basado en técnicas de aprendizaje automático. Este apartado incluye un estudio piloto de anotación en el que se desarrolla un corpus inicial de tablas para el propósito indicado.
URI: http://hdl.handle.net/10045/133342
Idioma: spa
Tipo: info:eu-repo/semantics/doctoralThesis
Derechos: Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Aparece en las colecciones:Tesis doctorales

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
Thumbnailtesis_jose_ramiro_pilaluisa_quinatoa.pdf13 MBAdobe PDFAbrir Vista previa


Este ítem está licenciado bajo Licencia Creative Commons Creative Commons