On Data Engineering and Knowledge Graphs - A holistic, smarter approach to data enrichment

Daniel Ayala Hernández

Ayuda

On Data Engineering and Knowledge Graphs - A holistic, smarter approach to data enrichment

Autores: Daniel Ayala Hernández
Directores de la Tesis: David Ruiz Cortés (dir. tes.) , Inmaculada Concepción Hernández Salmerón (dir. tes.)
Lectura: En la Universidad de Sevilla ( España ) en 2020
Idioma: inglés
Número de páginas: 12122
Tribunal Calificador de la Tesis: José Miguel Toro Bonilla (presid.) , José Antonio Troyano Jiménez (secret.) , Manuel Lama Penín (voc.) , Ernest Teniente López (voc.) , Carlos Rafael Rivero Osuna (voc.)
Enlaces
- Tesis en acceso abierto en: Idus
Resumen
- español
  En los últimos años ha habido un aumento en el interés por desarrollar grandes repositorios de datos estructurados que permiten la aplicación de algoritmos para tareas como el dar respuestas a preguntas de forma automática, o la recomendación de productos. Esto ha popularizado el uso de y la investigación sobre grafos de conocimiento, que almacenan información como un grafo en el que los nodos representan a entidades con atributos, y las aristas representan relaciones entre ellas. La creación de un grafo de conocimiento de tamaño considerable no es trivial, ya que puede requerir la aplicación de técnicas de ingeniería de datos como la integración de datos de varias fuentes heterogéneas, o el completado de conocimiento ausente en el grafo. Estas toman un grafo de conocimiento inicial y lo enriquecen con datos adicionales. Integrar fuentes heterogéneas involucra integrar datos externos en un esquema local, algo que puede hacerse etiquetando datos externos con clases conocidas (etiquetado semántico), o encontrando equivalencias entre el esquema externo y el local (emparejado). Normalmente, esto se hace usando métricas relacionadas con el formato o los valores de los datos. Las propuestas existentes usan un conjunto de características reducido que en algunos casos puede ser insuficiente para identificar a dos conceptos como equivalentes o diferentes, lo que motiva el diseño de nuevas características más sofisticadas. Completar grafos de conocimiento involucra averiguar qué datos faltan en un grafo de conocimiento, como clases de entidades o relaciones entre ellas. Inferir aristas puede ser visto como un problema de clasificación in el que las aristas candidatas son clasificadas como verdaderas o falsas. Este es un proceso susceptible a fallos en el que una técnica mal entrenada podría introducir una gran cantidad de conocimiento erróneo en el grafo. Por tanto, la creación de recursos para el entrenamiento supervisado y evaluación de estas técnicas es crucial. Para contribuir al estado del arte en estos ámbitos (integración de datos y completado de grafos), hemos desarrollado métodos y herramientas para tres tareas específicas: etiquetado semántico, emparejamiento de propiedades, y evaluación de técnicas de completado de aristas en grafos de conocimiento. Nuestras contribuciones se centran en el uso de ingeniería de datos supervisada, que es de particular relevancia dados los avances recientes en el ámbito del aprendizaje automático. Nuestra evaluación muestra que nuestros métodos obtienen resultados significativamente mejores que las técnicas base estudiadas gracias al uso de grupos novedosos de características que podrían ser integradas en técnicas existentes. Estos resultados se muestran en detalle las publicaciones que presentamos como frutos de nuestra investigación.
- English
  The recent years have seen an increased interest in the development of large, structured data sources that allow the application of algorithms for tasks such as question answering or product recommendations. This has popularized the use of and research about knowledge graphs, which store information as a graph where nodes represent entities with attributes and edges represent relations between them. The creation of a large knowledge graph is not trivial, since it may require the use of data engineering techniques such as integration of data from several heterogeneous sources or the completion of missing knowledge. These take an initial knowledge graph and enrich it with additional facts. Integrating heterogeneous sources involves integrating external data into a local schema, which can be done by labelling external data with known classes (semantic labelling), or finding equivalences between the external schema and the local one (matching). This is usually done by means of similarity metrics or measurements about the format or values of data. Existing proposals use a limited set of features that may in some cases be insufficient to identify two concepts as equivalent or different, which motivates the design of new, more sophisticated features. Completing knowledge graphs involves guessing data that is missing in a knowledge graph, such as entity classes or relations between entities. Guessing missing edges can be seen as a classification problem in which candidate edges are classified as true or false. This is an error-prone process in which a badly trained technique could introduce a great amount of incorrect knowledge into the graph. Therefore, the creation of resources for supervised training and evaluation of such techniques is crucial. In order to make contributions to the state of the art in these fields (data integration and completion), we have developed methods and tools for three specific tasks: semantic labelling, property matching, and evaluation of knowledge graph edge completion techniques. Our contributions focus on the use of supervised data engineering, which is of particular relevance given the recent developments in the field of machine learning. Our evaluation shows that our methods achieve results that are significantly better than those of the studied baselines thanks to the use of novel groups of features which could be integrated into existing techniques. These results are expounded in detail in the publications that we present as fruits of our research.