Ir al contenido

Documat


Resumen de Enterprise Data Integration: On Extracting Data from HTML Tables

Juan C. Roldán

  • español

    La Web es una vía universal de comunicación que contiene un volumen de datos extraordinario sobre una gran variedad de temas. En los últimos años se ha producido un rápido aumento de los productos y servicios que consumen gran cantidad de datos, lo que ha motivado la necesidad de encontrar formas de extraerlos automáticamente. Las tablas HTML son una fuente de datos actualizados que no se está integrando de forma automatizada a las principales bases de conocimiento. La extracción de tablas resulta compleja ya que existe una gran variedad de estructuras y formas de presentar y codificar los datos. Usar extractores de propósito general no es una solución al problema, dado que ignoran las particularidades del rico lenguaje que se usa para representar tablas. En esta tesis hemos estudiado el problema de extraer datos de tablas HTML sin supervisión. Al realizar un análisis exhaustivo de la literatura de extracción de tablas, hemos observado que ninguna de las propuestas disponibles resuelve el problema al completo. Esto nos ha motivado a desarrollar TOMATE, una propuesta de extracción de tablas que abarca todas las tareas involucradas, aunque pone el énfasis en la tarea crucial de identificar la función de las celdas. Nuestro análisis experimental ha demostrado que hemos dado un paso adelante en el estado del arte con varias propuestas que tienen por objeto ayudar a investigadores y profesionales del sector. Durante el desarrollo de esta tesis, hemos producido algunas contribuciones marginales, a saber: Aquila, una propuesta para sintetizar etiquetas de metadatos para ficheros HTML; Kizomba, un extractor general de datos de la Web; y Rómulo, una propuesta para clusterizar datos. Además, hemos colaborado internacionalmente en un proyecto start-up denominado Stargazr en el que tenemos como objetivo poner en práctica gran parte del conocimiento que hemos generado en esta tesis.

  • English

    The Web is a universal communication channel that provides a vast amount of valuable data about a plethora of topics. In recent years, there has been a quick rise of data-hungry products and services that have motivated the need for ways to extract web to feed them with as little effort as possible. HTML tables are a source of up-to-date data that is not being extracted and loaded into major knowledge bases in an automated manner. Extracting them is challenging because there are several common layouts in which data are displayed and they present several encoding and formatting problems; furthermore, the available general-purpose data extractors ignore the particularities of HTML table encodings and do not suffice to deal with the intricacies of web tables. In this dissertation, we have studied the problem of extracting data from HTML tables with no supervision. After completing an extensive review of the literature, we realised that none of the available table-specific proposals provided a holistic approach to solve this problem. This motivated us to work on TOMATE, a table extraction proposal that encompasses every table extraction task with an emphasis in the crucial task of identifying cell functions. Our experimental analysis proved that we have advanced the state of the art with several proposals that are intended to help both researchers and practitioners. While working on this dissertation, we have developed a number of marginal contributions, namely: Aquila, a proposal to synthesise meta-data tags for HTML documents; Kizomba, a general extraction proposal that was called; and Romulo, a proposal to cluster data. Furthermore, we have collaborated on the inception of a start-up project called Stargazr where we hope to put much of the knowledge generated in this dissertation into practice.


Fundación Dialnet

Mi Documat