Enterprise information integration unsupervised proposals for web information extraction

Hassan A. Sleiman

Ayuda

Enterprise information integration unsupervised proposals for web information extraction

Autores: Hassan A. Sleiman
Directores de la Tesis: Rafael Corchuelo Gil (dir. tes.)
Lectura: En la Universidad de Sevilla ( España ) en 2012
Idioma: inglés
Número de páginas: 152
Tribunal Calificador de la Tesis: José Miguel Toro Bonilla (presid.) , Carlos Alberto Pan Bermúdez (secret.) , Juan Luis Pavón Mestras (voc.) , Emilio Santiago Corchado Rodríguez (voc.) , Carlos Molina Jiménez (voc.)
Enlaces
- Tesis en acceso abierto en: Idus
Resumen
- El objetivo de la integración de información empresarial es ofrecer un acceso uniforme a multiples fuentes de datos, que deben ser tratados como una base de datos única. Los wrappers web son módulos software que tienen como objetivo ofrecer una API para abstraer a los desarrolladores de los detalles requeridos para simular el comportamiento de una persona con los formularios y para transformar los resultados a datos estructurados. Un componente clave en un web wrapper es el extractor de información, que se usa para extraer y estructurar la información de los documentos web. Existen en la actualidad muchas técnicas para aprender las reglas de extracción de información, pero ninguna de ellas es aplicable universalmente. En esta tesis doctoral, nos centramos en las técnicas no supervisadas para aprender estas reglas y los extractores de información basados en heurísticas que no utilizan reglas. Los problemas que estudiamos en esta tesis doctoral son la forma de reducir los costes de desarrollo de las técnicas de extracción de información, la forma de comparar estas técnicas de una forma homogénea y cómo extraer información usando técnicas de extracción eficientes y efectivas. Actualmente, no existe ningún framework para ayudar a los ingenieros del software a diseñar e implementar nuevas técnicas de extracción de información para sitios web semi-estructurados; además, las técnicas no supervisadas existentes tienen diversos problemas que afectan a su aplicación en la práctica. En esta tesis doctoral presentamos una arquitectura de referencia acompañada de un framework para ayudar a los ingenieros del software a desarrollar nuevas técnicas de extracción de información para documentos semi-estructurados. Además, proponemos dos técnicas no supervisadas para la extracción de información que han demostrado ser muy efectivas y eficientes en la práctica.