Ir al contenido

Documat


Enterprise information integration unsupervised proposals for web information extraction

  • Autores: Hassan A. Sleiman
  • Directores de la Tesis: Rafael Corchuelo Gil (dir. tes.) Árbol académico
  • Lectura: En la Universidad de Sevilla ( España ) en 2012
  • Idioma: inglés
  • Número de páginas: 152
  • Tribunal Calificador de la Tesis: José Miguel Toro Bonilla (presid.) Árbol académico, Carlos Alberto Pan Bermúdez (secret.) Árbol académico, Juan Luis Pavón Mestras (voc.) Árbol académico, Emilio Santiago Corchado Rodríguez (voc.) Árbol académico, Carlos Molina Jiménez (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: Idus
  • Resumen
    • El objetivo de la integración de información empresarial es ofrecer un acceso uniforme a multiples fuentes de datos, que deben ser tratados como una base de datos única. Los wrappers web son módulos software que tienen como objetivo ofrecer una API para abstraer a los desarrolladores de los detalles requeridos para simular el comportamiento de una persona con los formularios y para transformar los resultados a datos estructurados. Un componente clave en un web wrapper es el extractor de información, que se usa para extraer y estructurar la información de los documentos web. Existen en la actualidad muchas técnicas para aprender las reglas de extracción de información, pero ninguna de ellas es aplicable universalmente. En esta tesis doctoral, nos centramos en las técnicas no supervisadas para aprender estas reglas y los extractores de información basados en heurísticas que no utilizan reglas. Los problemas que estudiamos en esta tesis doctoral son la forma de reducir los costes de desarrollo de las técnicas de extracción de información, la forma de comparar estas técnicas de una forma homogénea y cómo extraer información usando técnicas de extracción eficientes y efectivas. Actualmente, no existe ningún framework para ayudar a los ingenieros del software a diseñar e implementar nuevas técnicas de extracción de información para sitios web semi-estructurados; además, las técnicas no supervisadas existentes tienen diversos problemas que afectan a su aplicación en la práctica. En esta tesis doctoral presentamos una arquitectura de referencia acompañada de un framework para ayudar a los ingenieros del software a desarrollar nuevas técnicas de extracción de información para documentos semi-estructurados. Además, proponemos dos técnicas no supervisadas para la extracción de información que han demostrado ser muy efectivas y eficientes en la práctica.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno