Ir al contenido

Documat


Enterprise information integration: an unsupervised proposal for web page classification.

  • Autores: Inmaculada Concepción Hernández Salmerón Árbol académico
  • Directores de la Tesis: Rafael Corchuelo Gil (dir. tes.) Árbol académico, David Ruiz Cortés (dir. tes.) Árbol académico
  • Lectura: En la Universidad de Sevilla ( España ) en 2012
  • Idioma: inglés
  • Número de páginas: 142
  • Tribunal Calificador de la Tesis: Carlos Delgado Kloos (presid.) Árbol académico, José Miguel Toro Bonilla (secret.) Árbol académico, Carlos Alberto Pan Bermúdez (voc.) Árbol académico, Juan Manuel Corchado Rodríguez (voc.) Árbol académico, Manuel Lama Penín (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: Idus
  • Resumen
    • La integración de aplicaciones web dentro de procesos automatizados de negocio requiere el diseño de wrappers que permitan ejecutar las consultas de un usuario usando los formularios de búsqueda que ofrece cada aplicación. Dichos wrappers se basan, entre otros componentes, en navegadores automáticos que se encargan de enviar los formularios de búsqueda rellenados previamente y navegar hacia las páginas que contienen la información necesaria para responder las consultas del usuario; posteriormente la información se extrae de dichas páginas mediante un extractor de información. Los navegadores hacen uso de clasificadores de páginas web que les permiten distinguir las páginas que son relevantes de las que no.

      En esta tesis, tratamos el problema de cómo diseñar un clasificador de páginas web no supervisado que utilice únicamente la información proporcionada por la URL de las páginas y que no requiere un crawling extensivo del sitio analizado. En la bibliografía, existen muchas propuestas de clasificación de páginas web, pero presentan diversos inconvenientes, concretamente: requieren realizar un crawling previo exhaustivo del sitio web, que es costoso e incluso inviable en algunos casos, son supervisados, lo que exige al usuario que proporcione información de entrenamiento, o usan características de dentro de las páginas para clasificarlas, lo que obliga a descargarlas previamente.

      Nuestra contribución es CALA, una nueva propuesta automática de generación de clasificadores de páginas web basados en la URL. CALA genera un conjunto de patrones de URL, que representan las distintas clases de páginas ofrecidas por un sitio web, de forma que una página puede ser clasificada comparando su URL con los patrones y encontrando aquél con el que coincide. Las principales características de CALA son que no tiene ninguno de los inconvenientes anteriores, que es computacionalmente tratable y que ha sido validada mediante experimentos sobre algunos de los sitios web reales más visitados. Nuestra validación sugiere que CALA es muy eficiente y efectiva en la práctica.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno