Enterprise information integration: an unsupervised proposal for web page classification.

Inmaculada Concepción Hernández Salmerón

Ayuda

Enterprise information integration: an unsupervised proposal for web page classification.

Autores: Inmaculada Concepción Hernández Salmerón
Directores de la Tesis: Rafael Corchuelo Gil (dir. tes.) , David Ruiz Cortés (dir. tes.)
Lectura: En la Universidad de Sevilla ( España ) en 2012
Idioma: inglés
Número de páginas: 142
Tribunal Calificador de la Tesis: Carlos Delgado Kloos (presid.) , José Miguel Toro Bonilla (secret.) , Carlos Alberto Pan Bermúdez (voc.) , Juan Manuel Corchado Rodríguez (voc.) , Manuel Lama Penín (voc.)
Enlaces
- Tesis en acceso abierto en: Idus
Resumen
- La integración de aplicaciones web dentro de procesos automatizados de negocio requiere el diseño de wrappers que permitan ejecutar las consultas de un usuario usando los formularios de búsqueda que ofrece cada aplicación. Dichos wrappers se basan, entre otros componentes, en navegadores automáticos que se encargan de enviar los formularios de búsqueda rellenados previamente y navegar hacia las páginas que contienen la información necesaria para responder las consultas del usuario; posteriormente la información se extrae de dichas páginas mediante un extractor de información. Los navegadores hacen uso de clasificadores de páginas web que les permiten distinguir las páginas que son relevantes de las que no.
  
  En esta tesis, tratamos el problema de cómo diseñar un clasificador de páginas web no supervisado que utilice únicamente la información proporcionada por la URL de las páginas y que no requiere un crawling extensivo del sitio analizado. En la bibliografía, existen muchas propuestas de clasificación de páginas web, pero presentan diversos inconvenientes, concretamente: requieren realizar un crawling previo exhaustivo del sitio web, que es costoso e incluso inviable en algunos casos, son supervisados, lo que exige al usuario que proporcione información de entrenamiento, o usan características de dentro de las páginas para clasificarlas, lo que obliga a descargarlas previamente.
  
  Nuestra contribución es CALA, una nueva propuesta automática de generación de clasificadores de páginas web basados en la URL. CALA genera un conjunto de patrones de URL, que representan las distintas clases de páginas ofrecidas por un sitio web, de forma que una página puede ser clasificada comparando su URL con los patrones y encontrando aquél con el que coincide. Las principales características de CALA son que no tiene ninguno de los inconvenientes anteriores, que es computacionalmente tratable y que ha sido validada mediante experimentos sobre algunos de los sitios web reales más visitados. Nuestra validación sugiere que CALA es muy eficiente y efectiva en la práctica.