Ir al contenido

Documat


An improved fuzzy system for representing web pages in clustering tasks

  • Autores: Alberto Pérez García-Plaza
  • Directores de la Tesis: Víctor Fresno Fernández (dir. tes.) Árbol académico, Raquel Martínez Unanue (dir. tes.) Árbol académico
  • Lectura: En la UNED. Universidad Nacional de Educación a Distancia ( España ) en 2012
  • Idioma: español
  • Tribunal Calificador de la Tesis: María Felisa Verdejo Maíllo (presid.) Árbol académico, Julio Gonzalo Arroyo (secret.) Árbol académico, Fernando Martínez Santiago (voc.) Árbol académico, Paolo Rosso (voc.) Árbol académico, Steven Schockaert (voc.) Árbol académico
  • Enlaces
  • Resumen
    • AN IMPROVED FUZZY SYSTEM FOR REPRESENTING WEB PAGES IN CLUSTERING TAKS (UN SISTEMA BORROSO MEJORADO PARA LA REPRESENTACIÓN DE PÁGINAS WEB EN PROBLEMAS DE CLUSTERING) RESUMEN:

      Mantener la información organizada es un factor clave para facilitar el acceso a la misma. Aunque la información que necesitamos a veces este disponible en la Web, esta información no es útil si no somos capaces de acceder a ella. Con este objetivo, es cada vez más habitual el uso de técnicas automáticas para agrupar documentos.

      En esta tesis estamos interesados en el clustering de documentos, que consiste básicamente en agrupar dichos documentos en base a la similitud de sus contenidos. A este respecto, la representación de los documentos juega un papel fundamental en el clustering de páginas web y constituye el foco principal de la investigación llevada a cabo en esta tesis. El lenguaje HTML es la alternativa más común para escribir páginas web. Este lenguaje contiene información explícita (etiquetas, en este caso) sobre su representación visual, la tipografía del texto o incluso su estructura, entre otras cosas. Es también un formato muy común en Internet. El objetivo principal de esta tesis es realizar un estudio en profundidad con la intención de aprovechar al máximo un modelo borroso de representación de documentos HTML para problemas de clustering.

      Nuestro estudio se centra en la idea de descubrir si alguna parte del sistema puede ser explotada de una manera diferente que nos permita mejorar los resultados de clustering. Comenzamos nuestro trabajo analizando las partes del sistema que son susceptibles de mejora y estudiamos diferentes alternativas para realizar dichas mejoras. Por lo tanto, no proponemos un modelo de representación de documentos partiendo de cero, sino que lo construimos tratando de entender, en cada paso, sus diferentes aspectos.

      Para la evaluación de nuestros resultados y la comparación de las diferentes propuestas de representación, utilizamos distintas colecciones de páginas web de referencia que fueron creadas previamente para ser utilizadas como gold standards. El clustering se realiza por medio de algoritmos del estado del arte y nuestras propuestas son validadas en entornos de clustering plano y jerárquico. Finalmente, también tratamos de comprobar la utilidad de nuestras aproximaciones para la representación de páginas web escritas en dos idiomas, Inglés y Español.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno