Representación autocontenida de documentos HTML: una propuesta basada en combinaciones heurísticas de criterios

Víctor Fresno Fernández

Ayuda

Representación autocontenida de documentos HTML: una propuesta basada en combinaciones heurísticas de criterios

Autores: Víctor Fresno Fernández
Directores de la Tesis: Ángela Riveiro Seijas (dir. tes.) , Raquel Martínez Unanue (dir. tes.)
Lectura: En la Universidad Rey Juan Carlos ( España ) en 2006
Idioma: español
Tribunal Calificador de la Tesis: Manuel Palomar Sanz (presid.) , Holger Billhardt (secret.) , Manuel de Buenaga Rodríguez (voc.) , Horacio Rodríguez Hontoria (voc.) , Julio Gonzalo Arroyo (voc.)
Texto completo no disponible (Saber más ...)
Resumen
- En esta Tesis doctoral se representa una propuesta de representación autocontenida de páginas web basada en combinaciones heurísticas de criterios, Se proponen dos funciones de ponderación de rasgos como parte de la definición general de un modelo de representación de documentos.
  
  Con estas funciones se pretende determinar el peso que tiene un rasgo en el contenido de un documento HTML; para ello se establece un marco teórico general apoyado en una hipótesis fundamental; la lectura supone un proceso activo donde tanto el autor de un documento, como el lector del mismo, aportan su experiencia y conocimiento previo al procesos informativo documental.
  
  Se parte con el objetivo principal de desarrollar representaciones basadas únicamente en el contenido textual de los documentos HTLM. El ámbito de aplicación será la calificación automática y el clustering de páginas web. Estos procesos pueden utilizarse en la creación de directorios web temáticos o aplicarse sobre los resultados devueltos tras una consulta a un motor de búsqueda en un análisis de la estructura del hipergrafo que forma en sí mismo la Web, así como en un estudio del contenido del texto de la propia página web. Las funciones propuestas tratan de mejorar las representaciones basadas en contenido encontradas en la literatura, y podrán emplearse como representaciones autocontenidas o bien formando parte de representaciones de tipo mixto.
  
  Una de las funciones propuestas en esta tesis, llamada ACCC (Analytical Combination of Criteria), se basa en una combinación lineal de criterios heurísticos extraídos de los procesos de lectura y escritura de textos. La otra, FCC (Fuzzy Combination of Criteria), se construye a partir de una combinación borrosa, o fuzzy, de esos mismos criterios.
  
  Una de las ventajas que ofrecen ACC y FCC es que permiten representar un documento HTML sin necesidad de analizar previamente ninguna colección de referencia. No será necesario extraer información re