Evaluación del clustering de páginas web mediante funciones de peso y combinación heurística de criterios

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/1342
Información del item - Informació de l'item - Item information
Título: Evaluación del clustering de páginas web mediante funciones de peso y combinación heurística de criterios
Autor/es: Casillas Rubio, Arantza | Fresno Fernández, Víctor | Martínez Unanue, Raquel | Montalvo Herranz, Soto
Palabras clave: Clustering de páginas web | Funciones de peso | Representación de páginas web | Combinación borrosa de criterios | Web page clustering | Term weighting functions | Web page representation | Fuzzy combination of criteria
Fecha de publicación: sep-2005
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: CASILLAS RUBIO, Arantza, et al. “Evaluación del clustering de páginas web mediante funciones de peso y combinación heurística de criterios”. Procesamiento del lenguaje natural. Nº 35 (sept. 2005), pp. 417-424
Resumen: El clustering de páginas web facilita, entre otras tareas, la valoración y búsqueda de resultados de un buscador de páginas web. Uno de los aspectos clave del proceso de clustering es la función de peso que se aplica a los rasgos seleccionados para representar dichas páginas. Este artículo presenta la evaluación de los resultados de un algoritmo de clustering de partición sobre una colección de referencia de páginas web, utilizando siete funciones de peso distintas y dos tipos de reducción de rasgos. Se han comparado cinco funciones bien conocidas, basadas únicamente en el contenido textual de las páginas web, con otras dos funciones de peso basadas en una combinación heurística de criterios, entre los que destaca la utilización de la información de las anotaciones HTML. Estas dos últimas han sido propuestas, por parte de uno de los autores, en trabajos anteriores. Se ha comprobado que los mejores resultados se obtienen con la función que combina en forma borrosa este tipo de criterios. | Web page clustering can help in the evaluation and search of the results of search engines, among other things. The different term weighting functions applied to the selected features to represent web pages is a main aspect in clustering task. In this paper, seven different term weighting functions are evaluated by means of the results of a partitioning clustering algorithm, with a reference web page collection. In addition, two feature reduction methods are applied. Five of them are well-known term weighting functions from text content analysis; the other two are based on a heuristic criteria combination, which consider HTML mark-up information. These two representations have been proposed in previous works by one of the authors. We have verified that the best results are obtained when the term weighting function based on a fuzzy criteria combination is used.
URI: http://hdl.handle.net/10045/1342
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 35 (septiembre 2005)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_35_51.pdf332,24 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.