Algoritmo de clustering on-line utilizando metaheurísticas y técnicas de muestreo

Casillas Rubio, Arantza; González de Lena, María Teresa; Martínez Unanue, Raquel

Algoritmo de clustering on-line utilizando metaheurísticas y técnicas de muestreo

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/1491

Información del item - Informació de l'item - Item information
Título:	Algoritmo de clustering on-line utilizando metaheurísticas y técnicas de muestreo
Autor/es:	Casillas Rubio, Arantza \| González de Lena, María Teresa \| Martínez Unanue, Raquel
Palabras clave:	Clustering de documentos \| Algoritmos genéticos \| Clustering on-line \| Clustering of documents \| Genetic algorithms
Fecha de publicación:	sep-2003
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	CASILLAS RUBIO, Arantza; GONZÁLEZ DE LENA, María Teresa; MARTÍNEZ UNANUE, Raquel. “Algoritmo de clustering on-line utilizando metaheurísticas y técnicas de muestreo”. Procesamiento del lenguaje natural. Nº 31 (septiembre 2003), pp. 57-64
Resumen:	El clustering de un conjunto de documentos consiste en dividirlo en conjuntos disjuntos de clusters (subconjuntos), tales que los documentos pertenecientes al mismo cluster sean "similares" entre sí y sean menos "similares" a los pertenecientes a los demás clusters. En determinadas condiciones el clustering es una tarea computacionalmente muy costosa, verbigracia; trabajar con una colección extensa de documentos sin conocer a priori el número de clusters en los que se agruparán. Si, además, el contexto en el que se va a realizar el clustering requiere una solución en un tiempo que no supere unos pocos segundos, los métodos convencionales de cálculo de un valor óptimo para el número de clusters resultan inadecuados. En este artículo se propone un algoritmo para realizar el clustering de un conjunto de documentos, sin conocer a priori el número de clusters. El énfasis se ha puesto en la reducción del tiempo de cálculo, por lo que podemos afirmar que nuestro algoritmo es capaz de realizar un clustering on-line. Las técnicas utilizadas combinan el uso de una regla de parada global, algoritmos genéticos, técnicas de muestreo estadístico y un algoritmo de clustering clásico. \| Document clustering involves dividing a set of documents into separate clusters (subsets), so that the documents are similar to other documents in the same cluster, and less similars or different from documents in other clusters. In certain conditions the clustering is a computational expensive task, for example: working with a huge collection of documents without prior knowlegdge of the appropriate number of clusters. In addition, if it is necessary a solution in few seconds, the conventional methods of calculation of the optimum number of clusters are unacceptable. In this paper we propose an algorithm for clustering a set of documents, without prior knowlegdge of the appropriate number of clusters. The emphasis has been done in the reduction of the calculation time, reason why we be able to say that our algorithm can achieve a clustering on-line. Our algorithm combines the use of a global stopping rule, genetic algorithms, techniques of statistical sampling and one classic algorithm of clustering.
Patrocinador/es:	Este trabajo de investigación forma parte del proyecto HERMES (TIC2000-0335-C03-03) financiado por el Centro de Investigación Científica y Tecnológica (CICYT) de España.
URI:	http://hdl.handle.net/10045/1491
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 31 (septiembre 2003)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_31_07.pdf		235,81 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo