Ir al contenido

Documat


Resumen de Análisis de medidas no-supervisadas de calidad en clusters obtenidos por K-means y Particle Swarm Optimization

Andrea Villagra, Ana Guzman, Daniel Raul Pandolfi, Guillermo N. Leguizamón

  • español

    El clustering de datos ayuda a discernir la estructura y simplifica la complejidad de cantidades masivas de datos. Esuna técnica común y se utiliza en diversos campos como, aprendizaje de máquina, minería de datos, reconocimientode patrones, an´alisis de im´agenes y bioinform´atica, donde la distribución de la informaci´on puede ser de cualquiertama˜no y forma. La eficiencia de los algoritmos de clustering es extremadamente necesaria cuando se trabaja conenormes bases de datos y tipos de datos de grandes dimensiones. Este trabajo presenta una evaluaci´on desde distintasperspectivas de una serie de medidas relevantes no-supervisadas de calidad como por ejemplo, cuantizaci´on del error,distancias intra- e inter- cluster, de los clusters obtenidos por el conocido algoritmo de K-means, una metaheur´ısticapoblacional denominada Particle Swarm Optimization (PSO) y un algoritmo h´ıbrido, que combina las caracter´ısticasde los dos algoritmos anteriores, denominado PSO+Kmeans. De los resultados obtenidos se observa que en general elalgoritmo PSO+K-means obtiene mejores resultados en cada una de las medidas generando clusters m´as compactos yseparados entre ellos que los obtenidos por los otros algoritmos.

  • English

    Data clustering helps in discerning the structure and simplifing the complexity of massive quantities of data. It is a common technique used in many fields, including machine learning, data mining, image analysis, and bioinformatics, in which the distribution of information can be of any size and shape. The efficiency of clustering algorithms is strongly required with very large databases and high-dimensional data types. This paper presents an evaluation study, from different perspectives, of several important unsupervised quality measures including quantization error, intra- and inter-cluster distances, obtained by the well-known K-means algorithm and a population-based metaheuristic called Particle Swarm Optimization (PSO) and a hybrid algorithm that combines the characteristics of both algorithms, called PSO+K-means. Results show that in general the PSO+K-means algorithm obtains better results in each measure and generates higher compact and separates clustering than either PSO or K-means alone.


Fundación Dialnet

Mi Documat