Resumen de Normalización en desempeño de k-means sobre datos climáticos

Ayuda

Resumen de Normalización en desempeño de k-means sobre datos climáticos

Juan Sebastián Ramírez Gómez, Néstor Darío Duque Méndez, Jorge Julián Vélez Upegui

español
El análisis de clúster sobre datos climatológicos es usado en diversas investigaciones dado que permite obtener resultados interesantes para cada enfoque propuesto. Por tanto, en este trabajo se presenta la evaluación de desempeño del algoritmo de agrupamiento K-Means a partir del uso de normalización aplicada a un conjunto de datos con cuatro variables climatológicas (temperatura, precipitación, humedad relativa y radiación solar) para una estación ubicada en la ciudad de Manizales, Colombia. Esto con el fin de determinar el efecto de aplicar, o no, la normalización en la calidad de los clústeres y evaluar el costo computacional del algoritmo según las características establecidas. Para ello se definen seis escenarios de ejecución para 2, 3 y 5 clústeres con diferente cantidad y agrupación de variables utilizando distancia euclidiana como medida de alejamiento, Davies-Bouldin como método evaluación de calidad de los clústeres y la aplicación de normalización con Z-transformation y Range transformation. Se concluye que, a través de una comparación con k-medoides y aplicación STFT (Transformada de Fourier de Tiempo Reducido), la normalización mejora los resultados y con Z-transformation se obtienen los mejores desempeños de agrupamiento según el índice de Davis-Bouldin.
English
Cluster analysis of climatological data is used in various investigations as it allows interesting results to be obtained for each proposed approach. Therefore, this paper presents the performance evaluation of the K-Means clustering algorithm from the use of standardization applied to a data set with four climatological variables (temperature, precipitation, relative humidity and solar radiation) for a station located in the city of Manizales, Colombia. This in order to determine the effect of applying, or not, the normalization in the quality of the clusters and to evaluate the computational cost of the algorithm according to the established characteristics. For this purpose, six execution scenarios are defined for 2, 3 and 5 clusters with differentquantity and grouping of variables using Euclidean distance as a distance measure, Davies-Bouldin as a quality evaluation method of the clusters and the application of normalization with Z-transformation and Range transformation. It is concluded that, through a comparison with k-medoides and STFT application (Fourier Transform of Reduced Time), the normalization improves the results and with Z-transformation the best grouping performances are obtained according to the Davis-Bouldin index.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Mi Documat

Selección

Coordinado por: