New methodological contributions in time series clustering

Borja Lafuente-Rego

Ayuda

New methodological contributions in time series clustering

Autores: Borja Lafuente-Rego
Directores de la Tesis: José Vilar (dir. tes.)
Lectura: En la Universidade da Coruña ( España ) en 2017
Idioma: inglés
Número de páginas: 184
Tribunal Calificador de la Tesis: Ana María Colubi Cervero (presid.) , Pedro César Álvarez Esteban (secret.) , María Brígida Ferraro (voc.)
Enlaces
- Tesis en acceso abierto en: RUC
Resumen
- español
  Esta tesis presenta nuevos procedimientos para abordar el análisis cluster de series temporales. En primer lugar se propone un procedimiento en dos etapas basado en la comparación de frecuencias y magnitudes de los máximos absolutos de las densidades espectrales. Suponiendo que el propósito es agrupar series de acuerdo con las estructuras de dependencia subyacentes, también se lleva. a cabo un estudio detallado del comportamiento en clustering de una disimilaridad basada en la comparación de las funciones estimadas de las autoco,'afiancias cuantil (QAF). Un algoritmo de remuestreo basado en predicción propuesto por Dudoit y Fridlyand se adapta para seleccionar el número óptimo de clusters. También se estudia el comportamiento asintótico de las autocovariancias cuantites y se introduce un algoritmo para determinar las combinaciones óptimas de lags y pares de niveles de cuantiles para llevar a cabo la clasificación. La. métrica propuesta se utiliza para realizar análisis cluster basado en particiones "hard" y ''soft". En primer lugar, un amplio elltudio de simulación examina el comportamiento de la métrica propuesta en clúster "hard" utilizando los procedimientos jerárquico y PAM. A continuación, se propone un nuevo algoritmo "fuzzy" Cmedoides basado en la disimilaridad QAF. También se presentan tres versiones robustas de este algoritmo "fuzzy" para tratar con datos que contengan atípicos. Finalmente, se exploran otras vías de análisis clus ter "soft", concretamente, D-clustering probabilístico y clustering basado en modelos mixtos.
- English
  his thesis presents new procedures to address the analysis cluster of time series. First of all a two-stage procedure based on comparing frequencies and magnitudes of the absolute maxima of the spectral densities is proposed. Assuming that the clustering purpose is to group series according to the underlying dependence structures, a detailed study of the behavior in clustering of a dissimilarity based on comparing estimated quantile autocovariance functions (QAF) is also carried out. A prediction-based resampling algorithm proposed by Dudoit and Fridlyand is adjusted to select the optimal number of clusters. The asymptotic behavior of the sample quantile autocovariances is studied and an algorithm to determine optimal combinations of lags and pairs of quantile levels to perform clustering is introduced. The proposed metric is used to perform hard and soft partitioning-based clustering. First, a broad simulation study examines the behavior of the proposed metric in crisp clustering using hierarchkal and PAM procedure. Then, a novel fuzzy C-mcdoids algorithm based on the QAF-dissimilarity is proposed. Three different robust versions of this fuzzy algorithm are also presented to deal with data containing outlier time series. Finally, other ways of soft clustering analysis are explored, namely probabilistic 0-clustering and clustering based on mixture models.
- galego
  Esta tese presenta novos procedementos para abordar a análise cluster de series temporais. En primeiro lugar proponse un procedemento en dúas etapas baseádo na comparación de frecuencias e magnitudes dos máximos absolutos das densidades espectrais. Supoñendo que o propósito é agrupar series dacordo coas estruturas de dependencia subxaccntes, tamén se leva a cabo un estudo detallado do comportamento en clustering dunha disimilaridade basea.da na comparación das funcións estimadas das autocovarianzas cuantil (QAF). Un algoritmo de remostraxe baseado na predición proposto por Dudoit e Fridlyand adáptase para selecionar o número óptimo de clusters. Tamén se estuda o comportamento asintótico das autocovarianzas cuantís e se introduce un algoritmo para determinar as combinacións óptimas de lags e pares de niveles de cuantís para levar a cabo a clasificación. A métrica proposta utilízase para realizar análise cluster baseado en particións "hard" e "soft". En primeiro lugar, un amplo estudo de simulación examina o comportamento da métrica proposta en clústering "hard" utilizando os procedementos xerárquico e PAM. A continuación, proponse un novo algoritmo "fuzzy" C-medoides baseado na disimilaridade QAF. Tamén se presentan tres versións robustas deste algoritmo "fuzzy" para tratar con datos que conteñan valores atípicos. Finalmente, explóranse outras vías de análise cluster "soft", concretamente, D-clustering probabilístico e clustering baseado en modelos mixtos.