, Daniel Velez Serrano (dir. tes.)
, Juan Tinguaro Rodríguez González (dir. tes.) 
, Rosa Alonso Sanz (secret.)
, Susana Montes Rodríguez (voc.)
, Alejandro Alvaro Meca (voc.)
, Karina Rojas Patuelli (voc.) 
El análisis de conglomerados, como parte del análisis multivariante de datos, es un conjunto de métodos los cuales tienen como idea principal crear grupos o clústeres con dos condiciones: la primera es que todos los objetos de un grupo han de ser similares u homogéneos, y la segunda es que los objetos han de ser diferentes o heterogéneos cuando pertenezcan a diferentes grupos. Esta tesis se va a centrar en los métodos basados en centroides (medias ponderadas), los cuales asumen el conocimiento a priori del número óptimo de clases, y que recolocan dichos centroides durante un proceso iterativo hasta encontrar una solución o partición del conjunto de datos que sea estable o fija.
Como objetivo principal de esta tesis se persigue el desarrollo de una nueva función objetivo y unos nuevos métodos análisis de conglomerados que obtenga mejores resultados que los existentes en la literatura.
Así, se proponen dos métodos nuevos que utilizan la entropía relativa de Rényi, generalización de la entropía relativa de Kullback-Leibler: uno basado en la métrica euclídea y otro en una métrica kernalizada, y más en concreto el kernel gaussiano. Que permiten cumplir el primer objetivo parcial de esta tesis: el desarrollo de los nuevos métodos matemáticos. Y además, conlleva un segundo objetivo específico, la comparación de estos métodos con otros existentes en la literatura como son el Fuzzy C-Means, el K-Means y otros métodos basados en el uso de entropías y divergencias.
La necesidad de estimación de algunos parámetros de los modelos de análisis de conglomerados de esta tesis con lleva un tercer objetivo específico que se logra mediante el uso del algoritmo de evolución diferencial para la estimación de dichos parámetros. Pero que a su vez obliga a seleccionar una función fitness para el algoritmo de evolución diferencial que sera la medida de validación interna, y por tanto el cuarto objetivo específico de esta tesis.
Las medidas de validación internas consisten, a través de las propiedades de los conjuntos de datos y sin utilizar otro tipo de información externa, en elegir la mejor solución o partición, lo que le convierte en un proceso de aprendizaje no supervisado. Así, en esta tesis se propone una nueva medida de validación interna, denominada CSRR. Dos experimentos se han realizado en esta tesis. El objetivo del primer experimento es analizar en conjuntos reales los nuevos métodos propuestos y compararlos con otros existentes en la literatura también descritos en esta tesis. Al final, es calculada la media de las tasas de aciertos de cada método y conjunto de datos e indica que el método propuesto con distancia kernalizada consigue los mejores resultados tanto en media como en mediana, mientras que el método propuesto con distancia euclídea es el segundo mejor en la comparativa mediante medianas.
El objetivo del segundo experimento es analizar en conjuntos reales la nueva medida de validación propuesta CSRR en diversos métodos de conglomerados difusos, entre ellos los propuestos. Este segundo experimento ha permitido llegar a conclusiones más claras que las obtenidas del primer experimento, se han obtenido mejores tasas de acierto, lo que ha permitido discernir que la influencia de la medida de validación CSRR es importante en su mejora, los contrastes realizados dan resultados más significativos que los del primer experimento y los resultados son más robustos debido al fuerte incremento del número de conjuntos de datos utilizados.
De los experimentos realizados se permite concluir que la utilización de los métodos con la entropía relativa de Rényi como función de penalización y con proporciones de clase en combinación con la medida de validación CSRR propuesta es una mejora con respecto a otros métodos existentes en la literatura.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados