Multidimensional clustering with Bayesian networks

Rodríguez Sánchez, Fernando (2021). Multidimensional clustering with Bayesian networks. Tesis (Doctoral), E.T.S. de Ingenieros Informáticos (UPM). https://doi.org/10.20868/UPM.thesis.69344.

Descripción

Título: Multidimensional clustering with Bayesian networks
Autor/es:
  • Rodríguez Sánchez, Fernando
Director/es:
Tipo de Documento: Tesis (Doctoral)
Fecha de lectura: 2021
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of FERNANDO_RODRIGUEZ_SANCHEZ.pdf]
Vista Previa
PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (2MB) | Vista Previa

Resumen

The evolution of communication and a continued globalization process have resulted in bigger quantities of data being storaged. However, data has not only increased in volume but also in complexity. Nowadays, more and more data is collected from different measurement methods. In this context, traditional clustering algorithms are unable to comprehensively describe all of the contained information. That is why new clustering techniques that consider multiple dimensions of data are more necessary than ever. One of these techniques is multidimensional clustering, which extends model-based clustering by learning mixture models with multiple categorical latent variables. Each latent variable identifies a dimension along which data are partitioned into clusters. Each dimension is conformed of a different subset of domain variables. Bayesian networks are useful in multidimensional clustering for several reasons. First, their graphical structure allows for an easier interpretation, showing which variables are relevant for each clustering. Second, their conditional independences result in more compact models that are easier to learn. Finally, Bayesian networks support probabilistic inference, which is useful for making predictions, diagnoses and explanations. In this dissertation we explore the problem of learning Bayesian network models for multidimensional clustering. Although there is an extensive literature on multidimensional clustering methods for categorical data and for continuous data, there is a lack of work for mixed data (i.e., data that is composed of both categorical and continuous variables). For this reason, we propose approaches that are able to efficiently deal with mixed data by exploiting the Bayesian network factorization and the variational Bayes framework. More specifically, we make the following contributions. First, we present an incremental algorithm for learning conditional linear Gaussian Bayesian networks with categorical latent variables whose structures are restricted to forests. The learning process is divided in two phases. In the first phase, the forest structure is expanded with a new arc or latent variable. In the second phase, the cardinalities of latent variables are estimated. Furthermore, we devise a variant of this algorithm that only considers a subset of the possible structures and demonstrate the effectiveness of the approach. Second, we develop a greedy algorithm for learning conditional linear Gaussian Bayesian networks with categorical latent variables that are not restricted to tree-like structures. To this purpose, the proposed method hill-climbs the space of models using a series of latent operators and a variational Bayesian version of the structural expectation-maximization algorithm. Finally, we present a multidimensional clustering study with Parkinson’s disease data where we apply the proposed methodology. We consider data from a large, multi-center, international, and well-characterized cohort of patients. As a result, eight sets of motor and non-motor symptoms are identified. Each of them provides a different way to group patients: impulse control issues, overall non-motor symptoms, presence of dyskinesias and psychosis, fatigue, axial symptoms and motor fluctuations, autonomic dysfunction, depression, and excessive sweating. ----------RESUMEN---------- La evolución de la comunicación y un proceso de globalización continuado han dado lugar a que se almacenen mayores cantidades de datos. Sin embargo, los datos no solo han aumentado en volumen sino también en complejidad. Hoy en día, cada vez se recopilan más datos de diferentes métodos de medición. En este contexto, los algoritmos de clustering tradicionales no pueden describir de manera integral toda la información contenida. Es por esto que son necesarias nuevas técnicas de clustering que consideren múltiples dimensiones de los datos. Una de estas técnicas es el clustering multidimensional, el cual extiende el clustering basado en modelos al aprender modelos de mixturas con múltiples variables latentes categóricas. Cada una de estas variables latentes identifica una dimensión en la cual los datos son divididos en grupos. Cada dimensión se conforma de un conjunto diferente de variables observadas. Las redes Bayesianas son interesantes en el clustering multidimensional por varias razones. En primer lugar, su estructura gráfica permite una interpretación más sencilla, mostrando qué variables son relevantes para cada clustering. En segundo lugar, sus independencias condicionales dan como resultado modelos más compactos y fáciles de aprender. Finalmente, las redes Bayesianas ofrecen la posibilidad de emplear inferencia probabilística, la cual es útil para realizar predicciones, diagnósticos y explicaciones. En esta tesis, exploramos el problema de aprender modelos de redes Bayesianas para clustering multidimensional. Si bien existe una extensa literatura sobre métodos de clustering multidimensional con datos categóricos y con datos continuos, no se ha estudiado en profundidad el caso de datos mixtos (i.e., aquellos que se encuentran formados tanto de variables categóricas como de variables continuas). Por este motivo, proponemos varios enfoques que pueden tratar de manera eficiente con datos mixtos mediante la explotación de la factorización de la red Bayesiana y del framework variacional Bayesiano. Más concretamente, realizamos las siguientes aportaciones. En primer lugar, presentamos un algoritmo incremental para el aprendizaje de redes Bayesianas Gaussianas lineales condicionales con variables latentes categóricas cuyas estructuras se encuentran restringidas a bosques. El proceso de aprendizaje se divide en dos fases. En la primera fase, la estructura del bosque se expande con un nuevo arco o variable latente. En la segunda fase, se estiman las cardinalidades de las variables latentes. Además, diseñamos una variante de este algoritmo que solo considera un subconjunto de las posibles estructuras y demostramos la efectividad de este método. En segundo lugar, desarrollamos un algoritmo voraz para el aprendizaje de redes Bayesianas Gaussianas lineales condicionales con variables latentes categóricas cuyas estructuras no se restringen a bosques. Nuestro método explora el espacio de modelos mediante una serie de operadores latentes y una versión variacional Bayesiana del algoritmo estructural de esperanza-maximización. Finalmente, presentamos un estudio de clustering multidimensional con datos de la enfermedad de Parkinson, donde aplicamos la metodología propuesta a lo largo de la tesis. En este estudio, consideramos datos de una cohorte de pacientes grande, multicéntrica, internacional, y bien caracterizada. Como resultado, identificamos ocho conjuntos de síntomas motores y no motores. Cada uno de ellos proporciona una forma diferente de agrupar a los pacientes: problemas de control de impulsos, síntomas generales no motores, presencia de discinesias y psicosis, fatiga, síntomas axiales y fluctuaciones motoras, disfunción autonómica, depresión, y sudoración excesiva.

Proyectos asociados

Tipo
Código
Acrónimo
Responsable
Título
Gobierno de España
C080020-09
Sin especificar
Sin especificar
Cajal Blue Brain Project
Gobierno de España
TIN2016-79684-P
MILANO-BAYES
Sin especificar
Avances en clasificación MultidImensionaL y detección de ANOmalías con redes BAYESianas
Gobierno de España
PID2019-109247GB-I00
Sin especificar
Sin especificar
Sin especificar
Comunidad de Madrid
S2013/ICE-2845
CASI-CAM-CM
Sin especificar
Conceptos y Aplicaciones de los Sistemas Inteligentes
Horizonte 2020
945539
HBP SGA3
EBRAINS
Human Brain Project Specific Grant Agreement 3

Más información

ID de Registro: 69344
Identificador DC: https://oa.upm.es/69344/
Identificador OAI: oai:oa.upm.es:69344
Identificador DOI: 10.20868/UPM.thesis.69344
Depositado por: Archivo Digital UPM 2
Depositado el: 10 Ene 2022 07:03
Ultima Modificación: 30 Nov 2022 09:00
  • Logo InvestigaM (UPM)
  • Logo Sherpa/Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Logo Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Logo del Portal Científico UPM
  • Logo de REBIUN Sexenios Logo de la ANECA
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo de Recolecta
  • Logo de OpenCourseWare UPM