Exploring disease mapping models in big data contexts: some new proposals

Erick Orozco Acosta

Ayuda

Exploring disease mapping models in big data contexts: some new proposals

Autores: Erick Orozco Acosta
Directores de la Tesis: Aritz Adin Urtasun (dir. tes.) , María Dolores Ugarte Martínez (dir. tes.)
Lectura: En la Universidad Pública de Navarra ( España ) en 2023
Idioma: inglés
Número de páginas: 114
Títulos paralelos:
- Explorando modelos de mapeo de enfermedades en contextos de big data: algunas propuestas nuevas
Enlaces
- Tesis en acceso abierto en: Academica-e
Resumen
- español
  La representación cartográfica de enfermedades es un área de investigación muy relevante y significativa dentro del campo de la estadística espacial (datos de área), ya que ofrece un apoyo muy importante para la toma de decisiones en materia de salud pública. Debido a la gran variabilidad de los estimadores de riesgo clásicos, como la razón de mortalidad estandarizada (RME), el uso de modelos estadísticos complejos resulta esencial para obtener una representación más coherente del riesgo de enfermedad subyacente. Durante las últimas décadas se han propuesto en la literatura varios modelos estadísticos para suavizar riesgos espacio-temporales, la mayoría de ellos considerando modelos que incorporan efectos aleatorios con distribuciones a priori condicionales autorregresivas (CAR), basándose en el trabajo seminal de Besag et al. (1991). Sin embargo, la escalabilidad de estos modelos, concretamente su viabilidad en escenarios en los que el número de áreas pequeñas aumenta significativamente, no ha sido estudiada suficientemente. Por lo tanto, el principal objetivo de esta tesis es proponer nuevos métodos de modelización bayesiana escalables para suavizar riesgos (o tasas) de incidencia/mortalidad en datos de área espaciales y espacio-temporales de alta dimensión. La metodología está basada en el principio de “divide y vencerás”. La presente tesis aborda en concreto los objetivos descritos a continuación. El primer objetivo es revisar la bibliografía más reciente acerca de las principales aportaciones en el ámbito espacial y espacio-temporal que son relevantes para los objetivos de esta investigación. El capítulo 1 ofrece una visión general del ajuste y la inferencia de modelos, centrándose en la técnica INLA, basada en aproximaciones de Laplace anidadas e integración numérica, ampliamente utilizada para modelos Gaussianos latentes dentro del paradigma Bayesiano (Rue et al., 2009). En este capítulo también se proporcionan aproximaciones de criterios de selección de modelos basados en la desviación Bayesiana (denominada deviance en inglés) y la distribución predictiva bajo las nuevas propuestas de modelos escalables. También se incluye una breve descripción del paquete bigDM de R, que implementa todos los algoritmos y modelos propuestos en esta disertación. El segundo objetivo de esta tesis es proponer un método de modelización Bayesiana escalable para el tratamiento de datos de área espaciales de alta dimensión. En el Capítulo 2, se facilita una descripción exhaustiva de una nueva metodología de suavización de riesgos. También se lleva a cabo un estudio de simulación multiescenario que incluye casi 8 000 municipios españoles para comparar el método propuesto con un modelo global tipo CAR en términos de bondad de ajuste y precisión en la estimación de la superficie de riesgos. Además, se ilustra el comportamiento de los modelos escalables analizando datos de mortalidad por cáncer de colon y recto en hombres para municipios españoles utilizando dos estrategias diferentes de partición del dominio espacial. El tercer objetivo es ampliar el enfoque de modelización Bayesiana escalable para suavizar riesgos de mortalidad o incidencia espacio-temporales de alta dimensión. En el capítulo 3, se presenta una descripción exhaustiva de los modelos CAR espaciotemporales propuestos originalmente por Knorr-Held (2000), que son la base de la nueva propuesta de modelización para analizar datos de área espacio-temporales. El capítulo también explica las estrategias de paralelización y computación distribuida implementadas en el paquete bigDM para acelerar los cálculos mediante el uso del paquete future (Bengtsson, 2021) de R. Se realiza un estudio de simulación para comparar la nueva propuesta escalable con dos estrategias de fusión diferentes frente a los modelos CAR espacio-temporales tradicionales utilizando el mapa de los municipios españoles como plantilla. Además, se evalúa la nueva propuesta en términos de tiempo computacional. Finalmente, se ilustran y comparan todos los enfoques descritos en este capítulo analizando la evolución espacio-temporal de la mortalidad por cáncer de pulmón en hombres en los municipios españoles durante el periodo 1991-2015. El cuarto objetivo es evaluar la idoneidad del método desarrollado en el Capítulo 3 para la previsión a corto plazo de datos de alta resolución espacial. En el Capítulo 4, se presenta el modelo CAR espacio-temporal que incorpora observaciones faltantes en la variable respuesta para los periodos de tiempo que se van a pronosticar. Adicionalmente, se realiza un estudio de validación para evaluar la capacidad predictiva de los modelos para predicciones a uno, dos y tres periodos utilizando datos reales de mortalidad por cáncer de pulmón en municipios españoles. En este capítulo, también se compara la capacidad predictiva de los modelos utilizando medidas de validación cruzada (denominadas en inglés leave-one-out y leave-group-out) (Liu and Rue, 2022). El quinto objetivo es transversal a todos los capítulos. El objetivo es desarrollar un paquete en lenguaje R de código abierto llamado bigDM (Adin et al., 2023b) que consolida todos los métodos propuestos en esta disertación haciéndolos fácilmente disponibles para su uso por la comunidad científica. La tesis finaliza con las principales conclusiones de este trabajo y detalla futuras líneas de investigación.
- English
  Disease mapping is a highly relevant and significant research area within the field of spatial statistics (areal data), as it offers invaluable support for public health decision-making. Due to the high variability of classical risk estimators, such as the standardized mortality ratio (SMR), the use of statistical models becomes essential to obtain a more consistent representation of the underlying disease risk. During the last decades, several statistical models have been proposed in the disease mapping literature for smoothing risks in space and time, most of them extending the seminal work of Besag et al. (1991) based on conditional autoregressive (CAR) priors. However, the scalability of these models, specifically their utility in scenarios where the number of small areas increases significantly, has not been extensively studied. Thus, the main purpose of this dissertation is to propose new scalable Bayesian modelling methods to smooth incidence/mortality risks (or rates) in high-dimensional spatial and spatio-temporal areal data based on the “divide-and-conquer” approach. The current dissertation is developed with the following main objectives. The first objective is to review the literature about the main contributions of spatial and spatio-temporal disease mapping that are relevant to the research goals. Chapter 1 provides a general overview of model fitting and inference focusing on the widely used integrated nested Laplace approximation (INLA) technique for latent Gaussian models within the Bayesian paradigm (Rue et al., 2009). The chapter also covers the description of how to compute approximations of model selection criteria based on the deviance and the predictive distribution under our scalable model proposals. A brief description of the R package bigDM is also included, which implements all the algorithms and models proposed in this dissertation. The second objective of this dissertation is to propose a scalable Bayesian modelling method for handling high-dimensional spatial count data. In Chapter 2, we provide a comprehensive description of our novel risk smoothing method. We also conduct a multi-scenario simulation study involving nearly 8000 Spanish municipalities to compare our proposed method with the well-known CAR models in terms of goodness of fit and risk estimation accuracy. Additionally, we illustrate the behaviour of the scalable models by analysing male colorectal cancer mortality data from Spanish municipalities using two different partition strategies of the spatial domain. The third objective is to extend our scalable Bayesian modelling approach for smoothing mortality or incidence risks to analyze high-dimensional spatio-temporal count data. In Chapter 3, we present a comprehensive description of the spatiotemporal CAR models originally proposed by Knorr-Held (2000), which are the basis of our new modelling proposal for analyzing spatio-temporal areal data. The chapter also explains the parallel and distributed strategies implemented in the bigDM package to speed up computations by using the R package future (Bengtsson, 2021). A simulation study is conducted to compare our new scalable proposal with two different merging strategies against traditional spatio-temporal CAR models using the map of the Spanish municipalities as a template. Additionally, we evaluate our proposal in terms of computational time. Finally, we illustrate and compare all the approaches described in this chapter by analyzing the spatio-temporal evolution for male lung cancer mortality data in Spanish continental municipalities during the period 1991-2015. The fourth objective is to assess the suitability of the method developed in Chapter 3 for short-term forecasting in high spatial resolution data. In Chapter 4, we present the spatio-temporal CAR model, which incorporates missing observations in the response variable for the time periods to be forecasted. Additionally, a validation study is conducted to assess the predictive ability of the models for one, two and three periods ahead forecasting using real lung cancer mortality data in Spanish municipalities. In this chapter, we also compare the predictive performance of the models using scoring rules based on leave-one-out and leave-group-out cross-validation strategies (Liu and Rue, 2022). The fifth objective is transversal to all chapters. The aim was to develop an open-source R language package named bigDM (Adin et al., 2023b) that consolidates all the methods proposed in this dissertation making them readily available for use by the scientific community. The dissertation ends with the main conclusions and future research lines.