La aplicación de técnicas de análisis de datos funcionales correlados en el tiempo y/o espacio constituye un área de investigación relativamente reciente, donde surgen diversos problemas que aún permanecen abiertos. En particular, se requiere la deducción de modelos probabilísticos (procesos puntuales en espacios de funciones) y estadísticos (series espaciales y temporales funcionales), para el análisis de datos de dimensión elevada que suelen presentar estructuras complejas de correlación en el tiempo y/o espacio. Los procesos puntuales se utilizan para explicar la distribución de los puntos generados por mecanismos aleatorios en el tiempo y/o espacio. Dichos procesos permiten modelizar y analizar la incidencia o mortalidad asociados a una enfermedad. En esta tesis, se ha considerado el contexto de los procesos de recuento doblemente estocásticos o procesos de Cox. En particular, se ha adoptado un enfoque estadístico infinito-dimensional, basado en modelos lineales funcionales, para la descripción estadística de la log-intensidad aleatoria. La dinámica espacio-temporal de estos modelos se analiza mediante procesos temporales o espaciales, con valores en un espacio de funciones apropiado. La complejidad de dichos modelos, dada la elevada dimensión del espacio de parámetros (en bastantes ocasiones se trabaja con espacios infinitodimensionales), hace imprescindible la implementación de técnicas apropiadas de reducción de la dimensión, así como la implementación de procedimientos de selección de modelos. Desde el punto de vista teórico, en los siguientes capítulos, se introducen nuevos escenarios para poder aplicar diferentes metodologías de estimación. Por un lado, se desarrollan los procesos de Cox log-gaussianos en espacios de Hilbert con intensidad aleatoria dada por un proceso Ornstein-Uhlenbeck que se aproxima mediante un proceso autorregresivo hilbertiano (ARH). Estos patrones temporales se analizan desde una perspectiva de datos funcionales co-rrelados en el tiempo. Por otro lado, se desarrollan los procesos de Cox dirigidos por log-intensidades espaciales infinito-dimensionales lineales, en este caso, estos patrones espaciales se analizan desde una perspectiva de datos funcionales correlados en el espacio. En cuanto a los enfoques metodológicos adoptados para la estimación, en el ámbito de procesos de Cox dirigidos por una log-intensidad O-U Hilbertvaluada, aproximada mediante un proceso ARH(1), se ha utilizado el método de los momentos empíricos. En el caso de procesos de Cox espaciales dirigidos mediante una log-intensidad aleatoria lineal espacial infinito-dimensional, para la estimación de los parámetros que modelizan la estructura paramétrica del operador de densidad espectral, bajo la condición de estacionariedad espacial, se han aplicado técnicas espectrales funcionales basadas en el operador periodograma que extienden el funcional de Whittle. Como análisis preliminar, se contribuye, en el caso de procesos espaciales real-valuados estacionarios en el espacio, con la obtención de condiciones suficientes que garantizan la consistencia y normalidad asintótica de estimadores de mínimo contraste, basados en el periodograma tapered. De forma concreta, en esta tesis, a partir de una perspectiva de procesos de Cox infinito-dimensionales, o bien, procesos de Cox dirigidos por logintensidades lineales infinito-dimensionales, no necesariamente gaussianas, dentro del ámbito del análisis estadístico funcional de patrones puntuales en el tiempo y/o espacio, se han establecido las siguientes contribuciones: Estudio de consistencia y normalidad asintótica de los estimadores de mínimo contraste para procesos espaciales. Introducción de la clase de procesos temporales de Cox log-gaussianos con log-intensidad aleatoria definida por un proceso Ornstein-Uhlenbeck Hilbert-valuado. Aproximación de los procesos Ornstein-Uhlenbeck Hilbert-valuados mediante procesos ARH(1), utilizando la estimación a partir del método de momentos empíricos y cálculo del predictor plug-in asociado. Introducción de una nueva clase de procesos de Cox dirigidos mediante una log-intensidad lineal Hilbert-valuada. Aquí, la condición de proceso log-gaussiano, o de log-intensidad gaussiana, no es necesaria. Tampoco se requiere en la introducción, ni para el resultado de consistencia, que la log-intensidad sea SARH(1). Sólo se considera de esta forma en la simulación y aplicación. Introducción de nuevas técnicas de estimación por mínimo contraste componente a componente para la familia de procesos anteriormente introducida (en particular, con intensidad SARH). Desarrollo de las condiciones que garantizan la consistencia fuerte de los estimadores propuestos. Ajuste de modelos de tendencia lineal y no lineal en un marco estadístico infinito-dimensional para procesos espacio-temporales de log-riesgo de incidencia y mortalidad en enfermedades. Análisis de los residuos de regresión mediante un enfoque autorregresivo hilbertiano en el contexto bayesiano. Comparación, mediante validación cruzada y técnicas bootstrap, de los enfoques presentados con modelos de regresión o predicción basados en aprendizaje automático. La epidemiología y el estudio en general de la evolución, tanto espacial como temporal, de diversas enfermedades ha sido el marco fundamental considerado para plasmar las contribuciones indicadas. En concreto, se han utilizado datos reales para la estimación y predicción funcional en el tiempo y en el espacio del cáncer de próstata, mama y encéfalo, así como enfermedades respiratorias, en las provincias españolas, a partir de observaciones anuales o mensuales, en periodos que oscilan en torno a treinta años. Además, mediante la implementación de técnicas vistas a lo largo de la tesis, se ha llevado a cabo una aplicación a datos reales, para el análisis de la incidencia de una enfermedad en territorio extranjero. En particular, se ha modelizado la evolución de fiebre de dengue en países americanos durante los últimos años. Por otro lado, dada la situación de emergencia social provocada por la pandemia de COVID–19 en la última etapa de desarrollo de la tesis, se ha considerado pertinente incluir un estudio estadístico sobre la estimación de la evolución espacio-temporal del riesgo de mortalidad, así como de los casos de mortalidad diaria ocasionados por dicha enfermedad en las comunidades autónomas, que permite reflejar, entre otros aspectos, el efecto del primer estado de alarma sobre el comportamiento de dicha evolución. De esta manera, se ha modelizado la mortalidad diaria por COVID–19, en las comunidades españolas, durante la primera ola, en concreto, desde el 8 de marzo de 2020 hasta el 13 de mayo de 2020. Estas últimas aplicaciones prácticas se han desarrollado, a partir de las técnicas estadísticas infinito-dimensionales propuestas en el desarrollo de la tesis, bajo un enfoque clásico y bayesiano, con modificaciones en la metodología de estimación. Posteriormente, en ambos casos se ha realizado una comparativa empírica con otros enfoques. En el caso del riesgo de incidencia anual por fiebre del dengue en países americanos, se ha realizado una comparativa con modelos espacio-temporales tradicionales, incluyendo un modelo de Leroux, un modelo Autorregresivo Condicionado Intrínseco y otro modelo de Besag, York y Mollie. En el caso del riesgo de mortalidad diario por COVID–19 en las comunidades autónomas españolas, los enfoques propuestos se han comparado con otra metodología basada en la estimación por intervalos de confianza y densidades de probabilidad mediante técnicas bootstrap, así como con una batería de modelos en el contexto de Machine Learning, incluyendo Redes Neuronales de Regresión Generalizada, Perceptrón Multicapa, Regresión de Soporte Vectorial, Redes Neuronales Bayesianas, Redes Neuronales a partir de Bases de Funciones Radiales, y Procesos Gaussianos. Además se aborda la selección de modelos en el contexto de la regresión no lineal paramétrica.
The application of techniques for the analysis of functional data correlated in time and/or space is a relatively recent area of research, where a number of problems have arisen and remain open. In particular, the derivation of probabilistic (point processes in function spaces) and statistical (functional spatial and time series) models is required for the analysis of high-dimensional data that often exhibit complex correlation structures in time and/or space. Point processes are used to explain the distribution of points generated by random mechanisms in time and/or space. Such processes allow to model and analyze the incidence or mortality associated with a disease. In this thesis, we have considered the context of doubly stochastic counting processes or Cox processes. In particular, an infinite-dimensional statistical approach, based on functional linear models, has been adopted for the statistical description of the random log-intensity. The spatio-temporal dynamics of these models are analyzed through temporal or spatial processes with values in an appropriate function space. The complexity of these models, given the high dimension of the parameter space (on many occasions we work with infinite-dimensional spaces), makes it essential to implement appropriate dimension reduction techniques, as well as the implementation of model selection procedures. From the theoretical point of view, in the following chapters, new scenarios are introduced in order to apply different estimation methodologies. On the one hand, log-Gaussian Cox processes in Hilbert spaces with random intensity given by an Ornstein-Uhlenbeck process approximated by an autoregressive Hilbertian process (ARH) are developed. These temporal patterns are analyzed from a time-correlated functional data perspective. On the other hand, Cox processes driven by linear infinite-dimensional spatial log-intensities are developed. In this case, these spatial patterns are analyzed from a spatially correlated fun-ctional data perspective. Regarding the methodological approaches adopted for the estimation, in the case of Cox processes driven by an O-U Hilbert-valued log-intensity, approximated by an ARH(1) process, the method of empirical moments has been used. In the case of spatial Cox processes driven by an infinite-dimensional spatial linear random log-intensity, to estimate the parameters modeling the parametric structure of the spectral density operator, under the condition of spatial stationarity, functional spectral techniques based on the periodogram operator extending the Whittle functional have been applied. As a preliminary analysis, we contribute, in the case of spatially stationary real-valued spatial processes, to obtaining sufficient conditions that guarantee the consistency and asymptotic normality of minimum-contrast estimators based on the tapered periodogram. Specifically, in this thesis, from the perspective of infinite-dimensional Cox processes, or Cox processes driven by infinite-dimensional linear log-intensities, not necessarily Gaussian, within the field of functional statistical analysis of point patterns in time and/or space, the following contributions have been established: Study of consistency and asymptotic normality of minimum-contrast estimators in spatial processes. Introduction of the class of temporal log-Gaussian Cox processes with random log-intensity defined by an Ornstein-Uhlenbeck Hilbert-valued process. Approximation of the Ornstein-Uhlenbeck Hilbert-valued processes by ARH(1) processes, using the estimation from the method of empirical moments and calculation of the associated plug-in predictor. Introduction of a new class of Cox processes driven by a linear Hilbertvalued log-intensity. Here, the log-Gaussian process condition, or Gaussian log-intensity, is not required. Neither is it required in the introduction, nor for the consistency result, that the log-intensity is SARH(1). It is only considered in that way in the simulation and application. Introduction of new estimation techniques by minimum componentwise contrast for the previously introduced family of processes (in particular, with SARH intensity). Development of conditions guaranteeing the strong consistency of the proposed estimators. Fitting linear and non-linear trend models in an infinite-dimensional statistical framework for spatio-temporal log-risk processes of disease incidence and mortality. Residual linear correlation in an autoregressive Hilbertian process framework, under a Bayesian approach. Comparison, via cross-validation and bootstrapping techniques, of the presented approaches with regression or prediction models based on machine learning. Epidemiology and the study in general of the evolution, both spatial and temporal, of several diseases has been the fundamental framework considered for the contributions indicated. Specifically, real data have been used for the estimation and functional prediction in time and space of prostate, breast and brain cancer, as well as respiratory diseases, in Spanish provinces, from annual or monthly observations, over periods ranging around thirty years. Furthermore, by implementing the techniques presented throughout the thesis, an application to real data has been carried out to analyze the incidence of a disease in a foreign territory. In particular, the evolution of dengue fever in American countries in recent years has been modeled. On the other hand, given the social emergency situation caused by the COVID-19 pandemic in the last stage of development of the thesis, it has been considered pertinent to include a statistical study on the estimation of the spatio-temporal evolution of the mortality risk, as well as of the daily mortality cases caused by this disease in the Autonomous Communities, which allows reflecting, among other aspects, the effect of the first state of alarm on the behavior of this evolution. In this way, the daily mortality due to COVID-19 in the Spanish Communities during the first wave, specifically from 8 March 2020 to 13 May 2020, has been modeled. The latter practical applications have been developed, based on the infinitedimensional statistical techniques proposed in the development of the thesis, under a classical and Bayesian approach, with modifications in the estimation methodology. Subsequently, in both cases, an empirical comparison has been made with other approaches. In the case of the risk of annual incidence of dengue fever in American countries, a comparison has been made with traditional spatio-temporal models, including a Leroux model, an Intrinsic Condi-tional Autoregressive model and a Besag, York and Mollie model. In the case of daily mortality risk by COVID–19 in the Spanish Autonomous Communities, the proposed approaches have been compared with another methodology based on the estimation by confidence intervals and probability densities using bootstrap techniques, as well as with a battery of models in the context of Machine Learning, including Generalized Regression Neural Networks, Multilayer Perceptron, Support Vector Regression, Bayesian Neural Networks, Neural Networks from Radial Function Bases, and Gaussian Processes. In addition, model selection in the context of parametric non-linear regression is addressed.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados