Resumen de Methods for the statistical analysis of spatio-temporal data1

Ayuda

Resumen de Methods for the statistical analysis of spatio-temporal data1

Adina Alexandra Iftimi

Los primeros intentos de introducir e interpretar datos espaciales aparecieron en forma de mapas de datos. Halley (1686) superpuso en un mapa las ubicaciones y direcciones de los alisios y monzones situados alrededor de los trópicos, y les asignó una explicación física. Más adelante, Snow (1855) dibujó un mapa de Londres, mostrando los casos del brote de cólera de la calle Broad de 1854. Se considera que este es el primer uso de mapas que se hizo con fines de una análisis espacial de datos.

La metodología de la estadística espacial no fue introducida hasta mucho más tarde. Gosset (1907), conocido por su seudónimo Student, estaba interesado en el estudio de la distribución de las partículas en un líquido y, en lugar de analizar las posiciones de las partículas, agregó los datos en pequeñas áreas. En los años 1920 y 1930, R. A. Fisher estableció los principios del método de réplica, muestreo aleatorio y control de bloques. En el campo agrícola se utilizaron algoritmos de vecinos más cercanos para analizar diferentes estudios donde se tuvo en cuenta la dependencia espacial. Actualmente, los métodos estadísticos modernos se aplican en una amplia gama de campos de investigación como cartografía, geología, ecología, biología (estudios botánicos de distribución de plantas, estudios de biogeografía), epidemiología (mapas de enfermedades), econometría espacial, teledetección (geometría computacional), astronomía (estudios de localización de galaxias) y muchos otras.

Los datos espaciales pueden ser de naturaleza continua o discreta. Puede agruparse en regiones pequeñas, o pueden representarse como observaciones individuales. Las ubicaciones espaciales pueden estar distribuidas de manera regular o irregular en una región. De acuerdo con ello, Ccressie (1991) propuso una clasificación de los datos espaciales en tres principales grupos: datos geoestadísticos, datos agregados y patrones puntuales. Cuando un fenómeno se observa como mediciones en un conjunto finito de localizaciones fijas predeterminadas, el resultado son datos geoestadísticos. Cuando la región espacial (regular o irregular) se divide en un número finito de áreas, con límites bien definidos, y los datos se obtienen como observaciones agregadas en cada una de las regiones definidas, obtenemos datos agregados. Y finalmente, cuando el patrón espacial se obtiene observando las localizaciones aleatorias de un fenómeno, estamos en presencia de un patrón puntual.

Cualquier fenómeno puede localizarse utilizando una referencia geográfica. Las enfermedades, las muertes, los nacimientos, la exposición al riesgo u otros eventos, pueden asociarse al lugar donde ocurren, que puede ser coordenadas, direcciones o áreas. Añadir un componente temporal proporciona una mejor visión de la comprensión del proceso estadístico. La primera ley de geografía de Waldo Tobler, todas está relacionado con todo lo demás, pero las cosas cercanas están más relacionadas entre si, nos da una motivación para incluir la relación de vecindad en cualquier análisis espacial. La adición del componente temporal transforma el análisis en una tarea dinámica e integradora, donde la información representa más que sólo números o características estáticas.

Los métodos estadísticos espacio-temporales se están utilizando cada vez más en un intento de explicar el comportamiento de esta amplia gama de eventos. La principal razón para usarlos es reducir la variabilidad inicial del riesgo mediante el uso e intercambio de información entre localizaciones cercanas y momentos temporales próximos.

Los datos espacio-temporales se pueden presentar usando mapas para cada período de tiempo que ayudan a detectar áreas de alto riesgo o áreas con actividad inusual. La epidemiología espacio-temporal, por ejemplo, permite identificar los factores de riesgo individuales y agregados para la salud, convirtiéndose en una herramienta indispensable para la toma de decisiones en salud pública. También permite evaluar dinámicamente los factores de riesgo, analizar su impacto en la población y estimar los potenciales beneficios de las medidas preventivas para la salud pública.

Cabe señalar que en el contexto del análisis estadístico espacio-temporal, 2 + 1 no es igual a 3, debido a que la dimensión temporal es fundamentalmente diferente de las dimensiones espaciales.

La mayoría de los procesos espaciales en la naturaleza son sólo instantáneas de la evolución de los procesos espacio-temporales, pero usar únicamente métodos de análisis espacio-temporales sería un error. El uso de estas técnicas debe hacerse cuando nuestro interés involucra a ambos componentes, espacial y temporal, y no debe llevarse a cabo utilizando únicamente análisis estadísticos de los dos componentes por separado.

Muchos escenarios de la vida real como los terremotos, incidentes de enfermedades o incendios, dan lugar a recopilaciones de datos en donde cada dato, además de tener una localización espacial y una ocurrencia en el tiempo, también lleva otra información útil sobre el evento en cuestión. En el lenguaje de los procesos puntuales, esta información 'extra' se conoce como la marca del suceso. Para ejemplificar, en el caso de los terremotos una marca podría corresponder a la magnitud del mismo. Cuando se asocia una marca a un dato espacio-temporal de esta manera, el mecanismo aleatorio que supuestamente generó la colección total de datos se denomina como un proceso puntual marcado espacio-temporal (MSTPP), y los datos correspondientes se denominan patrón puntual marcado espacio-temporal (Daley and Vere-Jones, 2003; Vere-Jones, 2009; Diggle, 2014). Otras aplicaciones de MSTPP incluyen, entre muchos otros, incidentes de ciertas enfermedades, crímenes, incendios.

Una estructura general de la tesis y sus contribuciones es la siguiente:

El capítulo 2 proporciona un análisis secuencial de los datos espaciales. Comienza con un análisis descriptivo contrastando la aleatoriedad espacial completa y la inhomogeneidad, y continúa con un análisis descriptivos con covariables. Este capítulo presenta una técnica para construir nuevos modelos de Gibbs para patrones puntuales espaciales, propuesta por Baddeley et al. (2013). En este capítulo se analiza el patrón puntual de todos los casos de varicela registrados durante 2013 en Valencia, España. El análisis descriptivo se utiliza para obtener una visión de las propiedades básicas del patrón de puntos. Se hace también uso de la información proporcionada por covariables, como la densidad de la población (niños menores de 14 años) que vive en el área de estudio, la distancia a la escuela más cercana y la composición de las familias (expresada como el promedio de personas por familia), para describir la intensidad del proceso. El software SatScan Kulldorff (2010) se utiliza para identificar los principales clusters de escuelas. Esta información se introduce posteriormente en el modelo. Se presenta una comparación entre diferentes modelos, así como métodos de diagnóstico para elegir el mejor modelo para ajustar los datos.

Esta primera contribución de la tesis es la aplicación del análisis estadístico para los patrones puntuales espaciales a la epidemiología. Como se mencionó anteriormente, este capítulo presenta un análisis espacial para el conjunto de datos de la varicela a través del uso de híbridos de los modelos de Gibbs. Los modelos presentados en este capítulo consiguen describir interacciones a diferentes escalas y también la inhomogeneidad espacial considerando la información de las covariables mencionadas. Se trata de una contribución menor pero interesante a la literatura de los procesos puntuales.

Una segunda contribución atañe al campo de los datos espacio-temporales en retículo. El capítulo 3 presenta un segundo análisis del conjunto de datos de varicela en un formato de datos agregados. En la literatura se han propuesto modelos paramétricos y no paramétricos con diferentes tipos de interacción para analizar datos espacio-temporales. Bernardinelli et al. (1995) propone un modelo paramétrico que asume una tendencia lineal. El artículo de Knorr-Held (2000) sugiere un modelo que combina el modelo espacial definido por Besag et al. (1991) con modelos dinámicos en los que se asume que las tendencias temporales son no lineales y tampoco estacionarias. En particular, los efectos temporales pueden ser vistos como el análogo temporal de los componentes espaciales estructurados en el modelo de Besag et al. (1991). Este modelo permite interacciones espacio-temporales donde cuatro tipos de interacciones surgen naturalmente como el producto de uno de los dos efectos espaciales con uno de los dos efectos temporales. Los métodos de Markov Chain Monte Carlo (MCMC) han dado a la comunidad de usuarios una gran herramienta para analizar estos tipos de modelos para datos complejos. Recientemente se ha desarrollado un método de aproximación para la inferencia bayesiana (INLA) (Rue et al., 2009), que representa una herramienta muy útil al reducir el tiempo de cómputo y presentar una interfaz muy fácil de usar por medio del paquete R-INLA. Las técnicas descritas en el capítulo se aplican al estudio del comportamiento espacial y temporal de los datos de varicela. El estudio de ha dividido en dos partes, un análisis exploratorio de datos espacio-tiempo (ESTDA) y una aplicación de modelos espacio-temporales. Para la primera parte del estudio, el análisis exploratorio espacio-temporal, seguimos la propuesta de Rey (2014). En la segunda parte se propone una metodología estadística con modelos paramétricos y no paramétricos espacio-temporales para datos agregados utilizando un marco bayesiano. Este capítulo representa un compendio interesante de técnicas de análisis espacio-temporales aplicadas para resolver un problema epidemiológico específico.

Los patrones espacio-temporales se observan cada vez más en muchos campos diferentes, como por ejemplo la ecología, la epidemiología, la sismología, la astronomía y la silvicultura. El aspecto común es que todos los sucesos observados tienen dos características básicas: la localización y el momento en el que se registra el evento. En el capítulo 4 nos interesa principalmente la epidemiología, que estudia la distribución, las causas y el control de las enfermedades en una población humana definida. Las localizaciones de los casos dan información sobre el comportamiento espacial de la enfermedad, mientras que los tiempos, medidos en diferentes escalas (días, semanas, años, período de tiempo), dan una idea de la respuesta temporal del proceso global. Un punto esencial a tener en cuenta es que las personas no están uniformemente distribuidas en el espacio. La distribución espacial de la población en riesgo es crucial cuando se analizan patrones espacio-temporales de enfermedades. Modelos realistas que se ajusten a los datos epidemiológicos deben incorporar la inhomogeneidad espacio-temporal y permitir diferentes tipos de dependencia entre los puntos. Una clase importante de modelos es la familia de procesos puntuales de Gibbs, definida por su función de densidad de probabilidad (Van Lieshout, 2000; Ripley, 1988, 1989), y en particular, la subclase de procesos de interacción por pares. Ejemplos bien conocidos de procesos de interacción por pares son el modelo de Strauss (Kelly and Ripley, 1990; Strauss, 1975) o el proceso hard-core, un caso particular del modelo de Strauss en el que ningún punto se aproxima a otro más allá de un umbral dado. Sin embargo, los modelos de interacción por pares no siempre son una opción adecuada para ajustar los patrones agrupados. La mayoría de los procesos naturales exhiben interacción a múltiples escalas. Los procesos clásicos de Gibbs modelan la interacción espacial en una sola escala, sin embargo las generalizaciones multi-escala han sido propuestas en la literatura (Ambler and Silverman, 2010; Gregori et al., 2003; Picard et al., 2009). El capítulo 4 propone una nueva extensión del modelo área-interacción para procesos puntuales (Baddeley and van Lieshout, 1995) que permite la interacción a multi-escalas en un marco espacio-temporal, permitiendo también la inclusión de covariables. El contenido del capítulo representa una contribución metodológica importante en la que definimos y damos las propiedades de Markov de nuestro modelo. A continuación, proponemos una modificación de los algoritmos de simulación de Metropolis-Hastings y birth-and-death. Para la inferencia utilizamos el método de la pseudo-verosimilitud y adaptamos el procedimiento de Berman-Turner (Baddeley and Turner, 2000) a nuestro contexto. La última parte del capítulo aplica el nuevo modelo propuesto al conjunto de datos de varicela.

Una segunda contribución metodológica se presenta en el capítulo 5. Este capítulo tiene como objetivo desarrollar herramientas de proceso puntuales que nos permitan realizar los llamados análisis no paramétricos de segundo orden de patrones puntuales espacio-temporales marcados. Para analizar la interacción en este tipo de procesos se introduce medidas de momentos reducidos de segundo orden marcados y K- funciones.

Nuestra contribución combina las ideas de Gabriel and Diggle (2009) con las de Cronie and van Lieshout (2016) para definir una K- función, para los MSTPPs no homogéneos. En términos generales, la K-función describe la interacción, en el sentido de Gabriel and Diggle, 2009, entre puntos pertenecientes al conjunto de marcas C y los puntos pertenecientes al conjunto de marcas D, para un MSTPP no homogéneo.

Obsérvese que para todos los estadísticos de resumen anteriores, uno de los principales objetivos ha sido considerar su estimación no paramétrica. Una parte significativa del capítulo 5 está dedicado a la estimación no paramétrica. Estos estadísticos de resumen, que nos permiten cuantificar la dependencia entre diferentes marcas-categorías de los puntos, dependen del espacio de las marcas y de la medida marcada de referencia elegida. Se propone un nuevo test para el marcado independiente y se derivan los estimadores de minus-sampling para todas las estadísticas consideradas. Además, estudiamos los estimadores Voronoi de la intensidad de los MSTPPs. Estos nuevos estadísticos se emplean finalmente para analizar el conjunto de datos de los terremotos antes mencionados. Encontramos que el fenómeno de agrupamiento se observa entre los terremotos principales y terremotos anteriores/posteriores en prácticamente todas las escalas de espacio y tiempo. Además, encontramos evidencia de que, condicionalmente en las localizaciones espacio-temporales de los terremotos, las magnitudes no se comportan como una secuencia independiente e idénticamente distribuida.

El trabajo presentado representa un punto de partida dé lo que podrían ser futuras líneas de investigación, algunas de las cuales describimos a continuación.

Para un trabajo futuro, sería interesante aplicar el modelo presentado en el capítulo 4 a otras enfermedades que pueden exhibir interacción en varias escalas en el espacio y el tiempo. También sería muy interesante aplicar el modelo a datos que no están necesariamente relacionados con la epidemiología. Los patrones de terremotos, por ejemplo, tienden a mostrar agregación, pero también inhibición a diferentes escalas. De hecho, creemos que el modelo propuesto puede ser aplicado en una amplia gama de campos de investigación, tales como la silvicultura, la geología y la sociología.

Otras aplicaciones directas de la metodología presentada en el capítulo 5 se pueden encontrar en, por ejemplo, epidemiología y criminología. Actualmente estamos estudiando conjuntos de datos relacionados con estos campos. En particular, nuestro conjunto de datos de casos de varicela. Además estamos analizando los datos sobre delitos en Valencia, España. Téngase en cuenta que para ambas aplicaciones puede ser más relevante considerar las versiones multivariantes de los estadísticos de resumen

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Mi Documat

Selección

Coordinado por: