Study and Prediction of Air Quality in Smart Cities through Machine Learning Techniques Considering Spatiotemporal Components

Ditsuhi Iskandaryan

Ayuda

Study and Prediction of Air Quality in Smart Cities through Machine Learning Techniques Considering Spatiotemporal Components

Autores: Ditsuhi Iskandaryan
Directores de la Tesis: Sergio Trilles Oliver (dir. tes.) , José Francisco Ramos Romero (dir. tes.)
Lectura: En la Universitat Jaume I ( España ) en 2023
Idioma: inglés
Número de páginas: 197
Títulos paralelos:
- Estudio y predicción de la calidad del aire en ciudades inteligentes mediante técnicas de aprendizaje automático considerando componentes espaciotemporales
Tribunal Calificador de la Tesis: Marco Painho (presid.) , Michael Gould (secret.) , Mohammad Mehdi Moradi (voc.)
Enlaces
- Tesis en acceso abierto en: TDX
Resumen
- English
  La calidad del aire es una de las principales preocupaciones de la ciencia, de los gobernantes y la sociedad en general. Las concentraciones elevadas de ciertos contaminantes por encima de los umbrales definidos pueden causar diferentes daños en la salud humana, incluidas las enfermedades cardíacas, daños cerebrovasculares, enfermedad pulmonar obstructiva crónica o cáncer de pulmón. Una mayor información y conocimiento sobre la calidad del aire pueden ser de ayuda para monitorear y controlar de manera efectiva las concentraciones de contaminantes, reduciendo o previniendo los impactos nocivos y las consecuencias asociadas con ellos. Hasta el momento se han incorporado y desplegado varias metodologías y procedimientos en el dominio de la calidad del aire para adquirir y comprender esta información. Sin embargo, la complejidad y la dependencia de la calidad del aire sobre las dimensiones espacial y temporal, hace que su predicción no sea una tarea trivial y genere nuevos desafíos. La tesis actual propone tecnologías de aprendizaje automático y aprendizaje profundo capaces de capturar y procesar información multidimensional y dependencias complejas, en particular, dependencias espaciotemporales que mejoran la predicción de la calidad del aire. La primera contribución clave de este trabajo es una meta-revisión del estado del arte de la predicción de la calidad del aire utilizando tecnologías de aprendizaje automático y profundo, que sirvió como punto de partida y guía a lo largo de la investigación realizada. La segunda aportación es la incorporación y preparación de los datos de calidad del aire, meteorológicos y de tráfico del área de estudio (la ciudad de Madrid) con las dimensiones espaciotemporales y el área delimitada. La tercera contribución es el análisis exploratorio de estos conjuntos de datos para detectar interconexiones existentes y revelar características que tienen un impacto significativo en el pronóstico de la calidad del aire. La cuarta contribución es la implementación de varias técnicas de ingeniería de características, incluidos los enfoques de selección de características y detección de valores atípicos, que, junto con el análisis exploratorio, se reconocen como estrategias potenciales para ayudar a mejorar el rendimiento de los modelos de aprendizaje automático. Finalmente, una quinta contribución es la implementación de modelos de predicción espaciotemporal de la calidad del aire siendo estos evaluados sobre la ciudad de Madrid y diferentes escenarios definidos. En general, las novedades del trabajo actual son: estudio de las componentes espaciotemporal para la predicción de la calidad del aire (dioxido de nitrogeno); integración de datos de calidad del aire, meteorológicos y de tráfico con sus características/variables en una determinada extensión espacial e intervalo temporal; adaptación al efecto externo generado por la pandemia del Covid19 sobre el nivel de calidad del aire; y provisión de los datos y código implementados para incentivar y garantizar la reproducibilidad.
- English
  Air quality is one of the top concerns for science, government, and society stakeholders. Elevated concentrations of certain pollutants above defined thresholds can cause many diseases, including heart disease, stroke, chronic obstructive pulmonary disease and lung cancer. Information and knowledge about air quality can assist in effectively monitoring and controlling pollutant concentrations, reducing or preventing the harmful impacts and consequences associated with it. Various methodologies and procedures have been incorporated and deployed in the air quality domain to acquire and understand this information. However, the complexity of air quality dependence on various components beyond the temporal dimension as well as the spatial dimension creates additional challenges. The current dissertation proposes machine learning and deep learning technologies that are capable of capturing and processing multidimensional information and complex dependencies, in particular, spatiotemporal dependencies controlling the formation of air quality. The first key contribution of the current dissertation is a meta-review of air quality prediction using machine learning and deep learning technologies, and the current state-of-the-art of the domain, which served as an introduction and guide to the further directions of our research. The second contribution is the incorporation of air quality, meteorological and traffic data of the study area (the city of Madrid) in spatiotemporal dimensions over the defined area. The third contribution is the exploratory analysis of these datasets to detect existing interconnections and reveal features that have a significant impact on the air quality forecast. The fourth contribution is the implementation of various feature engineering techniques, including feature selection and outlier detection approaches, which, along with exploratory analysis, are acknowledged as potential strategies to aid in improving model performance. Finally, a fifth contribution is the implementation of spatiotemporal air quality forecasting methods that have been evaluated in the city of Madrid under various defined scenarios. Overall, the following components come together to generate and formulate the novelty of the current work: spatiotemporal forecast of the defined prediction target (nitrogen dioxide); incorporation and integration of air quality, meteorological and traffic data with their features/variables in spatiotemporal dimensions within a certain spatial extent and temporal interval; the consideration of coronavirus disease 2019 as an external key factor impacting air quality level; and provision of the code and data implemented to incentivise and guarantee reproducibility.