Análisis no supervisado de observaciones atípicas en la misión espacial Gaia; optimización mediante procesamiento distribuido e integración en Apsis

D. Garabato

Ayuda

Análisis no supervisado de observaciones atípicas en la misión espacial Gaia; optimización mediante procesamiento distribuido e integración en Apsis

Autores: D. Garabato
Directores de la Tesis: Carlos Dafonte (codir. tes.) , Minia Manteiga (codir. tes.)
Lectura: En la Universidade da Coruña ( España ) en 2020
Idioma: español
Número de páginas: 213
Tribunal Calificador de la Tesis: Julián Dorado (presid.) , Carme Jordi Nebot (secret.) , David Teyssier (voc.)
Enlaces
- Tesis en acceso abierto en: RUC
Resumen
- español
  Esta Tesis Doctoral se ha desarrollado en el marco de la misión Gaia de la Agencia Espacial Europea (ESA, del inglés European Space Agency) y del consorcio internacional DPAC (del inglés, Data Processing and Analysis Consortium) , bajo los que se está llevando a cabo el censo estelar más preciso y más completo hasta la fechal que pondrá a disposición de la comunidad científica información astrométrica para más de 2500 millones de fuentes. Los enormes volúmenes de datos que se han de manejar en este contexto -cuya cifra se espera que supere el Petahyte de información-, son propios de un entorno Big Data y suponen todo un reto para la comunidad científica -·-especialrnente para el consorcio DPAC-·, dificultando su almacenamiento y distribución y haciendo imposible su análisis mediante técnicas y aplicaciones convencionales. De este modo, surge la necesidad de emplear estrategias alternativas propias de la Minería de Datos (Data Mining), en las que las aplicaciones se ejecutan de forma distribuida sobre un conjunto de máquinas, tratando de explotar al máximo su capacidad de cómputo, lo que en la actualidad se ha denominado como Big Data. El grupo de investigación en el que se ha realizado esta Tesis forma parte del consorcio DPAC -en colaboración con más de 400 científicos e ingenieros- desde el año 2006, participando en las tareas de análisis de los datos y el desarrollo de herramientas para la explotación del catálogo de la misión. La principal contribución de esta Tesis al proyecto Gaia se ha materializado mediante el paquete de trabajo Outlier Analysis (OA), que se enmarca bajo la cadena de procesado Astrophysical Parameter InfeTence System (Apsis) y cuyo objetivo consiste en el análisis no supervisado o clusiering --empleando técnicas de Inteligencia Artificial (lA )_.- de aquellas fuentes cuya clase astronómica no ha podido ser identificada de forma fiable por el paquete de clasificación predecesor, el Discrete Source Classifier (DSC). En concreto, hemos abordado los siguientes aspectos: Optimización y adaptación del algoritmo de entrenamiento de los Mapas Auto-Organizativos (S0M) a diferentes plataformas de cómputo distribuido ampliamente utilizadas, como son Apache Hadoop y Apache Spark, de forma que se puedan ejecutar en un tiempo aceptable para llevar a cabo el análisis no supervisado de grandes conjuntos de observaciones -principalmente a través de la espectrofotometría BP jRP de Gaia-. Así mismo, también hemos adaptado esta técnica a la plat.aforma SAGA, designada por DPAC para dar soporte a Apsis. Integración del módulo OA en Apsis -y, por tanto, también en la plataforma SAGA- junto con el resto de paquetes de trabajo. Para ello, además de la adaptación de los mapas S0M mencionada anteriormente, hemos tenido que establecer una adecuada estrategia para el preprocesado de los datos --en especial de la espectrofotometría BP/RP-y una serie de mecanismos para la caracterización de los clusters, desde una descripción estadística basada en la información proporcionada por el propio satélite hasta diferentes indicadores de la calidad de los clusters -basados principalmente en las distancias intra-cluster_ o un indicio de su clase astronómica ------obtenida a partir de un etiquetado mediante plantillas-. - Validación de las técnicas utilizadas en el módulo OA para verificar su funcionamiento y su rendimiento en el contexto de Apsls, empleando pequeños conjuntos de datos reales -próximos a los diez millones de observaciones--. De este modo, se pretende garantizar la calidad del análisis no supervisado realizado por el módulo OA, cuyos resultados se publicarán oficialmente a partir de la Data Release 3, prevista para finales de 2021. Para ello, también hemos tenido que definir las estructuras de datos necesarias para su almacenamiento y puesta a disposición de la comunidad científica a través de la plataforma habilitada por DPAC, el Gaia Archive, en el que hemos colaborado durante el proceso de análisis y validación de casos de uso. De forma complementaria, durante el transcurso de esta Tesis hemos participado en el desarrollo de herramientas para Minería de Datos basadas en mapas SOM _y para la visualización de sus resultados-- que permitan la explotación científica del catálogo de la misión. En particular, la herramienta de visualización desarrollada por nuestro grupo de investigación, GUASOM, estará disponible a partir de la Data Release 3, contando con una versión específica -GUASOM flavor DR-3-- para el análisis de los productos del módulo OA. Del mismo modo, también hemos llevado a cabo un estudio de viabilidad acerca de la implantación de Redes de Neuronas Artificiales convencionales y generativas -basadas en técnicas genéticas y propuestas por nuestro grupo de investigación _ para la estimación de parámetros astrofísicos estelares en Apsis, bajo el paquete de trabajo GSP-Spec. Finalmente, hemos aplicado las técnicas de IA utilizadas en el contexto de la misión Gaía --u otras técnicas de similar naturaleza- a otros catálogos, como es el caso del survey astronómico ALHAMBRA, donde hemos realizado un análisis no supervisado de su catálogo, e incluso en otros ámbitos, como es el de la ciberseguridad, para la autenticación de usuarios a partir del análisis de su comportamiento mediante la monitorización continua de su actividad.
- English
  This PhD Thesis has been developed within the framework of the Gaia mission of the European Space Agency (ESA) and the international Data Processing and Analysis Consortium (DPAC), which are conducting the largest and most precise stellar census ever made, and will provide astrometric information for more than 2500 million sources to the scientific community. The enormous volumes of data that must be handled in this context -which are expected to be around a Petabyte of information '-, are those of a Big Data environment and it becomes a challenge to the scientific community ----cspecially to the DPAC consortium-, complicating their storage and distribution and making their analysis by means of common techniques and applications unfeasible. In this way, the usage of alternative Data Mining strategies is needed, so that the applications are executed in a distributed fashion aruong the machines of a cluster, trying to take advantage of the maximum computing power as possible, which has been nowadays narued as Big Data. The research group in which this Thesis has been developed is involved in the DPAC consortium -in collaboration with more than 400 scientists and engineers- since 2006, participating in the data analysis tasks and tools development for the exploitation of the mission catalog. The main contribution of this Thesis to the Gaia project has been materialized through the Outlier Analysis (OA) package, which is part ofthe processing chain narued Astrophysical Parameter lnference System (Apsis), and it is devoted to the unsupervised analysis 01.' dustering ~"·~by means of Artificial lntelligence (Al) techniques"'M- of those sources whose astronomical dass could not be reliably identified by the preceding dassification package, the Discrete Source Classifier (DSC). Specifically, we have addressed the following items: Opt.imization and accommodation of the Self-Organized Maps (SOM) training algorithm to different widely used distributed computing platforms, such as Apache Hacioop and Apache Spark, so that they can be executed in an acceptable time in order to perform an unsupervised analysis of massive datasets -mainly using Gaía BP IRP spectrophotometry-. In the sarue way, we have also adapted this technique to the SAGA fraruework, designated by DPAC to support Apsis. Integration of the OA module into Apsis ·-and, therefore, also into the SAGA platform- together with the other working packages. To do this, apart from the adaptation of SOM mentioned above, we have had to determine an appropriate strategy to preprocess the data -especially the BP IRP spectrophotometry-, as well as sorne mechanisms to characterize the clusters, such as a statistical IV Abstract description based on information gathered by Gaia itself, different indicators about tbe quality of the clusters -mainly based on intra.-cluster distances-, ar a hint Oil their astronomical cIass -obtained by means of a labeling procedure using synthetic templates-. Validation of tbe techniques llsed in the OA module in arder to assess ¡ts right functioning and performance within Apsis, using small sets of real data --arGund ten millian observations_. The main goal of this process i8 to guarantee the quality of the unsupervised analysis performed by the OA module, which will produce results that will be officially published fraro Data Release 3 onwards, expected far tbe end of 2021. To do this, we have also defined the data structures needed for the storage and dissemination to the scientific community through the platform designated by DPAC, the Gaia Archive, in which we have also collaborated during the analysis and validation of use case scenarios. In addition, during the comse of this Thesis, we have contributed to the development of Data Mining tools based on SOM --as well as to the visualization of their resultswhich allow for the scientific exploitation of the mission catalogo Specifically, the visualization tool developed by our research group, GUASOM, will be available from Data Release 3 onwards, with a specific version -GUASOM flavor DR-3- to analyze the products produced by the OA module. In the same way, we have also conducted a feasibility study on Common Artificial Neural Networks, and generative ones -based 011 genetic techniques and proposed by our research group-, in order to estimate steIlar astrophysical parameters within Apsis, under the GSP-Spec working package. Finally, we have applied the Al tecbniques used in the Gaia mission --or other similar tecbniques- to other catalogs, such as the astronomical survey ALHAMBRA, in which we have performed an unsupervised analysis of its catalog, or even otber fields, such as cybersecurity, in order to autbenticate users by analyzing their behavior through a continuous monitorization of their activity.
- galego
  Esta Tese de Doutoramento desenvolveuse no marco da misión Gaia da Axencia Espacial Europea (ESA, do inglés European Space Agency) e do consorcio internacional DPAC (do inglés, Data Processing and Analysis Consortium), baixo os que se está a levar a cabo o censo estelar máis preciso e máis completo ata a data, que porá a disposición da comunidade científica información astrornétrica para máis de 2500 millóns de fontes. Os grandes volumes de datos que se teñen que manexar neste contexto --,-cifra que se estima que supere o Petabyte de información-~, son propios dun entorno Big Data e supón todo un reto para a comunidade científica -especialmente para o consorcio DPAC--", dificultando o seu almacenamento e distribución e facendo imposible a súa análise mediante técnicas e aplicacións convencionais. Deste xeito, xorde a necesidade de empregar estratexias alternativas propias da Minería de Datos (Data Mining), nas que as aplicacións se executan de forma distribuída sobre un conxunto de máquinas, tratando de explotar ao máximo a súa capacidade de cómputo, o que na actualidade se denomina como Big Data. O grupo de investigación no que se realizou esta Tese forma parte do consorcio DPAC -en colaboración con máis de 400 científicos e enxeñeiros-~ dende o ano 2006, participando nas tarefas de análise dos datos e o desenvolvemento de ferramentas para a explotación do catálogo da misión. A principal contribución desta Tese ao proxecto Gaia materializouse mediante o paquete de traballo Outlier Analysis (OA), que se enmarca baixo a cadea de procesado Astrophysical Pammeter Inference System (Apsis) e que ten como obxectivo a análise non supervisada ou clustering ----empregando técnicas de Intelixencia Artificial (lA )-'- das fontes para as que o paquete de clasificación predecesor, o D'iscrefe Source Classifier (DSC), non foi capaz de identificar de forma fiable a súa clase astronómica. En concreto, abordamos os seguintes aspectos: Optimización e adaptación do algoritmo de aprendizaxe dos Mapas Auto-Organizativos (SOM) a diferentes plataformas de cómputo distribuído amplamente utilizadas, como son Apache Hadoop e Apache Spark, de forma que se poidan executar nun tempo aceptable para levar a cabo a análise non supervisada de grandes conxuntos de observacións --principalmente a través da espectrofotometría BP jRP de Gaia-. Así mesmo, tamén adaptamos esta técnica á plataforma SAGA, designada por DPAC para dar soporte a Apsis. _ Integración do módulo OA en Apsis --,e, por tanto, tamén na plataforma SAGAxunto co resto de paquetes de traballo. Para isto, ademais da adaptación dos mapas SOM mencionada anteriormente, tivemos que establecer unha axeitada estratexia para o preprocesado dos datos -en especial da espectrofotometría BP /RP-e unha serie de mecanismos para a caracterización dos clusters, dende unha descrición estadística baseada na información proporcionada polo propio satélite ata diferentes indicadores da calidade dos clusiers -baseados principalmente nas distancias intra-clusier- ou un indicio da súa clase astronómica -'-obtida a partir dun etiquetado mediante modelos sintéticos-o Validación das técnicas utilizadas no módulo OA para verificar o seu funcionamento e o seu rendemento no contexto de Apsis, empregando pequenos conxuntos de datos rcais -próximos aos dez millóns de observacións-·-. Deste xeito, preténdese garantir a calidade da análise non supervisada realizada polo módulo OA, do que se publicarán os seus resultados oficialmente a partir da Data Release 3, prevista para finais de 2021. Para isto, tamén definimos as estruturas de datos precisas para o seu almacenamento e posta a disposición da comunidade científica a través da plataforma habilitada por DPAC, o Gaia Archive, no que colaboramos durante o proceso de análise e validación de casos de uso. De forma complementaria, durante o transcurso desta Tese participamos no desenvolvemento de ferramentas para Minería de Datos baseadas en mapas SOM --e para a visualización dos seus resultados- que permitan a explotación científica do catálogo da misión. En particular, esta ferramenta de visualización desenvolta polo naso grupo de investigación, GUASOM, estará dispoñible a partir da Data Release 3, contando cunha versión específica -GUASOM flavar DR-3- para a análise dos produtos do módulo OA. Do mesmo xeito, tamén levamos a cabo un estudo de viabilidade acerca da implantación de Redes de Neuronas Artificiais convencionais e xenerativas -baseadas en técnicas xenéticas e propostas polo naso grupo de investigación- para a estimación de parámetros astrofísicos estelares en Apsis, baixo o paquete de traballo GSP-Spec. Finalmente, aplicamos as técnicas de lA utilizadas no contexto da misión Gaia --ou outras técnicas de similar natureza-- noutros catálogos, como é o caso do survey astronómico ALHAMBRA, ande realizamos unha análise non supervisada do seu catálogo, e incluso noutros ámbitos, como é o da ciberseguridade, para a autenticación de usuarios a partir do seu comportamento mediante o seguimento continuo da súa actividade.