En muchos campos cient cos, es habitual encontrar magnitudes caracterizadas por la evoluci on de una variable aleatoria a lo largo de alg un continuo (proceso estoc astico). A pesar de que los datos experimentales medidos sobre estas variables son claramente funciones (curvas, super cies o im agenes), hist oricamente su tratamiento ha sido a trav es del an alisis multivariante o de series temporales, perdi endose informaci on importante. Por suerte, los grandes avances que ha experimentado el sector tecnol ogico en los ultimos a~nos, han facilitado el seguimiento y reconstrucci on de las funciones de forma r apida y sin esfuerzo, siendo posible trabajar con las funciones completas. En este escenario, es altamente probable tener datos de alta dimensi on, en los que el n umero de variables es mayor que el n umero de individuos muestreados. Este hecho hace que los m etodos estad sticos tradicionales no sean adecuados. Dependiendo del prop osito nal, en esta tesis se abordan estos datos desde dos perspectivas estad sticas diferentes y complementarias: el An alisis de Datos Funcional (FDA) y el An alisis de la Fiabilidad (RA) basado en las distribuciones de probabilidad Tipo Fase (PH). FDA surge ante la necesidad de construir m etodos que permitan modelizar datos funcionales, cuyas observaciones suelen ser curvas dependiendo del tiempo u otro argumento continuo. En las ultimas d ecadas, se viene realizando una intensa investigaci on en este campo, en el que se han generalizado la mayor a de las t ecnicas multivariantes, especialmente, m etodos de reducci on de la dimensi on, clasi caci on y regresi on. Destaca el An alisis de Componentes Principales (FPCA) porque reduce la dimensi on y explica la estructura de variabilidad en t erminos de un n umero peque~no de variables incorreladas. En el campo de la abilidad, uno de los objetivos es estudiar el comportamiento de sistemas complejos, cuyo funcionamiento est a condicionado por varios factores incontrolables. En este sentido, RA intenta identi car la distribuci on de probabilidad de los datos para arrojar luz sobre la variabilidad que hay detr as del funcionamiento de los sistemas. Una posibilidad es considerar los procesos Markovianos y las distribuciones PH. Esta clase de distribuciones es capaz de aproximar cualquier distribuci on no negativa tanto como se desee gracias a su versatilidad, y permite modelar problemas complejos con resultados bien estructurados. Las contribuciones metodol ogicas de esta tesis se desarrollan en base a problemas de gran inter es impulsados por datos relacionados con las Memorias Resistivas de Acceso Aleatorio (RRAMs) y la pandemia de COVID-19. Las RRAM despiertan un gran inter es porque son una de las principales fuentes de ingresos en la industria, mientras que para mitigar la propagaci on del virus, es crucial desarrollar modelos optimos que ayuden a tomar buenas decisiones. Un nuevo enfoque estad stico basado en las distribuciones PH es desarrollado para analizar la variabilidad de las RRAM, siendo esta uno de los aspectos clave a resolver. Tras un exhaustivo estudio experimental se muestra que las distribuciones PH funcionan mejor que cualquier otra distribuci on y adem as, ayudan a conocer mejor el comportamiento interno de las RRAM. Se construye un nuevo proceso estoc astico de macro-estados considerando el desempe~no interno de los mismos. El tiempo de permanencia en cada uno de estos macro-estado se distribuye mediante una PH. Se muestra como el comportamiento interno del proceso es Markoviano, pero tanto la homogeneidad como la Markovianidad desaparecen para el nuevo modelo de macro-estados. Tambi en se obtienen otras medidas asociadas al modelo. La nueva metodolog a permite modelar sistemas complejos de forma algor tmica, en particular, el ruido producido dentro de las RRAM. FPCA basado en la expansi on de Karhunen-Lo eve permite describir la evoluci on estoc astica de las RRAM. Sin embargo, es esencial identi car la distribuci on de las componentes principales (pc's) para modelizar todo el proceso. Para ello, se introduce una nueva clase de distribuciones, llamada distribuciones Tipo-fase Lineal (LPH). A partir de esta metodolog a se demuestra que, si las pc's siguen una distribuci on LPH, el proceso es caracterizado por una distribuci on LPH en cada punto. En relaci on a las pc's, a veces su interpretaci on no es inmediata y se necesita aplicar una rotaci on para facilitarla. En este sentido, se desarrollan dos nuevos enfoques de rotaci on Varimax funcional basado en la equivalencia entre el FPCA y PCA. El primer m etodo consiste en rotar los autovectores, mientras que el segundo rota las cargas de las puntuaciones de las pc's estandarizadas. Estas rotaciones son aplicadas para interpretar la variabilidad de las curvas de positivos por COVID-19 en las comunidades aut onomas espa~nolas. Adem as, se proponen dos nuevos enfoques param etricos y no param etricos para resolver el problema de la homogeneidad funcional, asumiendo la expansi on b asica de las curvas. Estos m etodos consisten en aplicar los test de homogeneidad multivariante sobre el vector de coe cientes b asicos y sobre el vector de las puntuaciones de las pc's. Esta metodolog a ayudar a a analizar qu e in uencia tienen el material y el grosor empleado en los procesos de fabricaci on sobre el funcionamiento de las RRAM. Para el caso de m as de una variable de respuesta funcional, se extiende la metodolog a anterior basada en el FPCA multivariante para probar la homogeneidad. En particular, se usa para comprobar si existen diferencias signi cativas entre los niveles de varios contaminantes seg un la localizaci on geogr a ca de las estaciones de monitoreo en la Regi on de Abruzzo, Italia. Adem as, se considera un enfoque de medidas repetidas para estudiar si el nivel de cada contaminante se redujo durante el con namiento establecido por el Gobierno Italiano durante la pandemia del COVID-19. Finalmente, se propone un modelo de regresi on m ultiple funci on-sobre-funci on en t erminos de las pc's para la imputaci on de datos faltantes en una variable de respuesta funcional. Se asume que todos los predictores funcionales son completamente observados. Este m etodo permitir a la imputaci on de datos faltantes relacionados con el COVID-19. El contenido de esta tesis est a presentado como un compendio de siete publicaciones. Las versiones completas de los art culos est an incluidas en los Ap endices.
In many scienti c elds, it is usual to nd magnitudes characterized by the evolution of a random variable over some continuum (stochastic process). Despite the experimental data measured on these variables are functions (curves, surfaces or images), historically their treatment has been through multivariate or time-series analysis, losing key information. Luckily, the great advances experimented by the technology sector in last years, have made easier the monitoring and reconstruction of the functions quickly and e ortless, being possible to work with the complete functions. In this scenario, there is a high probability of having high dimensional data, in which the number of variables is greater than the number of sampling individuals. This fact makes that traditional statistical methods could not be appropriate. Depending on the nal purpose, in this thesis these data are tackled from two di erent and complementary statistical perspectives: Functional Data Analysis (FDA) or Reliability Analysis (RA) based on Phase-type (PH) probability distributions. FDA arose facing the need of building robust tools to model and predict functional data, whose observations are normally curves depending on time or any other continuous argument. In the last two decades, FDA has been subject of intensive research in which most multivariate techniques have been generalized, specially dimension reduction, regression and classi cation methods. Functional Principal Component Analysis (FPCA) stands out because reduces the dimension and explains the variability structure in terms of a small number of uncorrelated variables. In the reliability eld, one of the main objectives is to study the behaviour of complex systems, whose operation is conditioned by several uncontrollable variables. In this sense, RA attempts to identify the probability distribution of the data to shed light about the variability behind the systems operation. A suitable solution is to contemplate the Markovian processes and the PH distributions. This class is known to be able to approximate any non-negative distribution as much as desired thanks to its versatility and to model complex problems with well-structured results. The methodological contributions of this thesis are elaborated in based to datadriven problems of great interest related to Resistive Random Access Memories (RRAMs) and COVID-19 pandemic. RRAMs awaken much expectation because are one important source of incomes in the industry, whereas for mitigating the spread of the virus, it is crucial developing suitable models to make correct decisions A new statistical approach based on PH distributions is developed to analyze the RRAM variability, which is one of the key issues to solve. A wide comparison with experimental data shows that the tted PH distributions works better than the classic probability distributions and helps to know the RRAM internal performance. A new stochastic process is built by considering the internal performance of macro-states in which the sojourn time is PH distributed. It is showed as the internal behaviour of the process is Markovian but both the homogeneity and Markovianity is lost for the new macro-state model. Other associated measures are also obtained. The new methodology allows the modeling of complex systems in an algorithmic way, in particular, the noise produced inside the RRAMs. FPCA based on Karhunen-Lo eve expansion enables to characterize the stochastic evolution of RRAMs. Nevertheless, it is essential to identify the distribution of the principal components (pc's) to describe the entire process. In this sense, a new class of distributions, Linear PH (LPH) distributions, are introduced. Speci cally, it was proved that if the principal components are LPH distributed then the process follows a LPH distribution at each point. In relation to pc's, sometimes their interpretation is not immediate and a rotation is needed to facilitate it. We develop two new functional Varimax rotation approaches based on the equivalence between FPCA and PCA. One method consists of rotating the eigenvectors, and the other one, rotates the loadings of the standardized pc's scores. They are applied to interpret the variability of the positive cases curves of COVID-19 in the Spanish autonomous communities. Additionally, two di erent parametric and non-parametric functional homogeneity testing approaches are proposed by assuming a basis expansion of sample curves. They consists of testing multivariate homogeneity on a vector of basis coe cients and on a vector of pc's scores, respectively. This fact will be useful to check the in uence of the material and thickness in the RRAM behaviour. For the case of more than one functional response variable, the previous methodology for testing homogeneity based on multivariate FPCA is extended. It is used to test if there are di erences between the levels of several pollutants in terms of the location of measuring stations in the Region Abruzzo, Italy. Also, an approach for repeated measures is considered to study if the level of each pollutant decreased during the lockdown established by the Italian Government for COVID-19 pandemic. Finally, a multiple function-on-function regression model in terms of pc's is proposed for the imputation of missing data for the functional response, by assuming that the multiple functional predictors are completely observed. This approach will enable to impute missing data related to COVID-19. The content of this thesis are presented as a compendium of seven publications. The full version of the papers is included in the Appendices.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados