Les dades composicionals fan referència a dades multivariants en què les variables representen parts d’un tot. Aquest tipus de dades són habituals en àmbits com ara la geologia, la biologia molecular, l’economia i la química, per citar-ne nomes alguns. Normalment, estan limitades a sumar una cons- tant, com ara 1 o 100 %, tot i que, de manera més general, també poden aparèixer sense aquesta restricció. Un aspecte clau a tenir en compte en l’anàlisi de dades composicionals és que la informació rellevant no es troba en els valors absoluts de les parts, sinó en les relacions relatives entre elles. Els mètodes estadístics tradicionals, que pressuposen variables sense restriccions i que consideren el valor absolut de les parts, poden conduiria resultats enganyosos o incoherents. Això inclou, especialment, correlacions espúries. Aquestes es produeixen quan les relacions entre les parts semblen significatives però, en realitat, són el resultat de les restriccions inherents a la naturalesa composicional de les dades, i no de cap relació real entre les variables. Per evitar aquests problemes, és essencial utilitzar mètodes que tinguin en compte la naturalesa relativa de les dades, ´es a dir, que utilitzin la geometria específica de les dades composicionals, la coneguda com geometria d’Aitchison.
La geometria d’Aitchison proporciona un marc rigorós i coherent per a l’anàlisi composicional de les dades. Aquesta geometria introdueix operacions específiques com ara la pertorbació (equivalent a la suma), la potenciació (equivalent al producte per escalars) i un producte escalar, dissenyades per respectar l’estructura particular de l’espai mostral, el símplex. Un concepte central en aquest camp ´es l’isomorfisme logarítmic. Aquesta transformació permet l’aplicació de logquocients i balanços, fent possible treballar amb dades logtransformades en l’espai euclidià, on es poden aplicar les tècniques estadístiques convencionals de manera coherent. Aquest enfocament facilita la interpretació correcta de les distàncies, angles i altres propietats geomètriques, la qual cosa fa que l’anàlisi composicional de les dades sigui més robust i fiable.
Aquesta tesi contribueix al desenvolupament dels fonaments matemàtics de l’anàlisi composicional de dades. En particular, adapta les definicions de convexitat i de normes Lp al símplex. L’optimització convexa té un paper crucial en nombroses tècniques estadístiques, especialment en la resolució de problemes de minimització per trobar solucions òptimes. En el context de les dades composicionals, és essencial redefinir els conjunts i les funcions convexes dins del símplex per tal de respectar la geometria d’Aitchison.
Aquesta tesi aborda aquesta necessitat adaptant l’optimització convexa a l’anàlisi composicional de dades. Es presenten definicions rigoroses de con- junts i funcions convexes en el símplex i s’ofereixen exemples que permeten una aplicació coherent a conjunts de dades reals. Exemples d’optimització convexa, com ara la regressió penalitzada, l’anàlisi de components principals i molts altres, inclouen mètriques. Per aquest motiu s’han adaptat les normes Lp al símplex i s’han explorat les seves propietats principals en el context composicional.
Finalment, aquesta tesi aplica aquests avenços en els fonaments matemàtics a la metodologia LASSO. La tècnica de regularització Least Abso-lute Shrinkage and Selection Operator (LASSO) és àmpliament reconeguda per la seva eficàcia a l’hora d’ajustar models lineals mentre realitza la selecció de variables. No obstant això, l’aplicació de LASSO a les dades composicionals presenta nous reptes, ja que el terme de penalització ha de respectar la geomètrica d’Aitchison. En resposta a aquest repte, s’ha proposat un enfocament que defineix una nova norma en l’espai composicional anomenada L1-plr, coherent amb l’estructura del símplex. El model LASSO resultant redueix eficaçment la dimensionalitat, seleccionant logquocients significatius entre parts, cosa que representa un avenç important en la seva aplicació a les dades composicionals. A més, s’ha realitzat una comparació entre els models de regressió LASSO obtinguts amb diferents normes en el terme de penalització, analitzant com el procés de regularització afecta l’estructura subcomposicional del model lineal.
En resum, les principals contribucions d’aquesta tesi doctoral en el camp de l’anàlisi composicional de dades són: establir un marc coherent per a l’optimització convexa dins de la geometria d’Aitchison, i desenvolupar normes composicionals consistents per a la regressió LASSO en aquest marc. A més, la introducció de la norma L1-plr facilita la selecció de balanços en el model de regressió lineal amb covariables composicionals. En última instància, aquests avenços formals amplien el conjunt d’eines metodològiques disponibles per als investigadors que treballen amb dades composicionals en una àmplia gamma de disciplines científiques.
Las datos composicionales hacen referencia a datos multivariantes en los que las variables representan partes de un todo. Este tipo de datos son comunes en campos como la geología, la biologia, la ecoología molecular, la economía y la química, por citar solo algunos. Normalmente, están limitados a sumar una constante, como 1 o 100%, aunque, de manera más general, también pueden aparecer sin esta restricción. Un aspecto clave a tener en cuenta en el análisis composicional de datos es que la información relevante no se encuentra en los valores absolutos de las partes, sino en las relaciones relativas entre ellas. Los métodos estadísticos tradicionales, que suponen variables sin restricciones y que consideran el valor absoluto de las partes, pueden conducir a resultados engañosos o incoherentes. Esto incluye, especialmente, correlaciones espurias. Estas se producen cuando las relaciones entre las partes parecen significativas, pero en realidad son el resultado de las restricciones inherentes a la naturaleza composicional de los datos, y no de ninguna relación real entre las variables. Para evitar estos problemas, es esencial utilizar métodos que tengan en cuenta la geometría específica de los datos composicionales, la conocida como geometría de Aitchison.
La geometría de Aitchison proporciona un marco riguroso y coherente para el análisis composicional de los datos. Esta geometría introduce operaciones específicas como la perturbación (equivalente a la suma), la potenciación (equivalente al producto por escalares) y un producto escalar, que están diseñadas para respetar la estructura particular del espacio muestral, el símplex. Un concepto central en este campo es el isomorfismo logarítmico. Esta transformación permite la aplicación de logcocientes y balances, haciendo posible trabajar con datos logtransformados en el espacio euclidiano, donde se pueden aplicar técnicas estadísticas convencionales de manera coherente. Este enfoque facilita la interpretación correcta de las distancias, ángulos y otras propiedades geométricas, lo que hace que el análisis composicional de los datos sea más robusto y fiable.
Esta tesis contribuye al desarrollo de los fundamentos matemáticos del análisis composicional de datos. En particular, adapta las definiciones de convexidad y de norma Lp al símplex. La optimización convexa desempeña un papel crucial en numerosas técnicas estadísticas, especialmente en la resolución de problemas de minimización para encontrar soluciones óptimas. En el contexto de los datos composicionales, es esencial redefinir los conjuntos y las funciones convexas dentro del símplex para respetar la geometría de Aitchison. Esta tesis aborda esta necesidad adaptando la optimización convexa específicamente para el análisis composicional de datos. Se presentan definiciones rigurosas de conjuntos y funciones convexas en el símplex y se ofrecen ejemplos que permiten una aplicación coherente a conjuntos de datos reales. Algunos ejemplos de optimización convexa, como la regresión penalizada, el análisis de componentes principales y muchos otros, incluyen métricas. Por este motivo, se han adaptado las normas Lp al símplex y se han explorado las principales propiedades en el contexto composicional.
Finalmente, esta tesis aplica estos avances en los fundamentos matemáticos a la metodología LASSO. La técnica de regularización \emph{Least Absolute Shrinkage and Selection Operator} (LASSO) es ampliamente reconocida por su eficacia a la hora de ajustar modelos lineales mientras realiza la selección de variables. Sin embargo, la aplicación de LASSO a los datos composicionales presenta nuevos retos, ya que el término de penalización debe respetar la geométrica de Aitchison. En respuesta a este desafío, se ha propuesto un enfoque que define una nueva norma en el espacio composicional llamada L1-plr, coherente con la estructura del símplex. El modelo LASSO resultante permite reducir efectivamente la dimensionalidad, seleccionando logcocientes entre partes, lo que representa un avance importante en su aplicación a los datos composicionales. Además, se ha realizado una comparación entre los modelos de regresión LASSO obtenidos con diferentes normas en el término de penalización, analizando cómo el proceso de regularización afecta a la estructura subcomposicional del modelo lineal.
En resumen, las principales contribuciones de esta tesis doctoral en el campo del análisis composicional de datos son: establecer un marco coherente para la optimización convexa dentro de la geometría de Aitchison y desarrollar normas composicionales consistentes para la regresión LASSO en este marco. Además, la introducción de la norma L1-plr facilita la selección de balances en el modelo de regresión lineal con covariables composicionales. En última instancia, estos avances formales amplían el conjunto de herramientas metodológicas disponibles para los investigadores que trabajan con datos composicionales en una amplia gama de disciplinas científicas.
Compositional data refers to multivariate data where the variables refer to parts of a whole. These data are common in fields such as geology, molecular biology, economics, and chemistry, to name just a few. Typically, they are constrained to sum up to a constant, such as 1 or 100 %; although more generally, they can be found as relative data without such constant- sum constraint. A key aspect to consider for their statistical analysis is that the relevant information lies not in the absolute values of the parts but in the relative relationships between them. Using ordinary statistical methods, which assume unconstrained variables, may lead to misleading or inconsistent results. This notably includes spurious correlations, which occur when the relationships between parts appear to be significant but are, in reality, an artefact of the inherent compositional nature of the data. To address these challenges, it is essential to use methods that account for the specific geometry of compositional data, the so-called Aitchison’s geometry.
Aitchison’s geometry provides a rigorous and coherent framework for the compositional analysis of data. This geometry introduces specific operations such as perturbation (equivalent to addition), powering (equivalent to ordi- nary scalar product), and an inner product, which are designed to respect the particular structure of a simplex as a sample space for compositional data. A pivotal concept in this field is the logarithmic isomorphism. This transformation allows the application of logratios and balances, making it possible to work with logtransformed data in the Euclidean real space where conventional statistical techniques can be coherently applied. This approach facilitates the correct interpretation of distances, angles, and other geometric properties, making the compositional approach more robust and reliable.
This doctoral thesis contributes to the development of the mathematical foundations of compositional data analysis. In particular, it adapts the defi- nitions of convexity and Lp norms to the simplex. Convex optimization plays a crucial role in numerous statistical techniques, especially in solving mini- mization problems to find optimal solutions. In the context of compositional data, it is essential to redefine convex sets and functions within the simplex to fulfil the structure of Aitchison’s geometry. The present work addresses this by adapting convex optimization to the compositional case. It presents rigorous definitions of convex sets and functions in the simplex, providing examples that allow for a coherent application to real-world compositional data sets. Examples of convex optimization, such as penalized regression, principal component analysis, and others, contain metrics. Thus, Lp norms are redefined for the simplex, and their main properties are explored in the compositional context.
Finally, this thesis applies these advancements in mathematical founda- tions to the LASSO regression methodology. The Least Absolute Shrinkage and Selection Operator (LASSO) regularisation method is widely recognized for its effectiveness in fitting linear models while performing variable selec- tion. However, applying the LASSO to compositional data entails new cha- llenges, since the penalty term involved must respect Aitchison’s geometry.
In response to this, an approach is proposed defining a novel compositional norm named L1-plr, which is consistent with the structure of the simplex.
The resulting LASSO model effectively reduces dimensions by selecting me- aningful logratios between parts, representing a significant advancement in its application to compositional data. Furthermore, a comparison is made between LASSO regression models obtained by using different norms in the penalty term, specifically investigating how the regularization process affects the subcompositional structure of the fitted linear model.
In summary, the main contributions of the current doctoral thesis to the field of compositional data analysis are: establishing a coherent framework for convex optimization within Aitchison’s geometry and developing con- sistent compositional norms for LASSO regression within such framework.
Moreover, the introduction of the L1-plr norm facilitates the selection of logratio balances in regression modelling with compositional covariates. Ul- timately, these formal advances expand the methodological toolkit available for researchers working with compositional data across a varied range of scientific disciplines.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados