Ir al contenido

Documat


Resumen de Models de distribució sobre el símplex

Glòria Mateu Figueras Árbol académico

  • català

    Les dades composicionals són vectors les components dels quals representen proporcions respecte d'un total, i per tant estan sotmesos a la restricció que la suma de les seves components és una constant. L'espai natural per a vectors amb D components és el símplex SD. En l'àmbit de la modelització, ens trobem amb una gran dificultat: no coneixem prou classes de distribucions que permetin modelitzar adequadament la majoria dels conjunts de dades composicionals.

    En els anys 80, Aitchison proposa una metodologia per treballar amb dades composicionals que hem anomenat metodologia MOVE, ja que es basa en transformacions. En el tema específic de la modelització, Aitchison utilitza la transformació logquocient additiva per projectar les composicions a l'espai real i posteriorment les modelitza amb una distribució normal. D'aquesta manera introdueix la distribució normal logística additiva. Tot i les bones propietats algebraiques que presenta aquesta distribució ens trobem amb dues dificultats: el model normal no pot modelitzar alguns conjunts de dades transformades, especialment quan presenten una certa asimetria. Per altra banda, aquesta família de distribucions no és tancada respecte de l'amalgama (o suma) de components.

    El 1996 Azzalini i Dalla-Valle introdueixen la distribució normal asimètrica a RD. Es tracta d'una generalització del model normal amb un paràmetre de forma que regula la asimetria de la distribució. Utilitzant la teoria de les transformacions i la distribució normal asimètrica, hem definit una nova distribució que hem anomenat normal asimètrica logística additiva. Aquesta és especialment indicada per modelitzar conjunts de dades composicionals amb un biaix moderat, i consegüentment ens aporta la solució a una de les dificultats de la distribució normal logística additiva. Estudiant amb més detall aquest nou model, hem comprovat que presenta unes bones propietats algebraiques. Per altra banda i mitjançant simulacions, hem pogut il·lustrar l'efecte que tenen els paràmetres de la distribució normal logística additiva inicial en la distribució de l'amalgama i hem pogut comprovar que, en certs casos, el model normal asimètric proporciona un bon ajust per al logquocient de l'amalgama.

    Una eina útil en la modelització de vectors aleatoris són els tests de bondat d'ajust. Malauradament, no és gens freqüent trobar a la literatura tests de bondat d'ajust aplicables a la distribució normal asimètrica. Així doncs, hem desenvolupat uns tests per aquesta distribució i hem realitzat un estudi de potència utilitzant diverses distribucions alternatives. La metodologia que hem escollit és la de D'Agostino i Stephens que consisteix en mesurar la diferència entre la funció de distribució empírica (calculada mitjançant la mostra) i la funció de distribució teòrica (la normal asimètrica).

    L'estructura d'espai euclidià del símplex ens ha suggerit una nova metodologia que hem anomenat STAY ja que no es basa en les transformacions. Sabem que és equivalent utilitzar les operacions pròpies de SD que aplicar les operacions de l'espai real a les coordenades de les composicions respecte d'una base ortonormal. Sobre aquestes coordenades hem definit el model normal i el model normal asimètric a SD i hem realitzat un estudi comparatiu amb els models normal logístic additiu i normal asimètric logístic additiu. Si bé en determinades situacions aquesta nova metodologia dóna resultats totalment equivalents als obtinguts amb la tècnica de les transformacions, en altres aporta canvis importants. Per exemple, ha permès expressar directament sobre el símplex conceptes bàsics de l'estadística clàssica, com el concepte d'esperança o de variància. Donat que no existeixen treballs previs en aquesta direcció, proposem un exemple il·lustratiu en el cas univariant. Sobre les coordenades respecte d'una base unitària, hem definit el model normal a R+ i hem realitzat una comparació amb el model lognormal obtingut mitjançant la transformació logarítmica.

    ------------------------------------------------------------------------------------------------------------------

  • English

    Compositional data are vectors whose components represent proportions of some whole and this is the reason why they are subject to the unit-sum constraint of its components. Therefore, a suitable sample space for compositional data is the unit simplex SD. The modelling of compositional data has a great problem: the lack of enough flexible models.

    In the eighties Aitchison developed a methodology to work with compositional data that we have called MOVE methodology. It is based on the transformation of compositional data from SD to the real space and the transformed data is modelled by a multivariate normal distribution. The additive logratio transformation gives rice to the additive logistic normal model which exhibits rich properties. Unfortunately, sometimes a multivariate normal model cannot properly fit the transformed data set, especially when it presents some skewness. Also the additive logistic normal family is not closed under amalgamation of components.

    In 1996 Azzalini and Dalla Valle introduced the skew normal distribution: a family of distributions on the real space, including the multivariate normal distribution, but with an extra parameter which allows the density to have some skewness. Emulating Aitchison, we have combined the logistic normal approach with the skew-normal distribution to define a new class of distributions on the simplex: the additive logistic skew-normal class. We apply it to model compositional data sets when the transformed data presents some skewness. We have proved that this class of distributions has good algebraic properties. We have also studied the adequacy of the logistic skew-normal distribution to model amalgamations of additive logistic normal vectors. Simulation studies show that in some cases our distribution can provide a reasonable fit.

    A useful tool in the study of the modelisation of vectors is the test of goodness-of-fit. Unfortunately we don't find in the literature tests of goodness-of-fit for the skew-normal distribution. Thus, we have developed these kinds of tests and we have completed the work with a power study. We have chosen the R.B. D'Agostino and M.A. Stephens methodology that consists in computing the difference between the empirical distribution function (computed from the sample) and the theoretic distribution function (skew-normal).

    Parallel studies have recently developed the metric space structure of SD. This has suggested us a new methodology to work with compositional data sets that we have called STAY approach because it is not based on transformations. The theory of algebra tells us that any D dimensional real vector space with an inner product has an orthonormal basis to which the coefficients behave like usual elements in RD. Our suggestion is to apply to these coefficients all the standard methods and results available for real random vectors. Thus, on the coefficients with respect to an orthonormal basis we have defined the normal model in SD and the skew-normal model in SD and we have compared them with the additive logistic normal and the additive logistic skew-normal model respectively. From a probabilistic point of view, the laws on SD defined using the STAY methodology are identical to the laws defined using the MOVE methodology. But the STAY methodology has provided some important changes. For example, it has allowed us to express directly over the simplex some basic concepts like the expected value or the variance of a random composition. As we have not found in the literature previous work in this direction, we have started this study with an illustrative example. Over the coefficients with respect to a unitary basis we have defined the normal model in the positive real line and we have compared it with the lognormal model, defined with the logarithmic transformation.


Fundación Dialnet

Mi Documat