Ir al contenido

Documat


Comparison of Correction Factors and Sample Size Required to Test the Equality of the Smallest Eigenvalues in Principal Component Analysis

  • Autores: Eduard Alexander Gañán Cárdenas, Juan Carlos Correa Morales Árbol académico
  • Localización: Revista Colombiana de Estadística, ISSN-e 2389-8976, ISSN 0120-1751, Vol. 44, Nº. 1, 2021, págs. 43-64
  • Idioma: inglés
  • DOI: 10.15446/rce.v44n1.83987
  • Títulos paralelos:
    • Comparación de los factores de corrección y tamaños de muestra requeridos para probar la igualdad de los valores propios más pequeños en el análisis de componentes principales
  • Enlaces
  • Resumen
    • español

      Resumen Dentro del proceso inferencial del Análisis de Componentes Principales (PCA) uno de los interrogantes principales de los investigadores es sobre el número correcto de componentes para representar la muestra. Para este fin se han propuesto estrategias heurísticas y estadísticas. Un enfoque estadístico consiste en probar la hipótesis sobre la igualdad de los valores propios más pequeños de la matriz de covarianza o correlación a través de una prueba de razón de verosimilitud (LRT) que sigue una distribución límite x2. Diferentes factores de corrección han sido propuestos para mejorar la aproximación de la distribución muestral del estadístico. En este trabajo utilizamos simulación para estudiar el nivel de significancia y la potencia de la prueba bajo el uso de estos diferentes factores, así como una revisión del tamaño de muestra requerido para una adecuada aproximación. Los resultados para la matriz de covarianza indican que el factor propuesto por Bartlett ofrece el mejor equilibrio entre los objetivos de baja probabilidad de Error Tipo I y alta potencia. En caso de la matriz de correlación, los factores W * B y cχ 2 D son los más recomendados. Empíricamente se observa que la mayoría de los factores requieren tamaños de muestra 10 y 20 veces mayores al número de variables en caso de la matriz de covarianza o de correlación respectivamente.

    • English

      Abstract In the inferential process of Principal Component Analysis (PCA), one of the main challenges for researchers is establishing the correct number of components to represent the sample. For that purpose, heuristic and statistical strategies have been proposed. One statistical approach consists in testing the hypothesis of the equality of the smallest eigenvalues in the covariance or correlation matrix using a Likelihood-Ratio Test (LRT) that follows a x2 limit distribution. Different correction factors have been proposed to improve the approximation of the sampling distribution of the statistic. We use simulation to study the significance level and power of the test under the use of these different factors and analyze the sample size required for an adequate approximation. The results indicate that for covariance matrix, the factor proposed by Bartlett offers the best balance between the objectives of low probability of Type I Error and high Power. If the correlation matrix is used, the factors W * B and cχ 2 D are the most recommended. Empirically, we can observe that most factors require sample sizes 10 or 20 times the number of variables if covariance or correlation matrices, respectively, are implemented.

  • Referencias bibliográficas
    • Anderson, T. (1963). 'Asymptotic theory for principal component analysis'. The Annals of Mathematical Statistics. 34. 122
    • Arteaga, F.,Ferrer, A. (2010). 'How to simulate normal data sets with the desired correlation structure'. hemometrics and Intelligent...
    • Bartlett, M. (1951). 'The effect of standardization on a x2 approximation in factor analysis'. Biometrika. 38. 337
    • Bartlett, M. (1954). 'A note on the multiplying factors for various x2 approximations'. Journal of the Royal Statistical Society....
    • Bjõrklund, M. (2019). 'Be careful with your principal components'. Evolution. 73. 2151
    • Box, G. E. P. (1949). 'A general distribution theory for a class of likelihood criteria'. Biometrika. 36. 317
    • Chakraborty, L.,Rus, H.,Henstra, D.,Thistlethwaite, J.,Scott, D. (2020). 'A place-based socioeconomic status index: Measuring social vulnerability...
    • Ferré, L. (1995). 'Selection of components in principal component analysis: a comparison of methods'. Computational Statistics &...
    • Friedman, S. (1981). 'Interpreting the first eigenvalue of a correlation matrix'. Educational and Psychological Measurement. 41. 11-21
    • Fujikoshi, Y.,Yamada, T.,Watanabe, D.,Sugiyama, T. (2007). 'Asymptotic distribution of the LR statistic for equality of the smallest eigenvalues...
    • Jackson, D. (1993). 'Stopping rules in principal components analysis: a comparison of heuristical and statistical approaches'. Ecological...
    • Jackson, J. E. (1991). A User's Guide To Principal Components. John Wiley & Sons, Inc.
    • Jolliffe, I. (2002). Principal Component Analysis. 2. Springer.
    • Knapp, T. R.,Swoyer, V. H. (1967). 'Some empirical results concerning the power of Bartlett's Test of the significance of a correlation...
    • Krazanowski, W. J. (1988). Principies of Multivariate Analysis, A User's Perspective. Oxford Statistical Science.
    • Lawley, D. (1956). 'Test of significance for latent roots of covariance and correlations'. Biometrika. 43. 128
    • Mardia, K.,Kent, J.,Bibby, J. (1979). Multivariate Analysis. 6. Academic Press. San Diego.
    • Maté, C. G. (2011). 'A multivariate analysis approach to forecasts combination. application to foreign exchange (FX) markets'. Revista...
    • Peres-Neto, P. R.,Jackson, D. A.,Somers, K. M. (2005). 'How many principal components? stopping rules for determining the number of non-trivial...
    • (2019). R Core Team R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. Vienna, Austria.
    • Şahan, C.,Baydur, H.,Demiral, Y. (2018). 'A novel version of copenhagen psychosocial questionnaire-3: Turkish validation study'. Archives...
    • Schott, J. R. (1988). 'Testing the equality of the smallest latent roots of a correlation matrix'. Biometrika. 75. 794
    • Schott, J. R. (2006). 'A high-dimensional test for the equality of the smallest eigenvalues of a covariance matrix'. Journal of Multivariate...
    • Schott, J. R. (2012). Approximation for the Test of the Equality of the Smallest Eigenvalues of a Covariance Matrix'. Communications in...
    • Watanabe, D.,Okada, S.,Fujikoshi, Y.,Sugiyama, T. (2008). 'Large sample approximations for LR statistic for equality of the smallest eigenvalues...
    • Waternaux, C. (1984). 'Principal components in the nonnormal case: the test of equality of Q roots'. Journal of Multivariate Analysis....
Los metadatos del artículo han sido obtenidos de SciELO Colombia

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno