Ir al contenido

Documat


Resumen de Statistical tests based on random projections

Paula Navarro Esteban

  • español

    El Teorema de Cramér–Wold [1, p.291] establece que una probabilidad de Borel en un espacio euclídeo está determinada unívocamente por sus proyecciones unidimensionales. En otras palabras, dos distribuciones son iguales si y solo si todas sus marginales unidimensionales son iguales.

    Una versión mejorada del Teorema de Cramér–Wold aparece en el Teorema de Cuesta–Fraiman–Ransford [2, p.203]. Este resultado viene a decir que, bajo ciertas condiciones, dadas dos distribuciones de probabilidad definidas en un espacio de Hilbert separable, si elegimos aletoriamente un subespacio unidimensional con una distribución continua, entonces, con probabilidad uno:

    - Si las distribuciones son diferentes, las proyecciones también lo son.

    - Si las distribuciones son iguales, las proyecciones también lo son.

    El Teorema de Cramér–Wold justifica el uso de las técnicas de Projection Pursuit (PP) en los tests de bondad de ajuste, ya que la base de estas técnicas es proyectar los datos en una serie de direcciones unidimensionales apropiadas. Por ejemplo, en los tests de igualdad de dos distribuciones, las técnicas PP pretenden encontrar entre todas las direcciones posibles, aquellas donde las distribuciones son lo más diferentes posible.

    Como alternativa a estas direcciones (pseudo-)deterministas, el Teorema de Cuesta–Fraiman–Ransford permite considerar proyecciones aleatorias. Éstas consisten en proyectar los datos iniciales de alta dimensión en un subespacio de baja dimensión seleccionado aleatoriamente. Se usan en problemas que requieren el manejo de datos de dimensión reducida junto con eficiencia computacional y preservación de la estructura local de los datos.

    Esta tesis se centra en el manejo de estas últimas proyecciones. Se utilizan dos paradigmas: se elige un estadístico apropiado para el problema considerado en el caso unidimensional y 1. Se maneja un número reducido de proyecciones unidimensionales en las que, para cada una de ellas, se calcula el valor del estadístico. Se elige un valor que resuma los valores obtenidos.

    2. Se calcula el valor esperado, dada la muestra, del estadístico.

    En este trabajo usamos 1. para proponer un nuevo procedimiento de detección de outliers en dimensión alta (ayudándonos del análisis secuencial) y 2. para introducir una novedosa familia de tests de uniformidad en hiperesferas.

    Estudios de simulación corroboran las propiedades teóricas obtenidas. Se ilustran las posibilidades de los métodos propuestos con su aplicación a conjuntos de datos reales (espectros de resonancia magnética de muestras de vino y espectros infrarrojos de muestras de gasolina en el caso de la detección de outliers y vinculados a la astronomía para el caso de los tests de uniformidad en la esfera).

    [1] H. Cramér and H. Wold, “Some theorems on distribution functions”, J. Lond. Math. Soc., vol. 11, no. 4, pp. 290–294, 1936.

    [2] J. A. Cuesta-Albertos, R. Fraiman, and T. Ransford, “A sharp form of the Cramér–Wold theorem”, J. Theor. Probab. , vol. 20, no. 2, pp. 201–209, 2007.

  • English

    Random projections project high-dimensional data into a lower dimensional subspace that has been randomly chosen. They are used in problems that require handling reduced dimensional data in a computational efficiency manner while preserving the local structure of the original high-dimensional data. They are applied according to two paradigms: choosing an appropiate statistic for the considered problem in the one-dimensional case and i) Handling a reduced number of one-dimensional random projections in which, for each of them, the value of the statistic is computed. Choosing a value summarizing the obtained values. ii) Computing the expected value, given the sample, of this statistic. In this thesis we use i) to propose a new procedure that detects outliers in Gaussian high-dimensional data (by means of sequential analysis) and ii) to introduce a novel projection-based class of uniformity tests on the hypersphere. Simulation studies corroborate our theoretical findings and the application to real datasets illustrates the performance of the proposed methods.


Fundación Dialnet

Mi Documat