Ir al contenido

Documat


Resumen de Aplicaciones de los recortes imparciales en la comparación de distribuciones

Pedro César Álvarez Esteban Árbol académico

  • En esta tesis se desarrolla una metodología de recortes imparciales en el ámbito de la comparación de distribuciones y los test de ajuste, y se obtienen algoritmos y resultados que permitan su aplicación en el análisis de datos y la inferencia estadística, La estructura de la memoria es como sigue. Después de un Capítulo introductorio, en el Capítulo 2 situamos una serie de definiciones y resultados que no constituyen una aportación original de esta tesis pero de las que se hace uso a lo largo del desarrollo de la memoria.

    En la primera parte del Capítulo 3 se lleva a cabo la formalización del concepto de recorte de una distribución. Asimismo se estudian las principales propiedades de los mismos destacando el resultado que permite parametrizar la clase de recortes de cualquier medida de probabilidad en la recta real en términos de los recortes de la U(0,1). La conexión de nuestro problema con el Problema del Transporte Óptimo (PTO) permite la generalización del anterior resultado a Rk y a una probabilidad de referencia cualquiera, con tal de que sea absolutamente continua respecto de la medida de Lebesgue. Esta caracterización abre las puertas, entre otras cosas, a la obtención de algunos de los resultados asintóticos que se presentan en el Capítulo 5. A continuación se plantean los diversos tipos de problemas que pueden tener interés en la comparación de distribuciones, ya sean de una muestra o de dos. En el estudio del problema cuando se recorta en las dos distribuciones aparecen dos posibilidades, que se recorte libremente en las dos o siguiendo el mismo patrón. En la siguiente sección se estudian las principales propiedades de los recortes óptimos. Con las propiedades estudiadas para el conjunto de recortes es fácil comprobar que el problema está bien definido. No es, en cambio, tan fácil probar la unicidad de los mismos. En esta sección se encuentran algunos de los resultados más destacables de esta memoria. La unicidad de la solución de un problema de minimización suele ser un requerimiento a la hora de estudiar el comportamiento asintótico, y con frecuencia ésta es difícil de verificar, por lo que se asume como hipótesis. Así ocurre por ejemplo en el estudio de las clásicas k-medias -uno de los problemas en los que se han introducido los recortes imparciales- (ver, por ejemplo, Pollard, 1981, 1982; Hartigan, 1978; Stute y Zhu, 1995), donde sólo algunos autores como Fleischer (1964) ó Li y Flury (1995) consideran este problema. En nuestro caso, haciendo uso nuevamente de la conexión con el PTO, probamos la unicidad en el caso de una y dos muestras, bajo ciertas condiciones generales, y para la métrica L2 de Wasserstein. Desde el punto de vista computacional, los diferentes supuestos de recorte introducidos hasta aquí constituyen problemas de optimización de carácter diverso. En la Sección 3.4 se desarrollan algoritmos específicos que aprovechan las características particulares de cada caso y permiten encontrar la solución en un tiempo razonable. De esta manera los procedimientos de ajuste y comparación que se diseñan pueden ser implementados y utilizados en la práctica.

    En el Capítulo 4 se muestra el funcionamiento de los recortes imparciales, en sus diferentes variantes, mediante unos cuantos ejemplos en los que se manejan varios modelos poblacionales. Estos ejemplos sirven asimismo para ilustrar la aplicación de esta metodología con fines exclusivamente descriptivos.

    El comportamiento asintótico de los recortes y estadísticos introducidos se estudia en el Capítulo 5. En primer lugar se prueba la consistencia en métrica L2 de Wasserstein de los recortes óptimos. Nuevamente el uso de resultados relacionados con el PTO permite la generalización a Rk. A continuación se estudia la distribución límite de los estadísticos que miden la distancia L2 de Wasserstein cuando se recorta con el mismo patrón (ya sea una o dos muestras) y se obtiene, haciendo uso de la aproximación fuerte, la normalidad asintótica de los mismos. Utilizando el mismo tipo de técnicas, en la siguiente sección se desarrolla un test de casi-normalidad univariante, generalizable fácilmente a cualquier familia de localización y escala. La utilización de los resultados anteriores para hacer inferencia queda ilustrada con varios ejemplos con datos reales y simulados en la Sección 5.4. Esta sección finaliza con sendas simulaciones que muestran el buen funcionamiento de la distribución asintótica incluso para tamaños muestrales moderados. La obtención de la distribución límite en el caso de recortar sin restricciones es un problema en principio más difícil y por el momento abierto. Una forma de resolverlo sería conocer la tasa exacta de convergencia del que hemos llamado proceso (cuantil) empírico recortado. En la Sección 5.5 se incluyen algunos resultados en los que se obtiene la tasa exacta de convergencia para el caso uniforme cuando ¿ = 1, otro en el que se dan condiciones suficientes para la tasa exacta de la media cuando ¿ = 1 y finalmente, otro más general, que nos proporciona una tasa de convergencia en probabilidad y permite acotar la tasa exacta en el caso en el que exista un recorte de nivel inferior o igual a ¿ que haga nula la distancia L2 de Wasserstein. Este resultado da pie al desarrollo de una metodología bootstrap cuyos fundamentos teóricos se reflejan en la última sección del Capítulo 5.

    Finalmente, la memoria incluye un capítulo en el que se utiliza la metodología bootstrap desarrollada en el capítulo anterior en la comparación de distribuciones y en la búsqueda del núcleo común a n distribuciones. En el primer caso se incluyen tres simulaciones, mientras que en el segundo caso se analiza un ejemplo con datos reales.

    En el Apéndice A se incluye el código en distintos lenguajes (R y AMPL, ver R, 2008; Fourer et al., 2003) de los programas utilizados para implementar los algoritmos.


Fundación Dialnet

Mi Documat