Inferencia estadística robusta basada en divergencias para dispositivos de un sólo uso





pcod_tesis


Los dispositivos de un sólo uso (one-shot devices en inglés) son aquellos que una vez utilizados quedan inservibles, por lo que deben ser desechados o, en el mejor de los casos, reparados para darles más uso. Estamos rodeados de dispositivos de un sólo uso, pudiendo ser muchos de ellos de gran utilidad para protegernos: los paracaídas, el airbag del coche o los extintores contra incendios. En particular, este tipo de dispositivos está jugando un papel muy importante en la crisis sanitaria del COVID, basta con pensar en la prueba de antígenos como el más claro representante.

Desde un punto de vista estadístico, la modelización de los dispositivos de un solo uso o más en concreto de su tiempo de vida supone todo un reto. La única información que tendremos es si bajo unas condiciones particulares el dispositivo presenta o no un fallo al utilizarlo en un momento determinado. En el caso de que ese fallo se produzca, no podremos saber exactamente en qué momento dejó de funcionar, sólo sabremos que en un momento previo a la inspección. En el caso de que el dispositivo funcione con éxito, no sabremos en qué momento o en qué condiciones habría dejado de funcionar. Se trata, por tanto, de un problema de censura interválica extrema. Por otra parte, y gracias al desarrollo tecnológico de la actualidad, la mayoría de los dispositivos presenta una tasa de fallo muy baja en condiciones normales, ocurriendo el fallo además en tiempos elevados. Evidentemente, este es un aspecto positivo pero que puede suponer una dificultad añadida en la modelización, ya que estadísticamente es complicado trabajar con datos binarios tan descompensados y económicamente no sería factible hacer experimentos de una duración tan larga. Para solucionar este problema, es habitual trabajar con los llamados tests de vida acelerados (Accelerated Life Tests, ALTs, en inglés). La idea consiste en someter a los dispositivos a condiciones extremas (la temperatura o humedad ambiente, por ejemplo) para provocar en tiempos moderados más fallos, lo cual facilitará la modelización. Una vez estimado el modelo se extrapolan los resultados a condiciones normales.

En la última década han sido numerosos los trabajos dedicados a este tema. Lo más habitual es tratarlo como un problema paramétrico, en el que se asume que el tiempo de vida sigue una distribución estadística previamente prefijada: exponencial, gamma, Weibull, etc. Una vez definido el modelo, se procede a estimar los parámetros por el método de máxima verosimilitud. Al tratarse de un problema de censura, son varios los artículos en los que se desarrolla algoritmos de Esperanza-Maximización (EM) para este fin. Ahora bien, aunque es sabido que el estimador de máxima verosimilitud (EMV) es el más eficiente posible, también es conocida su falta de robustez ante la presencia de observaciones anómalas u outliers.

En esta tesis (Castilla 2021) desarrollamos estimadores robustos basados en medidas de divergencia como alternativa al EMV para la modelización de los dispositivos de un sólo uso. Para entender esta idea es importante explicar que el EMV, además de ser el que maximiza la verosimilitud conjunta, puede definirse como el que minimiza la divergencia de Kullback-Leibler entre los vectores de probabilidades observadas y predichas. La pregunta surge entonces de manera natural, ¿por qué no minimizar otras divergencias, diferentes a la de Kullback-Leibler para obtener estimadores alternativos al de máxima verosimilitud? En particular, tomamos la familia de divergencias de densidad potencia (density power divergence, DPD, en inglés) que contiene al EMV como caso particular, y que es conocida en la literatura por dar lugar a estimadores y pruebas estadísticas robustas. Comenzamos considerando el caso más sencillo posible, que es en el que sólo tenemos una variable explicativa o factor de estrés y en el que asumimos que el tiempo de vida sigue una distribución exponencial. Sin embargo, es más lógico pensar que en un test de vida acelerado sometemos al dispositivo a más factores de estrés, precipitando el fallo y recogiendo más información sobre el producto. Además, la distribución exponencial puede resultar demasiado simple para modelizar los tiempos de vida. Por estos motivos, a lo largo de la tesis se ha desarrollado inferencia robusta para el modelo de dispositivos de un sólo uso con varios factores de estrés y diferentes distribuciones del tiempo de vida como son la propia distribución exponencial o las distribuciones Lindley, gamma, Weibull o lognormal. Aunque en general consideramos una respuesta binaria (éxito o fallo) son muchos los dispositivos que pueden tener diversas causas de fallo. Al modelo que recoge esta respuesta multinomial se le llama modelo de riesgos competitivos. De igual manera, en esta tesis, desarrollamos inferencia robusta también para el modelo de riesgos competitivos, asumiendo en este caso tiempos de vida exponenciales.

Para cada modelo se estudia de manera teórica los estimadores propuestos obteniendo sus ecuaciones de estimación y su distribución asintótica. También se desarrollan pruebas de tipo Wald para realizar contrastes de hipótesis. La robustez de los estimadores y pruebas propuestas es demostrada de manera teórica mediante el estudio de su función de influencia y es ilustrada mediante estudios de simulación y la aplicación a datos reales. Como conclusión, se ha obtenido que los estadísticos propuestos presentan un comportamiento mucho más robusto que aquellos basados en el EMV cuando trabajamos con datos contaminados, mostrándose como una alternativa muy interesante para el estudio de los dispositivos de un sólo uso.

Referencias

Castilla, Elena. 2021. “Robust Statistical Inference for One-Shot Devices Based on Divergences.” PhD thesis, Universidad Complutense de Madrid. https://eprints.ucm.es/id/eprint/67473/.

Más BEIO

Uso de app’s para recogida de datos en la estadística oficial

Los institutos oficiales de estadística europeos han realizado un gran esfuerzo durante los últimos años para adaptarse al avance de las nuevas tecnologías estableciendo un nuevo canal de recogida de datos basados en cuestionarios web de auto-cumplimentación. Eustat, el Instituto Vasco de Estadística, lleva trabajando desde el año 2017 en el desarrollo de app’s para teléfonos móviles.

New advances in set estimation

Some recent advances in Set Estimation, from 2009 to the present, are discussed. These include some new findings, improved convergence rates, and new type of sets under study. Typically, the theoretical results are derived under some shape constrains, such as r-convexity or positive reach, which are briefly reviewed, together with some other new proposals in this line. Known constraints on the shape, such as r-convexity and positive reach, as well as recently introduced ones are discussed. The estimation of the home-range of a species, which is closely related to set estimation, is also explored, and statistical problems on manifolds are covered. Commentary and references are provided for readers interested in delving deeper into the subject.

Problemas de Elección Social en el Contexto de los Problemas de Asignación

En este trabajo proponemos un método de elección social basado en el problema de asignación de la investigación de operaciones, en particular consideramos un proceso de votación donde los votantes enumeran según sus preferencias a cada uno de los n candidatos disponibles, luego entonces nosotros construimos una matriz de asignación donde las “tareas” por realizar son los puestos 1,2,…n; siendo el puesto número 1 el principal y el n-ésimo el de menor jerarquía. El valor de la posición ij de la matriz se obtiene considerando el número de veces que el candidato i fue seleccionado para “ocupar” el puesto j. Así obtenemos una matriz de rendimiento y se busca la mejor asignación. Usamos bases de datos obtenidos de algunos procesos de elección en los Estados Unidos de América y comparamos los resultados que se obtendrían con nuestra propuesta, adicionalmente se construyen ejemplos para demostrar que nuestro método no es equivalente a los métodos de Borda, Condorcet y mayoría simple.

Técnicas de diferenciabilidad con aplicaciones estadísticas

En esta tesis doctoral se han explorado diferentes aplicaciones del conocido Método delta (Capítulo 2). En concreto, se han calculado las derivadas de Hadamard direccional de diferentes funcionales de tipo supremo en diferentes contextos. A continuación, se han investigado aplicaciones a inferencia no-paramétrica (Capítulo 3), a los problemas de dos muestras u homogeneidad (Capítulo 4) y a la metodología de k-medias (Capítulo 5).

Relevance and identification of biases in statistical graphs by prospective Primary school teachers

El enorme poder de visualización de la información basada en datos representada mediante gráficos estadísticos, hace especialmente interesante el estudio del entendimiento de dicha información por parte de los ciudadanos que se enfrentan a ella día a día. Al mismo tiempo, en el ámbito de didáctica de la estadística se investiga para conocer cómo se produce la transferencia de conocimiento estadístico en la escuela. Así, aunando ambos fines, el propósito del presente estudio exploratorio es observar el grado de alfabetización estadística que poseen los futuros maestros en base a la evaluación de los gráficos estadísticos, frecuentemente utilizados en los medios de comunicación, y la identificación de los sesgos que debido a su visualización selectiva de los datos a veces estos presentan. Los resultados muestran, de forma implícita, una aceptable identificación de convenios para cada gráfico estudiado mientras que evidencia una muy pobre identificación de sesgos o errores en dichas imágenes. Con ello se deduce una necesidad de refuerzo educativo en cuanto a la enseñanza y aprendizaje de la estadística, concretamente, en los estudiantes del Grado de Educación Primaria para, mediante ello, conseguir ciudadanos con una alfabetización estadística funcional desde la escuela.

Learning to build statistical indicators from open data sources

The paper presents the building of several statistical indicators from different Open Data sources, all of them using a common methodological approach to estimate changes across time. The purpose is to show the problems that must be addressed when using these data and to learn about the different ways to cope with them, according to the type of information, the data available and the aim of the specific indicator. The raw data come from diverse secondary sources that make it publicly accessible: traffic sensors, multichannel citizen attention services, Twitter messages and scraped data from a digital newspapers’ library website. The built indicators may be used as proxies or lead indicators for economic activities or social sentiments.