Ir al contenido

Documat


Resumen de Modelización de datos con exceso de ceros y de captura-recaptura

Anabel Blasco Moreno

  • español

    En esta tesis se abordan dos problemas particulares asociados a los datos de recuentos: el exceso de ceros y la ausencia de estos en datos de experimentos de captura-recaptura.

    Los recuentos con exceso de ceros se analizan mediante los modelos cero inflados que permiten abordar situaciones en las que la variable dependiente tiene más ceros de los que se esperarían dado un modelo clásico. El concepto básico es que la generación de ceros puede seguir un proceso distinto del proceso que genera los valores positivos. El modelo con exceso de ceros es un modelo de mixtura de distribuciones donde se combina la distribución de recuento de referencia, habitualmente Poisson o binomial negativa, y una masa degenerada en el cero. En esta tesis se presenta, en primer lugar, un nuevo estadístico para estimar el exceso de ceros en distribuciones con dos parámetros como la binomial negativa. También se establece una clasificación de los diferentes tipos de ceros que se pueden encontrar, se identifican las diferentes fuentes que dan origen a los mismos y se da una serie de recomendaciones a los investigadores para elegir el mejor modelo estadístico ante un exceso de ceros en un contexto ecológico. Asimismo, se ha desarrollado una nueva prueba estadística (Score test) para dar respuesta a la pregunta de si los datos provienen de una distribución Poisson con exceso de ceros, o bien se trata de una mixtura de dos distribuciones de Poisson. Se ha visto que la distribución del estadístico de contraste de la prueba es independiente de los valores reales de los parámetros, lo que lo convierte en una alternativa sólida a las pruebas tradicionales con distribución asintótica. Se ha contrastado el funcionamiento de la prueba en conjuntos de datos provenientes del ámbito de la dosimetría. Por otro lado, respecto a los recuentos que se obtienen a través de métodos de captura-recaptura, estos se utilizan para estimar el tamaño de una población de interés que solo se observa parcialmente. En estos diseños, se lleva un recuento del número de veces que cada miembro de la población ha sido identificado durante el periodo de observación. En las aplicaciones de la vida real, solo se registran los recuentos positivos, obteniendo así una distribución truncada en cero. La estimación del número de individuos no observados, es decir, la estimación de la proporción de ceros es la clave para poder estimar el tamaño de la población. En la tesis, se analizan datos de captura-recaptura restringiéndose al caso en el cual solo se recoge si el sujeto ha sido observado una única vez o bien, si se ha observado en más de una ocasión (reincidente). Para este tipo de datos, se propone una nueva metodología, sustentada en los métodos bayesianos, para estimar el tamaño de la población dada una distribución a priori que se tiene que seleccionar con cautela. Seguidamente, se recoge otro nuevo método de estimación del tamaño de la población, pero ahora basado en métodos no-paramétricos y de aplicación más general. En este caso, se aplica a datos censurados por la derecha, es decir, individuos que son observados/capturados una única vez, dos, tres y hasta "r" o más veces, siendo "r" el valor de censura. Si "r=2" nos encontramos con la situación de datos de individuos reincidentes.

  • català

    En aquesta tesi s'aborden dos problemes particulars associats a les dades de recomptes: l'excés de zeros i l'absència d'aquests en dades d'experiments de captura-recaptura. Els recomptes amb excés de zeros s'analitzen mitjançant els models zero inflats que permeten abordar situacions en les quals la variable dependent té més zeros dels que s'esperarien donat un model clàssic. El concepte bàsic és que la generació de zeros pot seguir un procés distint del procés que genera els valors positius. El model amb excés de zeros és un model de mixtura de distribucions on es combina la distribució de recompte de referència, habitualment Poisson o binomial negativa, i una massa degenerada en el zero. En aquesta tesi es presenta, en primer lloc, un nou estadístic per a estimar l'excés de zeros en distribucions amb dos paràmetres com la binomial negativa. També s'estableix una classificació dels diferents tipus de zeros que es poden trobar, s'identifiquen les diferents fonts que donen origen als mateixos i es dona una sèrie de recomanacions als investigadors per a triar el millor model estadístic davant un excés de zeros en un context ecològic. Així mateix, s'ha desenvolupat una nova prova estadística (Score test) per a donar resposta a la pregunta de si les dades provenen d'una distribució Poisson amb excés de zeros, o bé es tracta d'una mixtura de dues distribucions de Poisson. S'ha vist que la distribució de l'estadístic de contrast de la prova és independent dels valors reals dels paràmetres, la qual cosa ho converteix en una alternativa sòlida a les proves tradicionals amb distribució asimptòtica. S'ha contrastat el funcionament de la prova en conjunts de dades provinents de l'àmbit de la dosimetria. D'altra banda, respecte als recomptes que s'obtenen a través de mètodes de captura-recaptura, aquests s'utilitzen per a estimar la grandària d'una població d'interès que només s'observa parcialment. En aquests dissenys, s'emporta un recompte del nombre de vegades que cada membre de la població ha estat identificat durant el període d'observació. En les aplicacions de la vida real, només es registren els recomptes positius, obtenint així una distribució truncada en zero. L'estimació del nombre d'individus no observats, és a dir, l'estimació de la proporció de zeros és la clau per a poder estimar la grandària de la població. En la tesi, s'analitzen dades de captura-recaptura restringint-se al cas en el qual només es recull si el subjecte ha estat observat una única vegada o bé, si s'ha observat en més d'una ocasió (reincident). Per a aquesta mena de dades, es proposa una nova metodologia, sustentada en els mètodes bayesians, per a estimar la grandària de la població donada una distribució a priori que s'ha de seleccionar amb cautela. Seguidament, es recull un altre nou mètode d'estimació de la grandària de la població, però ara basat en mètodes no-paramètrics i d'aplicació més general. En aquest cas, s'aplica a dades censurades per la dreta, és a dir, individus que són observats/capturats una única vegada, dues, tres i fins a “r” o més vegades, sent “r” el valor de censura. Si “r=2” ens trobem amb la situació de dades d'individus reincidents.

  • English

    This thesis addresses two specific problems associated with count data: excess of zeros and their absence in capture-recapture experiment data. Counts with excess of zeros are analysed using zero-inflated models, which allow for situations where the dependent variable has more zeros than would be expected under a classical model. The basic concept is that the generation of zeros may follow a different process than the one generating positive values. The zero-inflated model is a mixture distribution combining a reference count distribution - typically Poisson or negative binomial - and a degenerate mass at zero. In this thesis, we first present a new statistic to estimate excess of zeros counts in two-parameter distributions such as the negative binomial. We also establish a classification of the different types of zeros that may be encountered, identify the various sources that give rise to them, and provide a set of recommendations for researchers to choose the best statistical model in the presence of excess of zeros counts in an ecological context. Additionally, a new statistical test (Score test) has been developed to answer the question of whether the data come from a zero-inflated Poisson distribution or a mixture of two Poisson distributions. It has been shown that the distribution of the test statistic is independent of the parameter values, making it a robust alternative to traditional tests with asymptotic distributions. The performance of the test has been evaluated using datasets from the field of dosimetry. On the other hand, regarding counts obtained through capture-recapture methods, these are used to estimate the size of a population of interest that is only partially observed. In these designs, a count is kept of the number of times an individual has been captured/observed during the observation period. In real-world applications, only positive counts are recorded, resulting in a zero-truncated distribution. Estimating the number of unobserved individuals – that is, estimating the proportion of zeros - is key to estimating the population size. In this thesis, capture-recapture data are analysed by restricting the case to situations where it is only recorded whether a subject has been observed once or multiple times (recidivist). For this type of data, a new Bayesian methodology is proposed to estimate population size, given a carefully selected prior distribution. Subsequently, another new population size estimation method is presented, this time based on non-parametric methods and with broader applicability. In this case, it is applied to right-censored data, that is, individuals observed/captured once, twice, three times, or up to “r” or more times, where “r” is the censoring value. If “r = 2”, we encounter the case of recidivist data.


Fundación Dialnet

Mi Documat