Statistical methods to improve estimates obtained from probability and nonprobability samples

Ramón Ferri García

Ayuda

Statistical methods to improve estimates obtained from probability and nonprobability samples

Autores: Ramón Ferri García
Directores de la Tesis: María del Mar Rueda García (dir. tes.)
Lectura: En la Universidad de Granada ( España ) en 2021
Idioma: inglés
Número de páginas: 267
Tribunal Calificador de la Tesis: Ana María Aguilera del Pino (presid.) , María Jesús García Ligero Ramírez (secret.) , Yves Tillé (voc.) , María José Lombardía (voc.) , Domingo Morales González (voc.)
Enlaces
- Tesis en acceso abierto en: DIGIBUG
Resumen
- español
  Desde su desarrollo teórico en la primera mitad del siglo XX, las encuestas han sido el método estándar de obtención de información de una población de interés. Las propiedades estadísticas de los estimadores de parámetros poblacionales, como los totales, las medias o las proporciones, permiten a los investigadores hacer inferencia sobre una población objetivo utilizando únicamente una muestra reducida de ella, así como obtener una medida de la variabilidad de las estimaciones. Las primeras encuestas fueron administradas entrevistando directamente a los encuestados en persona, un modo conocido como la encuesta cara a cara. Este modo de administración ha sido considerado como la práctica "gold standard.en encuestas, pero sus crecientes costes y los avances en las tecnologías de la comunicación favorecieron el surgimiento de encuestas telef ónicas y cuestionarios autoadministrados, como los empleados en encuestas por correo. En las últimas décadas, estos modos también han experimentado un incremento en costes y problemas de cobertura, así como un declive de las tasas de respuesta. De nuevo, el desarrollo de nuevas tecnologías ha sido el factor que ha permitido la aparición de un nuevo conjunto de técnicas de administraci ón de cuestionarios conocido como las encuestas online. Algunos ejemplos incluyen las encuestas por SMS, las encuestas por e-mail, las encuestas por smartphone y especialmente las encuestas Web, que son aquellas que se administran y se completan en navegadores web. Las encuestas online incluyen muchas ventajas para los investigadores de cara a realizar sus estudios. El reclutamiento de participantes puede ser realizado mucho más rápido que en otros modos de encuesta, y con costes ampliamente reducidos. Además, el uso de la tecnología permite a los investigadores diseñar cuestionarios con un espectro más amplio de posibilidades que en las encuestas cara a cara, telefónicas o por correo. Por otra parte, las encuestas online presentan algunas fuentes de error relevantes. Por de nición, estas encuestas sólo pueden llegar hasta usuarios online o personas con algún tipo de acceso a las redes de las tecnologías de la información y comunicación. Este es un importante problema de cobertura que puede traducirse en estimaciones sesgadas si la composición de la población o ine di ere signi cativamente de la de la población online, lo que suele ser el caso dado que las diferencias están asociadas a variables demográ cas como el nivel educativo o la edad. Junto a ello, la imposibilidad de encontrar algún marco muestral able de la población online contribuye al uso de técnicas de autoselección en las encuestas online. Esta práctica constituye un ejemplo de muestreo no probabil ístico donde la varianza no puede ser calculada por la imposibilidad de las probabilidades de inclusión de cumplir los requerimientos de un muestreo probabilístico. La principal consecuencia de la aplicación de estos métodos es el sesgo de selección, que puede ser muy relevante si existe alguna relaci ón entre la propensión a participar (autoseleccionarse) en la encuesta y las variables de interés del estudio. En aquellos casos en los que haya un marco muestral disponible para una encuesta online, y por tanto sea posible diseñar un esquema de muestreo, el sesgo de no respuesta también es proclive a aparecer. Este problema es particularmente relevante en las encuestas de paneles online, y ha sido asociado a factores como la longitud del cuestionario, los incentivos o los recordatorios de invitación. Se han desarrollado algunos métodos en la literatura para atajar estos problemas. El sesgo de no respuesta es un problema común a todas las encuestas probabilísticas, y en consecuencia se han desarrollado muchos métodos para mitigarlo, de los cuales se pueden destacar las técnicas de imputación y reponderación. La corrección de los sesgos de selección y cobertura depende de la informaci ón auxiliar disponible. Si sólo están disponibles los totales poblacionales para un conjunto de covariables, se pueden aplicar métodos de calibración; se ha comprobado que éstos reducen el error de cobertura, pero su uso en la corrección del sesgo de autoselección en las encuestas online no está claro. En algunos casos, una encuesta probabilística de referencia, llevada a cabo en la misma población objetivo, está disponible. La variable de interés no ha sido medida en ella, pero si hay disponibles algunas covariables auxiliares (también medidas en la encuesta online), se pueden considerar algunos ajustes. Los más conocidos son el Propensity Score Adjustment (PSA) y el Statistical Matching o Mass Imputation. Estos ajustes se centran en la mitigación del sesgo de selección. Finalmente, si está disponible un censo de la población para algunas covariables auxiliares (también medidas en la encuesta online), se pueden considerar métodos basados en los modelos de superpoblación, como los estimadores modelo basado, modelo asistido y modelo calibrado. Estos métodos se han considerado principalmente en contextos de muestreo probabilístico, aunque algunos trabajos recientes adaptan algunos de ellos a problemas de muestreo no probabilístico. Para contribuir al desarrollo de las encuestas online, proponemos algunos avances metodológicos, como el desarrollo de estimadores de parámetros generales y el estimador de su varianza, el estudio de las propiedades de la combinación de PSA y calibración, el uso de técnicas modernas de predicci ón y selección de variables en PSA, y la adaptación de todos los métodos de modelos de superpoblación al contexto del muestreo no probabilístico considerando asimismo técnicas modernas de predicción. Adaptamos también la estrategia de suavizado de pesos, desarrollada para incrementar la e ciencia de los estimadores en encuestas probabilísticas multipropósito, al contexto del muestreo no probabilístico. Adaptar los ajustes de ponderación existentes para estas muestras a las encuestas multiprop ósito podría ser la clave para adoptarlas en la producción de estadísticas o ciales o incluirlas en estudios a gran escala. Finalmente, empleamos PSA en el estudio de variables relacionadas con la salud en profesionales sanitarios utilizando datos de una encuesta online como la principal fuente de información y el censo de la población como la muestra de referencia. Comparamos los resultados al caso sin ajustar y evaluamos el rendimiento del mencionado ajuste. Nota: Esta tesis se presenta como un compendio de 7 publicaciones relacionadas con los contenidos de la tesis. La versión íntegra de los artículos se incluye en los Apéndices A1 - A7.
- English
  Since their theoretical development in the rst half of the XXth century, surveys have been the standard procedure to obtain information from a population of interest. The statistical properties of the estimators of population parameters, such as totals, means or proportions, allow researchers to make inferences about a target population using only a reduced sample of it, as well as obtain a measure of the variability of the estimations. The rst surveys were administrated by directly interviewing the respondents in person, a mode known as face-to-face surveying. This administration mode has been considered the "gold standard"practice in surveys, but their increasing costs and the advances in communication technologies favored the rise of telephone surveys and self-administered questionnaires, such as those used in mail surveys. In the last decades, these modes have also experienced an increase in costs and coverage problems, as well as a decline in response rates. Again, the development of new technologies has been the factor that has allowed the appearance of a new set of questionnaire administration techniques known as online surveys. Some examples include SMS surveys, e-mail surveys, smartphone surveys, and especially Web surveys, which are those that are administered and completed in web browsers. Online surveys comprise many advantages for researchers to conduct their studies. Recruitment of participants can be done much faster than in other survey modes, and at largely reduced costs. In addition, the use of technology allows researchers to design questionnaires with a wider spectrum of possibilities than in face-to-face, telephone or mail surveys. On the other hand, online surveys present several relevant sources of error. By de nition, such surveys can only reach online users or people with some kind of access to information and communication technology networks. This is an important coverage issue that can lead to biased estimates if the composition of the o ine population di ers signi cantly from that of the online population, which is often the case as the di erences are associated to demographics such as education level or age. In addition, the impossibility to nd any reliable sampling frame of the online population contributes to the use of self-selection procedures in online surveys. This practice constitutes an example of nonprobability sampling where the estimators of population parameters and their variance cannot be calculated because of the inability of inclusion probabilities to meet the requirements of a probability sampling. The main consequence of the application of these procedures is selection bias, which can be very relevant if there is any relationship between propensity to participate (self-select) in the survey and the variables of interest of the study. In those cases where a sampling frame is available for an online survey, and therefore it is possible to design a sampling scheme, non-response bias is also prone to appear. This is a particularly relevant issue in online panel surveys, and it has been associated with factors such as questionnaire length, incentives or invitation reminders. Some methods have been developed in survey methodology literature to address these issues. Non-response error is a common problem to all probability sampling surveys, and in consequence many methods have been developed to mitigate it, from which imputation and reweighting techniques can be pointed out. The correction of coverage and self-selection biases depends on the auxiliary information available. If only population totals for a set of covariates are available, calibration procedures can be applied; these have been proven to reduce coverage error, but their use in the correction of self-selection bias in online surveys is unclear. In some cases, a probability survey of reference, conducted in the same target population, is available. The variable of interest has not been measured on it, but if some auxiliary covariates (also measured in the online survey) are available, some adjustments can be considered. The most remarkable ones are Propensity Score Adjustment (PSA) and Statistical Matching or Mass Imputation. These adjustments focus on the mitigation of self-selection bias. Finally, if a population census is available for some auxiliary covariates (also measured in the online survey), methods based on superpopulation modeling can be considered, such as model-based, model-adjusted and model-calibrated estimators. These methods have been mostly considered in probability sampling contexts, although some recent works adapt some of them to nonprobability sampling problems. To contribute with the development of online surveys, we propose some methodological advances, such as the development of estimators of general parameters and the estimator of their variance, the study of the properties of the combination of PSA and calibration, the use of modern prediction techniques and variable selection methods in PSA, and the adaptation of all the superpopulation modeling approaches to the nonprobability sampling context considering modern prediction techniques as well. We also adapt the weight smoothing strategy, developed for increasing the e ciency of the estimators in multipurpose probability surveys, to the nonprobability sampling context. Adapting the weighting adjustments existent for such samples to multipurpose surveys could be the key to their adoptation in the production of o cial statistics or their inclusion in large-scale studies. Finally, we use PSA in the study of health-related variables in healthcare professionals using data from an online survey as the main source of information and the population census as the reference sample. We compare the results to the unadjusted case and evaluate the performance of the aforementioned adjustment. Note: This thesis is presented as a compendium of seven publications in relation with the contents of the thesis. The full version of the papers is included in Appendices A1 - A7.