Ir al contenido

Documat


Nonparametric Inference for Big-But-Biased Data

  • Autores: Laura Borrajo
  • Directores de la Tesis: Ricardo Cao Abad (dir. tes.) Árbol académico
  • Lectura: En la Universidade da Coruña ( España ) en 2021
  • Idioma: español
  • Número de páginas: 239
  • Tribunal Calificador de la Tesis: Mario Francisco-Fernández (presid.) Árbol académico, Catalina Bolancé Losilla (secret.) Árbol académico, Mónica Fernández Bugallo (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: RUC
  • Resumen
    • español

      Se acostumbra a pensar que en un contexto de datos de gran volumen, el conjunto de datos refleja fi elmente la población objeto de estudio, dada la gran cantidad de datos disponible. No obstante, en ocasiones estos datos están fuertemente sesgados debido, por lo general, al procedimiento de obtención de los mismos. Con el objetivo de reducir el importante sesgo que puede aparecer en un contexto de datos de gran volumen, se propone el uso de métodos de contraste para la detección de sesgo y se desarrollan métodos de estimación para la corrección del mismo. Se consideran estimadores no paramétricos de la media de una transformación de la variable aleatoria de interés. Se proponen dos escenarios diferentes para abordar el problema de la estimación cuando la función peso que produce el sesgo es desconocida. En el escenario 1, se supone que se observa adicionalmente una muestra aleatoria simple de tamaño pequeño de la población verdadera, mientras que en el escenario 2 se asume que se observa una muestra de tamaño pequeño doblemente sesgada. Las propiedades asintóticas de los estimadores propuestos se estudian ampliamente bajo condiciones límite adecuadas en los tamaños muestrales y bajo condiciones asintóticas estándar y no estándar en los dos parámetros de suavizado. El comportamiento de los estimadores no paramétricos propuestos se compara con el de los estimadores clásicos basados en las dos muestras involucradas en cada escenario a través de estudios de simulación de Monte Carlo. Los resultados de la simulación muestran que los nuevos estimadores de la media mejoran a las medias empíricas clásicas para una elección adecuada de los dos parámetros de suavizado implicados. También se estudia la influencia de los parámetros de suavizado en el funcionamiento de los estimadores, los cuales exhiben un comportamiento límite llamativo en cuanto a sus valores óptimos. Además, se introducen métodos bootstrap para la selección automática de los parámetros de suavizado para cada estimador no paramétrico de la media. Finalmente, las técnicas propuestas se aplican a varios conjuntos de datos reales procedentes de diversas áreas.

    • English

      It is often believed that in a Big Data context, given the large amount of data available, the data re ect precisely the underlying population. However, the data are often strongly biased due to the procedure used for obtaining them. In order to reduce the signi cant bias that may appear in Big Data (Big-but- Biased Data, B3D), di erent testing methods for bias detection are used and completely nonparametric estimation methods for bias correction are proposed. Nonparametric estimators for the mean of a transformation of the random variable of interest are considered. When ignoring the biasing weight function, two di erent setups are proposed. In Setup 1 a small-sized simple random sample of the real population is assumed to be additionally observed, while in Setup 2 it is assumed that a twice biased sample of small size is observed. The asymptotic properties of the proposed estimators are extensively studied under suitable limit conditions on the small and the large sample sizes and standard and non-standard asymptotic conditions on the two bandwidths. The performance of the proposed nonparametric estimators is compared with the classical estimators based on the two samples involved in each setup through Monte Carlo simulation studies. Simulation results show that the new mean estimators outperform the classical empirical means for suitable choices of the two smoothing parameters involved. The in uence of these smoothing parameters on the performance of the nal estimators is also studied, exhibiting a striking limit behaviour of their optimal values. In addition, bootstrap bandwidth selection methods for each nonparametric mean estimator are introduced. Finally, the proposed techniques are applied to several real data sets from different areas

    • galego

      Adoitase pensar que nun contexto de datos de gran volume, o conxunto de datos reflicte fielmente a poboación obxecto de estudo, dada a gran cantidade de datos dos que se dispoñen. Non obstante, en moitas ocasións estes datos están fortemente nesgados debido, polo xeral, ao procedemento de obtención dos mesmos. Co obxectivo de reducir o importante nesgo que pode aparecer nun contexto de datos de gran volume, proponse o uso de métodos de contraste para a detección do sesgo e desenvólvense métodos de estimación para a corrección do mesmo. Considéranse estimadores non paramétricos para a media dunha transformación da variable aleatoria de interese. Propóñense dous escenarios diferentes para abordar o problema da estimación cando a función peso que produce o sesgo é descoñecida. No escenario 1, suponse que se observa adicionalmente unha mostra aleatoria simple de tamaño pequeno da poboación verdadeira, mentres que no escenario 2 suponse que se observa unha mostra de tamaño pequeno dobremente sesgada. As propiedades asintóticas dos estimadores propostos son amplamente estudadas baixo condicións límite axeitadas sobre os tamaños mostrais e condicións asintóticas estándar e non estándar sobre os dous parámetros de suavizado. O comportamento dos estimadores non paramétricos propostos comparase co dos estimadores clásicos baseados nas d uas mostras implicadas en cada escenario por medio de estudos de simulaci on de Monte Carlo. Os resultados das simulacións amosan como os novos estimadores da media melloran ás medias empíricas clásicas para escollas axeitadas dos dous parámetros de suavizado implicados. Tamén se estuda a inf uencia dos parámetros de suavizado no funcionamento dos estimadores, amosando un comportamento límite sorprendente en canto os seus valores óptimos. Ademais, introdúcense métodos bootstrap para a selección automática dos parámetros de suavizado para cada estimador non paramétrico da media. Finalmente, as técnicas propostas aplícanse a varios conxuntos de datos reais procedentes de diversas áreas.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno