Ir al contenido

Documat


Resumen de Analysing large datasets of functional data: a survey sampling point of view

Pauline Lardin, Hervé Cardot Árbol académico, Camelia Goga

  • English

    At the age of Big Data, it is now common to have to deal with very large datasets of phenomena that evolve over time. When the aim is to estimate simple quantities such as the mean or the median trajectory, as well as the main modes of variation of the data, captured through a principal components analysis, survey sampling techniques may be employed successfully. They can offer an interesting trade off between size of the data and accuracy of estimators. This paper makes a review of survey sampling approaches recently developed to deal with large datasets of functional data.

    We present different sampling techniques that can be employed to build confidence bands and improve, with the help of auxiliary information, the accurary of estimators compared to simple random sampling without replacement. These procedures are illustrated on a dataset of electricity load curves measured every half-hour over a period of one week.

  • français

    A l’ère des données massives, il n’est plus inhabituel d’avoir à gérer de très grandes bases de données de phénomènes temporels. Quand l’objectif est d’estimer des indicateurs simples tels que la trajectoire moyenne ou médiane ou bien encore les principaux modes de variation autour de la moyenne, capturés par l’intermédiaire d’une analyse en composantes principales, les techniques de sondage sont des approches intéressantes. Elles offrent en effet un bon compromis entre taille des données à traiter et précision de l’estimation. Ce travail présente une revue des approches de sondage qui ont été developpées ces dernières années pour analyser de grandes bases de données fonctionnelles. L’accent est mis sur les manières de prendre en compte l’information auxiliaire en vue d’améliorer l’estimation en comparaison avec le sondage aléatoire simple sans remise et sur la construction de bandes de confiance.

    Ces techniques sont illustrées sur un jeu de données de courbes de charge électrique mesurées chaque demi-heure pendant une semaine.


Fundación Dialnet

Mi Documat