Fusión de Datos: Imputación y Validación

Carlos Alberto Juárez Alonso

Ayuda

Fusión de Datos: Imputación y Validación

Autores: Carlos Alberto Juárez Alonso
Directores de la Tesis: Tomàs Aluja Banet (dir. tes.)
Lectura: En la Universitat Politècnica de Catalunya (UPC) ( España ) en 2005
Idioma: español
ISBN: 84-689-3479-8
Depósito Legal: B-40171-2005
Tribunal Calificador de la Tesis: Manuel Martí Recober (presid.) , Jan Graffelman (secret.) , Ludovic Revart (voc.) , Michelle Lejeune (voc.) , Enric Ripoll Font (voc.)
Enlaces
- Tesis en acceso abierto en: TDX
Resumen
- español
  Las actitudes, el conocimiento y las acciones generalmente se basan en muestras. Algunos basan sus conclusiones en muestras pequeñas y pocas veces toman en cuenta la magnitud de lo que se desconoce. Generalmente se carece de recursos para estudiar más de una parte del problema de interés que pudiera aumentar nuestro conocimiento. Algunas razones para el uso de las técnicas de muestreo son: costo reducido, mayor velocidad, mayor enfoque o perspectiva y mayor exactitud.
  
  La fusión de datos surge como una alternativa a la fuente única de datos frente a la necesidad de conseguir el máximo de información posible al menor costo. Tiene como objetivo combinar datos de diferentes fuentes para poder disponer de toda la información en un solo archivo, aunque artificial, con todas las variables de interés. Utiliza lo mejor de la información existente en un archivo para reconstruir la información ausente en otro archivo. Es una estimación estadística de los datos faltantes. Es un medio de limitar la recolección de datos, reconstruyendo la información faltante. No es un problema de análisis estadístico con datos faltantes en el cual se consideran los mecanismos que conducen a la ausencia de datos. En el caso de la fusión de datos, se presentan bloques completos de datos ausentes, en general, muestras independientes.
  
  La revisión bibliográfica ha permitido analizar el problema del análisis de datos faltantes como una aproximación al tema de la fusión de datos, considerando que la fusión de datos es un caso particular. En este caso, se está hablando de bloques de datos faltantes y en muchas ocasiones, datos faltantes por diseño.
  
  El objetivo de la fusión de datos es por lo tanto, el obtener un solo archivo que pueda ser analizado posteriormente con herramientas de minería de datos.
  
  La idea es estimar los valores de las variables no informadas (valores faltantes) a partir de un bloque de variables informadas correlacionadas con el bloque de variables a reconstituir (variables comunes). Es importante hacer notar que no se esta generando nueva información.
  
  Parte de este trabajo se dedica a la definición y aproximación del concepto fusión de datos. Se presentan algunos enfoques para el tratamiento de los datos ausentes. Se han revisado, de manera no exhaustiva, algunas técnicas relacionadas con el tema y se muestran aplicaciones de la fusión de datos relacionadas con otras herramientas.
  
  Son muchas las técnicas que existen para tratar la reconstrucción de los datos faltantes. En este trabajo, el enfoque se ha hecho sobre la técnica de imputación Hot deck.
  
  Con esta técnica se sustituyen valores individuales extraídos de unidades observadas similares. Se basa en el reemplazo de la información faltante en el conjunto de individuos no informados (con datos faltantes) que se llaman receptores, utilizando la información de los individuos informados más parecidos, llamados donantes. Es una práctica común que involucra esquemas elaborados para la selección de las unidades similares para la imputación.
  
  Se estudian algunos procedimientos no paramétricos de discriminación para efectuar la búsqueda de los individuos más cercanos (parecidos). Existen distintos algoritmos diseñados para esto. Se ha hecho una revisión de algunos de estos métodos de búsqueda. Este trabajo se basa en el algoritmo de Fukunaga/Narendra. Se muestran los componentes del sistema. Se presentan los fundamentos y las bases que se han seguido para el desarrollo y la implantación del mismo.
  
  Se han establecido algunas propuestas no paramétricas para la medición de la calidad de la fusión.
  
  La experimentación y prueba de las distintas propuesta se ha hecho dividida en dos partes. En una se ha hecho una selección aleatoria de los individuos para formar un conjunto de donantes y un conjunto de receptores. En la segunda parte, la selección se ha hecho a partir de una característica específica en una variable. Para esto se emplea un archivo sintético creado a partir de un conjunto de datos privados de financiación para el otorgamiento de créditos al consumo. Este archivo general consta de 6692 individuos.
  
  El aspecto práctico de este trabajo, ha sido el desarrollo de un sistema de fusión de datos.
  
  Aunque mucho está escrito sobre la imputación Hot deck, siempre habrá espacio para proponer nuevos métodos. Evaluar la calidad de la fusión seguirá siendo tema de interés. Queda claro que la fusión de datos satisface la necesidad de muchos de proporcionar una sola fuente de datos completa a los usuarios finales. Sin embargo, se debe tener cuidado al hacer uso de esta información (son estimaciones, no valores reales observados).
  
  ---------------------------------------------------------------------------------------------------
- English
  Very often, attitudes, knowledge and actions, are base on samples. Some base their conclusions on small samples and are less likely to be aware of the extent of what is unknown. There is frequently a lack of resources to study more than a part of the problem of interest which could increase our knowledge of it. Some reasons for the use of sample techniques are: reduced cost, greater speed, greater scope o perspective and greater accuracy.
  
  Data fusion emerges as an alternative to single source data, faced to the need of acquiring the more information as possible at the lower cost. Its objective is to combine data from different sources in order to have the whole information on a single file, though artificial, but with all the variables of interest. It makes use of the best of the current information contained on one file to rebuild the missing information on another file. Its a statistical estimation of the missing data. It is a mean to restrict the gathering of data, rebuilding the missing information. It is not a problem of statistical analysis with missing data, on which, the process that leads to the absence of data are considered. In the case of data fusion, complete blocks of missing data appear, generally, independent samples.
  
  The bibliography has allowed analyzing the subject of missing data as an approach to the subject of data fusion, considering that data fusion is a particular case of it. In this case, missing data and sometimes missing by design is what it is all about.
  
  Therefore, the objective of data fusion is to get a single file which can be analyzed further with data mining tools. The idea is to estimate the values of the variables with missing data upon a block of variables with the whole information correlated with the variables to be rebuilt. It is important to mention that new information is not being generated.
  
  A part of this work is dedicated to the definition and rapprochement to the concept of data fusion. Some ways of treating the problem of missing data are presented. Some techniques related to the subject have been reviewed in a non exhaustive way and some data fusion applications related with other tools is shown.
  
  There are many techniques for treating the rebuilding of missing data. This work is focused on the hot deck technique.
  
  With this technique, individual units, took from similar observed units are replaced. It is based on the replacement of the missing information in the set of units with missing information called receivers, using the information of units more likely to them called donors. It is a common practice that involves complex outlines for the selection of the similar unit to be used for the imputation.
  
  Some non parametric discrimination procedures have been studied to perform the search of the nearest units (the most resembling). There are different algorithms for this purpose. A review of some of these search methods has been made. This work is based on the Fukunaga/Narendra algorithm. The components of the system are shown as well as the foundations and bases followed for the development and implementation.
  
  Some non parametric proposals have been made for measuring the quality of the fusion.
  
  The experimentation and tests of the system has been made in two parts. In one part, a random selection of the units that makes the set of donors and the set of receivers has been made. In the second part, the selection has been made upon a specific characteristic on a variable. For this purpose, a synthetic file created upon a set of private financing data for the grant of consumer goods credits is used. This general file contains 6692 units.
  
  The practical aspect of this work has been the development of a data fusion system.
  
  Although many have been written about hot deck imputation, there is always room for new proposals. Evaluating the quality of the fusion is still a subject of interest. It is clear that data fusion fulfill the need of many to provide the final user with a complete single source of data. However, care must be taken with the use of this information (they are estimations, not actual observed values).