Ir al contenido

Documat


Resumen de Desarrollo de una aplicación de código abierto para el control de la confidencialidad estadística en la difusión de datos de la AEAT

Diego Porras Escalada, Félix Saz Marco, David Pérez Fernández

  • español

    La supresión de celdas es una técnica de protección de la confidencialidad estadística ampliamente conocida y aplicada a las publicaciones tabulares de datos estadísticos.

    El problema de encontrar la supresión de celdas óptima que, garantizando la confidencialidad de los datos, oculta la menor cantidad de información es conocido como problema de supresión de celdas (CSP: Cell Suppression Problem).

    En este artículo, se describe una aplicación que resuelve el problema CSP asociado a la publicación de estadísticas tabulares basado en estándares abiertos y empleando un optimizador lineal de código abierto (GLPK). Dicha aplicación está puesta a disposición del público a través del CTT (Centro de Transferencia de Tecnología de la Administración Pública1) En el artículo se muestran resultados computacionales obtenidos por la aplicación, sobre datos reales de las publicaciones de estadísticas realizadas en el Servicio de Estudios Tributarios y Estadísticas (SETE). También se incluyen los resultados de la batería de test conocida como librería CSPlib.

    Por otra parte, se muestra el esquema de la integración de la aplicación de protección de la confidencialidad estadística con el sistema de difusión de datos empleado por la Agencia Tributaria. Dicho sistema se basa en una arquitectura OLAP (OnLine Analytical Processing).

    Finalmente, se plantean futuras mejoras en la aplicación; tanto en el algoritmo de cálculo, optimizadores lineales así como en la integración con el sistema de difusión estadística de la AEAT.

  • English

    The cell suppression is a well known statistical disclosure control technique for tabular data protection.

    The cell suppression problem (CSP) is a problem consisting on find the optimal suppression that minimizes the lost of information guaranteeing data confidentiality.

    This paper describes an application that solves the CSP problem related to a given statistical tabular data publication. It is based on open source standards and uses an open linear optimizer called GLPK. This application has been shared on Spanish CTT2.

    The current paper shows the application computational results for the information published by SETE (Spanish Tax Agency, statistical information dissemination department). It also contains results running the known CSPLib test library.

    Spanish Tax Agency statistical information diffusion system is based on the OLAP (OnLine Analytical Processing) paradigm. The Statistical disclosure control system, using the cell suppression technique, has been integrated with the diffusion system.

    Finally, some improvements about statistical disclosure calculation algorithms, linear optimizer and OLAP system integration are proposed.


Fundación Dialnet

Mi Documat