Every day, huge volumes of information are generated, processed and analyzed, which are essential for the development of artificial intelligence models. These models optimize segmentation, classification, process automation and trend prediction tasks, all encompassed under what we know as data science. This potential requires us to focus on the privacy issues that arise in such environments, from data acquisition and processing to model deployment and development. In this sense, this PhD thesis covers all these aspects, making multiple contributions to the development of advanced solutions in the field, combining theoretical and practical developments and software products. In addition, practical applications are explored in multidisciplinary areas, from medicine to water quality monitoring or climate predictions.
Como es ampliamente aceptado, la explosión de datos ha dado lugar a una revolución de datos, con un incremento del número de problemas y enfoques basados en datos que se están desarrollando, proporcionando nuevas perspectivas y soluciones a los retos existentes. En esta línea, la ciencia de datos es un campo multidisciplinar que se basa fundamentalmente en la estadística y la computación, y que no sólo se refiere al análisis de la información, sino que implica todo el ciclo de vida de los datos, incluyendo: planificación, recopilación, curado, análisis, monitorización, publicación, puesta en producción y preservación.
Por ello, el estudio y posterior desarrollo de diferentes técnicas de privacidad en un contexto de ciencia y análisis de datos es un área clave para la investigación científica. En concreto, a lo largo de esta tesis se investigan diferentes técnicas para el procesamiento, análisis y gestión seguros de datos, con especial atención a la privacidad de los datos y a la preservación de privacidad en el contexto de aprendizaje automático.
En concreto, tras introducir los conceptos básicos relacionados con la ciencia de datos y el big data, se abordan cuestiones éticas, sociales y legales, incluyendo normativas como el RGPD y la Ley de Inteligencia Artificial, y la importancia de la ciencia abierta. Todo ello para motivar y contextualizar el momento actual e introducir las cuestiones que nos llevan a afirmar que estamos viviendo una revolución de los datos que requiere especial atención a las cuestiones de privacidad derivadas de la misma.
El primer bloque de esta tesis se centra en la privacidad de los datos, abordando las bases de las técnicas de anonimización y pseudonimización, así como los ataques y métricas para evaluar los riesgos y el equilibrio con la utilidad. Se presentan dos herramientas desarrolladas en este trabajo: pyCANON y anjana, librerías Python para evaluar y aplicar técnicas de anonimización sobre conjuntos de datos. Además, se analiza el impacto de la anonimización en el rendimiento de los modelos de aprendizaje automático. Por otra parte, también se introduce la privacidad diferencial, tanto local como global, y sus mecanismos. Se exploran las aplicaciones para publicar y analizar datos utilizando modelos de aprendizaje profundo, considerando enfoques como la privacidad métrica y la privacidad diferencial Rényi, así como diferentes librerías para su implementación.
El segundo gran bloque de esta tesis explora lo que se conoce como aprendizaje automático que preserva la privacidad. En concreto, nos centramos en una técnica conocida como aprendizaje federado, que permite desarrollar modelos de aprendizaje automático y profundo sin necesidad de compartir datos ni que estos salgan del lugar de almacenamiento o adquisición, ni siquiera para el entrenamiento. Se detallan cuestiones teóricas de esta arquitectura y su implementación, así como ventajas, tipos, estrategias de agregación y problemas abiertos. Además, se discuten cuestiones relacionadas con la monitorización de la deriva y con la inclusión de tecnologías de mejora de la privacidad, como la privacidad diferencial o el cifrado homomórfico. A continuación, se presentan y evalúan diferentes librerías para aprendizaje federado, concluyendo con una comparativa de otras arquitecturas de aprendizaje distribuido existentes. Dentro de este bloque entra otra parte fundamental de la tesis, que es el paso a aplicaciones en el ámbito real de lo estudiado. En concreto, se presentan tres aplicaciones del aprendizaje federado en diferentes sectores: médico, monitorización de la calidad del agua y ciencias climáticas.
Finalmente, se presentan las aportaciones derivadas de esta tesis así como los resultados en términos de publicaciones científicas, congresos, software, etc., junto con algunas potenciales líneas de trabajo futuro en el campo.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados