Ir al contenido

Documat


Resumen de Intrusion detection based on federated learning for Internet of Things scenarios

Enrique Marmol Campos

  • español

    El objetivo de esta tesis es analizar el uso del Federated Learning (FL) para desarrollar enfoques efectivos y eficientes para los Intrusion Detection Systems (IDS) en escenarios de Internet de las Cosas (IoT). El FL está diseñado para entrenar un modelo de Machine Learning (ML) con datos distribuidos entre múltiples entidades. Este método aborda las preocupaciones sobre la privacidad asociadas con la recopilación de grandes cantidades de datos de diferentes fuentes para su análisis posterior, lo que podría violar las leyes de protección de datos y resultar en filtraciones de información. De hecho, los sistemas finales entrenan el modelo con sus propios datos y comparten periódicamente solo los parámetros resultantes del entrenamiento con una entidad central o agregador. Dicha entidad combina estos parámetros utilizando una función de agregación determinada y envía el resultado agregado de nuevo a los clientes para continuar el proceso de entrenamiento, preservando así la confidencialidad de los datos individuales. Si bien el principal beneficio del FL es la preservación de la privacidad de los diferentes conjuntos de datos, este aislamiento puede plantear desafios al agregar información en el servidor debido a la posible heterogeneidad de los datos y características de los clientes. De hecho, el análisis del estado actual de la técnica muestra que el desarrollo de IDS habilitados para FL aún requiere mejoras significativas, incluyendo la necesidad de considerar escenarios realistas que reflejen dicha heterogeneidad. Para desarrollar modelos efectivos en la detección de ciberataques, es imperativo establecer entornos federados que gestionen la heterogeneidad de los datos, mejoren la privacidad y seguridad, y protejan las implementaciones contra diferentes amenazas, como ataques de inferencia y envenenamiento. Objetivos adicionales incluyen la implementación de modelos no supervisados y aspectos adicionales relacionados con la heterogeneidad de datos y dispositivos mediante el análisis de diferentes funciones de agregación. Para alcanzar estos objetivos, se han implementado diversos métodos. Para abordar la heterogeneidad de los datos, empleamos técnicas de rebalanceo, implementamos diferentes funciones de agregación y optimizamos los parámetros de los modelos de ML utilizados. En cuanto a las preocupaciones de privacidad, analizamos la aplicación de diferentes técnicas de Differential Privacy (DP) y su impacto en el rendimiento del IDS. Este análisis considera hasta qué punto estas técnicas previenen la extracción de información del conjunto de datos a través de los parámetros intercambiados durante las rondas de entrenamiento. Para los aspectos de seguridad, particularmente la identificación y mitigación de ataques de envenenamiento, desarrollamos una nueva función de agregación y un método novedoso para detectar clientes bizantinos. Además, los modelos no supervisados se adaptan a entornos de FL, y se diseñan métodos alternativos para seleccionar a los clientes que participarán en el FL. La implementación de estas soluciones está destinada a avanzar significativamente en la robustez y efectividad de los enfoques de detección de ciberataques. En resumen, la tesis se centra en la aplicación del FL para la detección de ciberataques y, en particular, en los sistemas IDS, en el contexto de escenarios de IoT. Para mejorar el rendimiento de los enfoques propuestos, se han aplicado y analizado diversas técnicas para crear entornos federados más robustos y que preserven mejor la privacidad, capaces de gestionar distribuciones de datos no-iid (no independentientes e idénticamente distribuidas). La implementación de estas soluciones representa un avance significativo en los IDS habilitados para FL y en la detección de ciberataques en general. Además, los resultados obtenidos abren el camino para futuros desarrollos dirigidos a mejorar la robustez del entorno de FL y a extender su aplicación a una gama más amplia de problemas de ciberseguridad más allá de la detección de ciberataques

  • English

    The objective of this thesis is to analyze the use of Federated Learning (FL) to develop effective and efficient approaches for Intrusion Detection Systems (IDS) in Internet of Things (IoT) scenarios. FL is intended to train a Machine Learning (ML) model with data distributed across multiple entities. This method addresses the privacy concerns associated with the collection of huge amounts of data from different sources for further analysis that could violate data protection laws and result in data leaks. Indeed, end systems train the model with their own data and periodically share only the resulting training parameters, with a central entity or aggregator. Such entity combines these parameters using a certain aggregation function and sends the aggregated result back to the clients to continue the training process, thereby preserving the confidentiality of individual data. While the main benefit of FL is the privacy preservation of the different datasets, this isolation can pose challenges when aggregating information on the server due to the potential heterogeneity of clients' data and characteristics. In fact, the current state-of-the-art analysis shows that the development of FL-enabled IDSs still requires significant improvements, including the need for considering realistic scenarios reflecting such heterogeneity. To develop effective models for detecting cyberattacks, it is imperative to establish federated environments managing data heterogeneity, and enhancing privacy and security to protect deployments against different threats, such as inference and poisoning attacks. Additional objectives include the implementation of unsupervised models, and additional aspects related to data and device heterogeneity by analyzing different aggregation functions. To achieve these objectives, various methods have been implemented. For addressing data heterogeneity, we employ rebalancing techniques, implement different aggregation functions, and optimize the parameters of the ML models used. For privacy concerns, we analyze the application of different Differential Privacy (DP) techniques and their impact on the performance of the IDS. This analysis considers the extent to which these techniques prevent the extraction of information from the dataset through the parameters exchanged throughout the training rounds. For security aspects, particularly the identification and mitigation of poisoning attacks, we develop a new aggregation function and a novel method for detecting Byzantine clients. Additionally, unsupervised models are adapted to FL settings, and alternative methods for selecting clients to participate in FL are devised. The implementation of these solutions is intended to significantly advance the robustness and effectiveness of cyberattack detection approaches. In summary, the thesis at hand focuses on the application of FL for cyberattack detection and in particular, IDS systems, in the context of IoT scenarios. To enhance the performance of the proposed approaches, various techniques have been applied and analyzed to create more robust and privacy-preserving federated settings capable of managing non-iid data distributions. The implementation of these solutions represents a significant advancement in FL-enabled IDSs and cyberattack detection in general. Furthermore, the obtained results pave the way for future developments aimed at improving the robustness of FL environment and extending their application to a broader range of cybersecurity problems beyond cyberattack detection.


Fundación Dialnet

Mi Documat