Ir al contenido

Documat


Resumen de Enhancing DGA-based botnet detection beyond 5G with on-Edge machine learning

Mattia Zago

  • español

    A pesar de los esfuerzos y resultados de la comunidad científica, el software malicioso (o malware) sigue causando pérdidas y daños en las redes informáticas sin distinción del alcance, técnicas aplicadas o efectividad. De hecho, todavía existen funcionalidades muy habituales como la comunicación con los servidores de Comando y Control (C&C), para descargar infecciones de segunda etapa, realizar acciones maliciosas o quedar a la espera de nuevos comandos. Durante la pasada década, los cibercriminales han conseguido eludir los sistemas de detección con algoritmos como, por ejemplo, los basados en generación de nombres de dominio (del inglés Domain Generation Algorithms, DGAs). Estos incluyen fragmentos de código que generan nombres de dominio pseudoaleatorios, conocidos como AGDs (del inglés Algorithmically Generated Domain), los cuales podrían registrarse para actuar como puntos de encuentro entre los servidores C&C y los dispositivos infectados. Este hecho permite que los cibercriminales generen millones de dominio dinámicamente sin tener que registrarlos todos, solo uno es suficiente para iniciar la conexión. El uso de estos DGAs se ha convertido en un enfoque recurrente y muy eficaz para eludir los equipos de ciberseguridad y los algoritmos de detección. En este escenario asimétrico, los algoritmos de machine-learning (ML), como el reconocimiento de patrones, aportan una importante contribución; la cantidad de tráfico en redes a gran escala como las redes 5G y las B5G (beyond 5G) influye directamente en la elección de estas soluciones basadas en ML, debido a los recursos necesarios para el entrenamiento y ejecución de los modelos. La ciberseguridad en 5G y B5G requiere de soluciones de autoorganización y autoprotección a través de servicios de seguridad desplegados en entornos virtualizados, conocidos como SECaaS (del inglés Security as a Service), formando parte de un ciclo automatizado para cubrir los procesos de detección, análisis y mitigación de las ciberamenazas de forma colaborativa, escalable y descentralizada. Esta tesis doctoral se centra en el estudio de las botnets basadas en DGA a través de herramientas de ML para desplegarse como SECaaS en los perímetros de las redes 5G y B5G, con el objetivo multidisciplinar de contribuir a la mejora del estado del arte en la identificación de aquellos elementos que permitan distinguir actividades sospechosas en entornos altamente dinámicos. Se abarcan así estudios del estado del arte, elaboración de teorías y modelos basados en ML, y diseño de experimentos y evaluaciones. Fijando como objetivo principal de la tesis el avance del conocimiento en temas de ciberseguridad y botnets basadas en DGAs, se han realizado dos contribuciones. Por un lado, se proporciona una caracterización de los aspectos de los DGAs, con un estudio completo de contribuciones anteriores presentes en el estado del arte, fuentes de datos y enfoques basados en ML. Por otro lado, se ha conseguido un objetivo más ambicioso como es la integración y mejora del estado del arte en términos de técnicas y literatura, proporcionando métodos, estrategias y tecnologías que permitan la detección a gran escala con técnicas avanzadas de ML. En resumen, los artículos de investigación que componen esta tesis doctoral promueven una investigación que explora, analiza y aborda las redes de bots basadas en DGA. Siguiendo este hilo conductor, cada artículo es autónomo y proporciona información crítica sobre los desafíos de la investigación desde una perspectiva distinta. En conjunto, estas contribuciones representan una descripción clara del nicho de investigación aquí resumido. Sin embargo, algunas cuestiones necesitan mayor esfuerzo para su resolución. El principal de ellos es si será factible proporcionar perfiles anónimos, intercambiables y confiables para los nombres de dominio maliciosos, de cara a permitir modelos de detección colaborativos y federados sin perjudicar la privacidad de los usuarios.

  • English

    Notwithstanding the scientific community's efforts and results, malwares are still wreaking havoc of computer networks. However, independently from the purposes of these malwares, the botnets are characterised by a common point of failure, i.e., the communication channel. Infected devices need to reach out to the Command and Control (C&C) servers to download second-stage infections, perform malicious actions or await further commands. Domain Generation Algorithms (DGAs) have grown to a conventional approach to elude detection algorithms by generating pseudo-random rendezvous-points for the C&C servers. Although many machine-learning (ML)-oriented frameworks have been theorised to identify and intercept DGAs, the problem is yet to be solved. As such, this PhD thesis' scope is to analyse the DGAs' outputs, known as algorithmically generated domain names (AGDs), to provide a set of ML tools and privacy-aware methodologies that help identify these evasive patterns. To be more precise, the objectives achieved throughout this research are twofold. Firstly, this thesis aims to provide a characterisation of the DGAs aspects, including, a comprehensive survey of previous literary contributions, data sources and ML-based approaches. Secondly, it aims to integrate and improve the state-of-the-art by providing methods, strategies and technologies to enable the detection at scale. Specifically, signature patterns are identified in malicious AGDs using natural language processing (NLP) techniques, and the resulting learning models are designed as services to be dynamically deployed anywhere on the network. As a result, this research encompasses literary survey, theory and framework crafting, experiments design and evaluations, and knowledge gaps identification and discussions. Under the compendium modality, the three chapters composing this PhD dissertation are outlined as follows. • Firstly, a state-of-the-art survey on ML approaches to DGA-based botnet detection; the first chapter reports on supervised and unsupervised algorithms, their features sets, the definition of use cases and experiments, and, ultimately, the outline of multiple research challenges to guide the thesis. Eventually, the experimental findings lay the foundations for AGDs formal and verifiable study. • Secondly, a comparative analysis of the data sources to power ML frameworks; the second chapter reports on the published datasets by providing a formal comparison and discussion on multiple orthogonal properties. In the same article, the UMUDGA dataset is introduced as a complete, balanced and up-to-date collection of DGA-related data, featuring 50 DGAs and 30+ million FQDNs. Eventually, the analysis reported in the article suggests that ML solutions based on AGDs pattern recognition are feasible. • Thirdly, a proof-of-concept framework where the detection of DGA-based botnets is deployed as a security service on edge; the third chapter examines architectural Edge AI approaches to enable scalable detection in 5G networks and beyond. In the article, the experiments demonstrate that AGD detection is not only reasonable and achievable, but it is also plausible to expect to have deployed such detection capabilities on the networks' edges and eventually on the users' equipment (UE). In summary, the chapters composing this PhD dissertation promote cohesive research exploring, analysing and, ultimately, tackling the DGA-based botnets. Following this Ariadne's thread, each chapter is self-contained and provides critical insights on the research challenges from a different perspective; together, these contributions depict a clear description of the research niche summarised in the thesis. However, although conclusive on the explored subjects, some questions mooted by this research remain unsolved. Prime among them is whether it will be feasible to provide anonymous, exchangeable, and trustworthy profiles of AGDs to enable collaborative and federated detection models without harming users' privacy.


Fundación Dialnet

Mi Documat