Behavioral analysis in cybersecurity using machine learning: a study based on graph representation, class imbalance and temporal dissection

Francesco Zola

Ayuda

Behavioral analysis in cybersecurity using machine learning: a study based on graph representation, class imbalance and temporal dissection

Autores: Francesco Zola
Directores de la Tesis: Mikel Galar Idoate (dir. tes.) , Jan Lukas Bruse (dir. tes.)
Lectura: En la Universidad Pública de Navarra ( España ) en 2022
Idioma: inglés
Número de páginas: 160
Títulos paralelos:
- Análisis del comportamiento en ciberseguridad mediante aprendizaje automático: un estudio basado en representación gráfica, desequilibrio de clases y disección temporal
Enlaces
- Tesis en acceso abierto en: Academica-e
Resumen
- español
  El objetivo principal de esta tesis es mejorar el análisis del comportamiento de la ciberseguridad utilizando aprendizaje automático, explotando estructuras gráficas, disección temporal y abordando problemas de desequilibrio. Este objetivo principal se divide en cuatro objetivos específicos: OBJ1: Estudiar la influencia de la resolución temporal en el resaltado microdinámica en el problema de clasificación del comportamiento de entidades. En casos de uso real, la información de series temporales podría no ser suficiente para describir la clasificación del comportamiento de la entidad. Por esta razón, planeamos explotar estructuras gráficas para integrar datos estructurados y no estructurados en una representación de entidades y sus relaciones. De esta manera, será posible apreciar no solo la comunicación temporal única sino el comportamiento completo de estas entidades. Sin embargo, los comportamientos de las entidades evolucionan con el tiempo y, por lo tanto, un gráfico estático puede no ser suficiente para describir todos estos cambios. Por esta razón, proponemos utilizar una disección temporal para crear subgrafos temporales y, por lo tanto, analizar la influencia de la resolución temporal en la creación del gráfico y los comportamientos de la entidad dentro. Además, proponemos estudiar cómo se debe usar la granularidad temporal para resaltar la microdinámica de la red y los cambios de comportamiento a corto plazo que pueden ser un indicio de actividades sospechosas. OBJ2: Desarrollar métodos de muestreo novedosos que funcionen con gráficos desconectados para abordar problemas de desequilibrio evitando cambios en la topología de los componentes. El problema de desequilibrio de gráficos es una tarea muy común y desafiante, y las técnicas tradicionales de muestreo de gráficos que funcionan directamente en estas estructuras no se pueden usar sin modificar la información intrínseca del gráfico o introducir sesgos. Es más, las técnicas existentes han demostrado ser limitadas cuando se utilizan gráficos desconectados. Por esta razón, es necesario introducir nuevos métodos de remuestreo para equilibrar el número de nodos que se pueden aplicar directamente sobre gráficos desconectados, sin alterar las topologías de los componentes. En particular, proponemos aprovechar la existencia de grafos desconectados para detectar y replicar los componentes de grafos más relevantes sin cambiar su topología, al mismo tiempo que consideramos estrategias tradicionales a nivel de datos para manejar los comportamientos de la entidad dentro. OBJ3: Estudiar la utilidad de las redes antagónicas generativas para abordar el problema del desequilibrio de clases en aplicaciones de ciberseguridad. Aunque las técnicas tradicionales de preprocesamiento a nivel de datos han demostrado ser efectivas para abordar los problemas de desequilibrio de clases, también han mostrado efectos negativos cuando se utilizan conjuntos de datos muy variables, como sucede en la ciberseguridad. Por esta razón, se deben investigar nuevas técnicas que puedan explotar la distribución general de datos para aprender comportamientos altamente variables. En este sentido, las GAN han mostrado resultados prometedores en el dominio de imagen y video, sin embargo, su extensión a datos tabulares no es baladí. Por esta razón, proponemos adaptar las GAN para trabajar con datos de ciberseguridad y explotar su capacidad para aprender y reproducir la distribución de entrada para abordar el problema del desequilibrio de clases (como una técnica de sobremuestreo). Además, dado que no es posible encontrar una solución GAN única que funcione para todos los escenarios, proponemos estudiar varias arquitecturas GAN con varias configuraciones de entrenamiento para detectar cuál es la mejor opción para una aplicación de ciberseguridad. OBJ4: Analizar las tendencias de datos temporales y la desviación del rendimiento para mejorar el análisis de ciberamenazas. La dinámica temporal y los nuevos datos entrantes pueden afectar la calidad de las predicciones, comprometiendo la confiabilidad del modelo. Este fenómeno hace que los modelos queden desactualizados sin darse cuenta. En este sentido, es muy importante poder extraer información más perspicaz del dominio de la aplicación analizando las tendencias de los datos, los procesos de aprendizaje y las desviaciones del rendimiento a lo largo del tiempo. Por esta razón, proponemos desarrollar un enfoque sistemático para analizar cómo la calidad de los datos y su cantidad afectan el proceso de aprendizaje. Además, en el contexto de CTI,
- English
  The main goal of this thesis is to improve behavioral cybersecurity analysis using machine learning, exploiting graph structures, temporal dissection, and addressing imbalance problems.This main objective is divided into four specific goals: OBJ1: To study the influence of the temporal resolution on highlighting micro-dynamics in the entity behavior classification problem. In real use cases, time-series information could be not enough for describing the entity behavior classification. For this reason, we plan to exploit graph structures for integrating both structured and unstructured data in a representation of entities and their relationships. In this way, it will be possible to appreciate not only the single temporal communication but the whole behavior of these entities. Nevertheless, entity behaviors evolve over time and therefore, a static graph may not be enoughto describe all these changes. For this reason, we propose to use a temporal dissection for creating temporal subgraphs and therefore, analyze the influence of the temporal resolution on the graph creation and the entity behaviors within. Furthermore, we propose to study how the temporal granularity should be used for highlighting network micro-dynamics and short-term behavioral changes which can be a hint of suspicious activities. OBJ2: To develop novel sampling methods that work with disconnected graphs for addressing imbalanced problems avoiding component topology changes. Graph imbalance problem is a very common and challenging task and traditional graph sampling techniques that work directly on these structures cannot be used without modifying the graph’s intrinsic information or introducing bias. Furthermore, existing techniques have shown to be limited when disconnected graphs are used. For this reason, novel resampling methods for balancing the number of nodes that can be directly applied over disconnected graphs, without altering component topologies, need to be introduced. In particular, we propose to take advantage of the existence of disconnected graphs to detect and replicate the most relevant graph components without changing their topology, while considering traditional data-level strategies for handling the entity behaviors within. OBJ3: To study the usefulness of the generative adversarial networks for addressing the class imbalance problem in cybersecurity applications. Although traditional data-level pre-processing techniques have shown to be effective for addressing class imbalance problems, they have also shown downside effects when highly variable datasets are used, as it happens in cybersecurity. For this reason, new techniques that can exploit the overall data distribution for learning highly variable behaviors should be investigated. In this sense, GANs have shown promising results in the image and video domain, however, their extension to tabular data is not trivial. For this reason, we propose to adapt GANs for working with cybersecurity data and exploit their ability in learning and reproducing the input distribution for addressing the class imbalance problem (as an oversampling technique). Furthermore, since it is not possible to find a unique GAN solution that works for every scenario, we propose to study several GAN architectures with several training configurations to detect which is the best option for a cybersecurity application. OBJ4: To analyze temporal data trends and performance drift for enhancing cyber threat analysis. Temporal dynamics and incoming new data can affect the quality of the predictions compromising the model reliability. This phenomenon makes models get outdated without noticing. In this sense, it is very important to be able to extract more insightful information from the application domain analyzing data trends, learning processes, and performance drifts over time. For this reason, we propose to develop a systematic approach for analyzing how the data quality and their amount affect the learning process. Moreover, in the contextof CTI, we propose to study the relations between temporal performance drifts and the input data distribution for detecting possible model limitations, enhancing cyber threat analysis.