Botnet activity spotting with artificial intelligence: efficient bot malware detection and social bot identification

Velasco Mata, Javier

doi:10.18002/10612/18580

Título

Botnet activity spotting with artificial intelligence: efficient bot malware detection and social bot identification

Autor

Velasco Mata, Javier

Director/es

Alegre Gutiérrez, Enrique

González Castro, Víctor

Facultad/Centro

Escuela de Ingenierias Industrial, Informática y Aeroespacial

Área de conocimiento

Ingenieria de Sistemas y Automatica

Cita Bibliográfica

Velasco Mata, J. (2023). Botnet activity spotting with artificial intelligence: efficient bot malware detection and social bot identification. [Tesis doctoral, Universidad de León]

Fecha

2023-11-30

Resumen

[EN] In the cybercrime scope, botnets are networks of bots, automated entities that follow instructions from a cybercriminal. The capacity of these networks to operate en masse has made them one of the most popular tools to carry out malicious activities, fromspam distribution to distributed denial-of-service (DDoS) attacks. This has made botnets one of the online threats with the most significant presence, causing billionaire losses to the global economy. The motivation of this PhD Thesis is to research and propose bot detection techniques. Specifically, it is focused on two types of bots: malware bots, i.e., virus programs that can be installed in the victims’ devices without their notice; and social bots, i.e., fake accounts in Social Networks that try to masquerade as real humans to deceive regular users. The first work is dedicated to the detection of network traffic produced by malware bots. In particular, we aim to improve the performance of botnet traffic classification usingMachine Learning by selecting those features that further increase the detection rate. For this purpose, we employ two feature selection techniques, namely Information Gain and Gini Importance, which led to three candidate subsets of five, six and seven features. Then, we evaluate the three feature subsets with three models (Decision Tree, Random Forest and k-Nearest Neighbors). To test their performance, we generate two datasets based on the CTU-13 dataset, namely QB-CTU13 and EQB-CTU13. Finally, we measure the performance as the macro averaged F1 score over the computational time required to classify a sample. The results show that the highest performance is achieved by Decision Trees using a five-feature set, which obtained a mean F1 score of 0.850, classifying each sample in an average time of 0.78 microseconds. Nowadays, there are networkswith large bandwidthswhere vast amounts of traffic are generated every second, and it is hard to analyze all that information looking for threats, especially before large damage is done. Hence, the second work focuses on real-time detection of botnet traffic, even on high bandwidth networks. As a solution, we propose an approach capable of carrying out an ultra-fast network analysis (i.e. on time windows of one second), without a significant loss in the F1-score on botnet detection. We compared our model with other three literature proposals and it achieved the best performance: an F1 score of 0.926 with a processing time of 0.007 ms per sample. We also assessed the robustness of our model on saturated networks and on large bandwidths. In particular, our model is capable of working on networks with 10% of packet loss, and our results suggest that using commercial-grade cores of 2.4 GHz, our approach would only need four cores for bandwidths of 100 Mbps and 1 Gbps, and 19 cores on 10 Gbps networks. The third and fourth works shift their focus towards social bots – fake accounts in SocialNetworks – which are a growing concern due to their promotion of fraudulent content and divisive ideologies. The damage caused by social media bots ranges from individual scams to affecting the whole society, as they may be used to contaminate the public debate with fake news, and thus can also influence the political sphere. In the third work, we exploit the graph structure of Twitter to detect bots automatically. Specifically, we propose a novel pipeline approach, based on Kipf and Welling’s Graph Convolutional Network model, which solves its limitations when used in graphs that are independent of the training data. We obtained an F1 score of 0.784 on the Crescirtbust dataset using a version of our proposal trained on seven completely independent datasets, a score 24% higher than the baseline. Furthermore, we present a novel seedbased cross-validation to generate class-balanced folds thatminimize the intra-fold graph’s edge loss. The new pipeline and cross-validation methods could be applied to any other problem that involves graph data. We have realized that it is easy for a fake account to pose as a human with convincing metadata such as the user name, the account description, the location, and other public and editable information. It is also possible for bots to follow each other imitating the structure of real communities. Therefore, in the fourth work, we focus on building a Twitter bot detector based on the accounts’ publication activity. For this purpose, we created a novel dataset of Twitter users that includes 17,945 manually labeled samples into bots or humans. Moreover, our dataset includes the users’ public metadata, their whofollow- who relationships within the dataset while ensuring a dense connection between the users, and their most recent publication activity. To the best of our knowledge, our dataset is the largest in terms of completeness and manually labeled Twitter users into bots and humans. Our social bot detector proposal leverages BERTopic, a BERT-based topic predictor, to classify the tweets of the users into 102 categories. The resulting information is time-windowed at 15-minute intervals to characterize the users’ activity and used to predict them into bots or humans using our proposed classifier, an ensemble of seven LSTM-based models. Our system reported an accuracy of 0.755 and an F1 of 0.777 on our new dataset.

[ES] En el ámbito de la ciberdelincuencia, las botnets son redes de bots, autómatas que siguen las instrucciones de un ciberdelincuente. La capacidad de estas redes para operar en masa las han convertido en una de las herramientas más populares para llevar a cabo actividadesmaliciosas, desde la distribución de spam hasta ataques de denegación de servicio distribuido (DDoS, por su nombre en inglés). Esto ha hecho de las botnets una de las amenazas con mayor presencia en Internet, causando pérdidas multimillonarias a la economía mundial. La motivación de esta Tesis Doctoral es investigar y proponer técnicas de detección de bots. En concreto, esta Tesis se centra en dos tipos de bots: los bots malware, como virus informáticos que pueden instalarse en los dispositivos de las víctimas sin que éstas sean conscientes de ello; y los bots sociales, entendidos como cuentas falsas en redes sociales que intentan hacerse pasar por humanos reales para engañar a los usuarios normales. El primer trabajo de investigación está dedicado a la detección del tráfico de red producido por bots. En particular, se pretende mejorar el rendimiento de la clasificación del tráfico de botnets mediante aprendizaje automático seleccionando aquellas características que mejoren la tasa de detección. Para ello, se emplearon dos técnicas de selección de características, la Ganancia de Información y la Importancia de Gini, cuyo uso condujo a tres subconjuntos candidatos de cinco, seis y siete características. A continuación, se evaluaron estos tres subconjuntos de características y tres modelos de clasificación (Árbol de Decisión, Bosque Aleatorio y k-Vecinos más Cercanos). Para comparar su rendimiento, se generaron dos conjuntos de datos basados en el conjunto de datos CTU-13, y que se llamaron QB-CTU13 y EQB-CTU13. Por último, se midió el rendimiento como la relación entre el macropromedio del valor F1 sobre el tiempo computacional medio necesario para clasificar una muestra. Los resultados muestran que el mayor rendimiento fue obtenido por un Árbol deDecisión utilizando el conjunto de cinco características, que consiguió un valor F1 medio de 0,850 clasificando cada muestra en un tiempo medio de 0,78 microsegundos. Hoy en día existen redes de gran ancho de banda donde se generan grandes cantidades de tráfico por segundo, y es difícil analizar toda esa información en busca de amenazas, especialmente antes de que produzcan un gran daño. Por ello, el segundo trabajo se enfoca en la detección en tiempo real del tráfico de botnets incluso en redes con un gran ancho de banda. Como solución, se propone un enfoque capaz de llevar a cabo un análisis ultrarrápido de la red (en ventanas temporales de un segundo), sin una pérdida significativa en el valor F1 en la detección de botnets. Se comparó el modelo con otras tres propuestas de la literatura, logrando el mejor rendimiento: un valor F1 de 0,926 con un tiempo de procesamiento de 0,007 ms por muestra. También se evaluó la robustez del modelo en redes saturadas y con grandes anchos de banda. En concreto, el modelo propuesto es capaz de funcionar en redes con una saturación del 10% de pérdida de paquetes, y los resultados sugieren que, usando núcleos CPU comerciales de 2,4 GHz, el modelo solo necesitaría cuatro núcleos para anchos de banda de 100 Mbps y 1 Gbps, y 19 núcleos en redes de 10 Gbps. Los trabajos tercero y cuarto cambian su enfoque hacia los bots sociales – cuentas falsas en las redes sociales –, que, dada promoción de contenidos fraudulentos e ideologías divisivas, son objeto de una creciente preocupación. El daño causado por los bots en las redes sociales va desde estafas a individuos, hasta afectar a toda la sociedad, ya que pueden ser utilizados para contaminar el debate público con noticias falsas, y por lo tanto también pueden influir en la esfera política. En el tercer trabajo, para la detección automática de bots en Twitter se aprovecha la estructura de grafo de la red social. En particular, se propone un nuevo enfoque basado en un pipeline para utilzar el modelo de red convolucional de grafos de Kipf y Welling, resolviendo sus limitaciones cuando se utiliza en grafos no conectados con los datos de entrenamiento. Se obtuvo un valor F1 de 0,784 en el conjunto de datos Cresci-rtbust utilizando una versión de la propuesta entrenada en siete conjuntos de datos completamente independientes, lo que supuso una mejora del 24% con respecto modelo de referencia. Además, se presenta un novedoso algoritmo basado en semillas para generar particiones del conjunto de datos y usarlos en validación cruzada, que minimiza la pérdida de enlaces entre nodos dentro de cada partición, a la vez quemantiene el balance en número de tipos de nodos. Los nuevos métodos de pipeline y validación cruzada pueden aplicarse a cualquier otro problema que implique datos estructurados en grafos. La tercera línea de investigación dio indicios de la facilidad con la que una cuenta falsa puede hacerse pasar por humana con metadatos convincentes como el nombre de usuario, la descripción de la cuenta, la ubicación y otra información publica y rellenable. También es fácil para los bots seguirse unos a otros imitando el comportamiento humano, lo que dificulta su detección. Por ello, en el cuarto trabajo se enfoca en construir un detector de bots de Twitter basado en la actividad de publicación de las cuentas. Para este propósito, se creó un novedoso conjunto de datos de usuarios de Twitter que incluye 17,945 muestras etiquetadas manualmente como bots o humanos. Además, este nuevo conjunto de datos incluye los metadatos públicos de los usuarios, sus relaciones quiénsigue- a-quién dentro del conjunto de datos – garantizando una conexión densa entre los usuarios –, y la actividad de publicación más reciente de los usuarios muestreados. Hasta donde sabemos, el nuevo conjunto de datos es el mayor en términos de completitud y de número de muestras. La propuesta de detector de bots sociales aprovecha BERTopic, un predictor de temas basado en BERT, para clasificar los tuits de los usuarios en 102 categorías. La información resultante se divide en ventanas de tiempo de 15 minutos para caracterizar la actividad de los usuarios y se utiliza para predecir si son bots o humanos mediante el clasificador propuesto: un ensamblado de siete redes neuronales basadas en LSTM. Este sistema obtuvo una precisión de 0,755 y un valor F1 de 0,777% en el nuevo conjunto de datos.

Materia

Ingeniería de sistemas

Palabras clave

URI

https://hdl.handle.net/10612/18580

DOI

10.18002/10612/18580

Aparece en las colecciones