Compartir
Título
Botnet activity spotting with artificial intelligence: efficient bot malware detection and social bot identification
Autor
Director/es
Facultad/Centro
Área de conocimiento
Cita Bibliográfica
Velasco Mata, J. (2023). Botnet activity spotting with artificial intelligence: efficient bot malware detection and social bot identification. [Tesis doctoral, Universidad de León]
Fecha
2023-11-30
Resumen
[EN] In the cybercrime scope, botnets are networks of bots, automated entities that follow
instructions from a cybercriminal. The capacity of these networks to operate en masse
has made them one of the most popular tools to carry out malicious activities, fromspam
distribution to distributed denial-of-service (DDoS) attacks. This has made botnets one
of the online threats with the most significant presence, causing billionaire losses to the
global economy. The motivation of this PhD Thesis is to research and propose bot detection
techniques. Specifically, it is focused on two types of bots: malware bots, i.e.,
virus programs that can be installed in the victims’ devices without their notice; and social
bots, i.e., fake accounts in Social Networks that try to masquerade as real humans to
deceive regular users.
The first work is dedicated to the detection of network traffic produced by malware
bots. In particular, we aim to improve the performance of botnet traffic classification usingMachine
Learning by selecting those features that further increase the detection rate.
For this purpose, we employ two feature selection techniques, namely Information Gain
and Gini Importance, which led to three candidate subsets of five, six and seven features.
Then, we evaluate the three feature subsets with three models (Decision Tree, Random
Forest and k-Nearest Neighbors). To test their performance, we generate two datasets
based on the CTU-13 dataset, namely QB-CTU13 and EQB-CTU13. Finally, we measure
the performance as the macro averaged F1 score over the computational time required to
classify a sample. The results show that the highest performance is achieved by Decision
Trees using a five-feature set, which obtained a mean F1 score of 0.850, classifying each
sample in an average time of 0.78 microseconds.
Nowadays, there are networkswith large bandwidthswhere vast amounts of traffic are
generated every second, and it is hard to analyze all that information looking for threats,
especially before large damage is done. Hence, the second work focuses on real-time detection
of botnet traffic, even on high bandwidth networks. As a solution, we propose an
approach capable of carrying out an ultra-fast network analysis (i.e. on time windows of
one second), without a significant loss in the F1-score on botnet detection. We compared
our model with other three literature proposals and it achieved the best performance: an
F1 score of 0.926 with a processing time of 0.007 ms per sample. We also assessed the robustness of our model on saturated networks and on large bandwidths. In particular, our
model is capable of working on networks with 10% of packet loss, and our results suggest
that using commercial-grade cores of 2.4 GHz, our approach would only need four cores
for bandwidths of 100 Mbps and 1 Gbps, and 19 cores on 10 Gbps networks.
The third and fourth works shift their focus towards social bots – fake accounts in SocialNetworks
– which are a growing concern due to their promotion of fraudulent content
and divisive ideologies. The damage caused by social media bots ranges from individual
scams to affecting the whole society, as they may be used to contaminate the public debate
with fake news, and thus can also influence the political sphere.
In the third work, we exploit the graph structure of Twitter to detect bots automatically.
Specifically, we propose a novel pipeline approach, based on Kipf and Welling’s
Graph Convolutional Network model, which solves its limitations when used in graphs
that are independent of the training data. We obtained an F1 score of 0.784 on the Crescirtbust
dataset using a version of our proposal trained on seven completely independent
datasets, a score 24% higher than the baseline. Furthermore, we present a novel seedbased
cross-validation to generate class-balanced folds thatminimize the intra-fold graph’s
edge loss. The new pipeline and cross-validation methods could be applied to any other
problem that involves graph data.
We have realized that it is easy for a fake account to pose as a human with convincing
metadata such as the user name, the account description, the location, and other public
and editable information. It is also possible for bots to follow each other imitating
the structure of real communities. Therefore, in the fourth work, we focus on building a
Twitter bot detector based on the accounts’ publication activity. For this purpose, we created
a novel dataset of Twitter users that includes 17,945 manually labeled samples into
bots or humans. Moreover, our dataset includes the users’ public metadata, their whofollow-
who relationships within the dataset while ensuring a dense connection between
the users, and their most recent publication activity. To the best of our knowledge, our
dataset is the largest in terms of completeness and manually labeled Twitter users into
bots and humans. Our social bot detector proposal leverages BERTopic, a BERT-based
topic predictor, to classify the tweets of the users into 102 categories. The resulting information
is time-windowed at 15-minute intervals to characterize the users’ activity and
used to predict them into bots or humans using our proposed classifier, an ensemble of
seven LSTM-based models. Our system reported an accuracy of 0.755 and an F1 of 0.777
on our new dataset. [ES] En el ámbito de la ciberdelincuencia, las botnets son redes de bots, autómatas que
siguen las instrucciones de un ciberdelincuente. La capacidad de estas redes para operar
en masa las han convertido en una de las herramientas más populares para llevar a cabo
actividadesmaliciosas, desde la distribución de spam hasta ataques de denegación de
servicio distribuido (DDoS, por su nombre en inglés). Esto ha hecho de las botnets una
de las amenazas con mayor presencia en Internet, causando pérdidas multimillonarias a
la economía mundial. La motivación de esta Tesis Doctoral es investigar y proponer técnicas
de detección de bots. En concreto, esta Tesis se centra en dos tipos de bots: los bots
malware, como virus informáticos que pueden instalarse en los dispositivos de las víctimas
sin que éstas sean conscientes de ello; y los bots sociales, entendidos como cuentas
falsas en redes sociales que intentan hacerse pasar por humanos reales para engañar a los
usuarios normales.
El primer trabajo de investigación está dedicado a la detección del tráfico de red producido
por bots. En particular, se pretende mejorar el rendimiento de la clasificación del
tráfico de botnets mediante aprendizaje automático seleccionando aquellas características
que mejoren la tasa de detección. Para ello, se emplearon dos técnicas de selección
de características, la Ganancia de Información y la Importancia de Gini, cuyo uso condujo
a tres subconjuntos candidatos de cinco, seis y siete características. A continuación,
se evaluaron estos tres subconjuntos de características y tres modelos de clasificación
(Árbol de Decisión, Bosque Aleatorio y k-Vecinos más Cercanos). Para comparar su rendimiento,
se generaron dos conjuntos de datos basados en el conjunto de datos CTU-13,
y que se llamaron QB-CTU13 y EQB-CTU13. Por último, se midió el rendimiento como la
relación entre el macropromedio del valor F1 sobre el tiempo computacional medio necesario
para clasificar una muestra. Los resultados muestran que el mayor rendimiento
fue obtenido por un Árbol deDecisión utilizando el conjunto de cinco características, que
consiguió un valor F1 medio de 0,850 clasificando cada muestra en un tiempo medio de
0,78 microsegundos.
Hoy en día existen redes de gran ancho de banda donde se generan grandes cantidades
de tráfico por segundo, y es difícil analizar toda esa información en busca de amenazas,
especialmente antes de que produzcan un gran daño. Por ello, el segundo trabajo se enfoca en la detección en tiempo real del tráfico de botnets incluso en redes con un
gran ancho de banda. Como solución, se propone un enfoque capaz de llevar a cabo un
análisis ultrarrápido de la red (en ventanas temporales de un segundo), sin una pérdida
significativa en el valor F1 en la detección de botnets. Se comparó el modelo con otras
tres propuestas de la literatura, logrando el mejor rendimiento: un valor F1 de 0,926 con
un tiempo de procesamiento de 0,007 ms por muestra. También se evaluó la robustez
del modelo en redes saturadas y con grandes anchos de banda. En concreto, el modelo
propuesto es capaz de funcionar en redes con una saturación del 10% de pérdida de
paquetes, y los resultados sugieren que, usando núcleos CPU comerciales de 2,4 GHz, el
modelo solo necesitaría cuatro núcleos para anchos de banda de 100 Mbps y 1 Gbps, y 19
núcleos en redes de 10 Gbps.
Los trabajos tercero y cuarto cambian su enfoque hacia los bots sociales – cuentas falsas
en las redes sociales –, que, dada promoción de contenidos fraudulentos e ideologías
divisivas, son objeto de una creciente preocupación. El daño causado por los bots en las
redes sociales va desde estafas a individuos, hasta afectar a toda la sociedad, ya que pueden
ser utilizados para contaminar el debate público con noticias falsas, y por lo tanto
también pueden influir en la esfera política.
En el tercer trabajo, para la detección automática de bots en Twitter se aprovecha la
estructura de grafo de la red social. En particular, se propone un nuevo enfoque basado
en un pipeline para utilzar el modelo de red convolucional de grafos de Kipf y Welling,
resolviendo sus limitaciones cuando se utiliza en grafos no conectados con los datos de
entrenamiento. Se obtuvo un valor F1 de 0,784 en el conjunto de datos Cresci-rtbust utilizando
una versión de la propuesta entrenada en siete conjuntos de datos completamente
independientes, lo que supuso una mejora del 24% con respecto modelo de referencia.
Además, se presenta un novedoso algoritmo basado en semillas para generar particiones
del conjunto de datos y usarlos en validación cruzada, que minimiza la pérdida de enlaces
entre nodos dentro de cada partición, a la vez quemantiene el balance en número de
tipos de nodos. Los nuevos métodos de pipeline y validación cruzada pueden aplicarse a
cualquier otro problema que implique datos estructurados en grafos.
La tercera línea de investigación dio indicios de la facilidad con la que una cuenta
falsa puede hacerse pasar por humana con metadatos convincentes como el nombre de
usuario, la descripción de la cuenta, la ubicación y otra información publica y rellenable.
También es fácil para los bots seguirse unos a otros imitando el comportamiento humano,
lo que dificulta su detección. Por ello, en el cuarto trabajo se enfoca en construir
un detector de bots de Twitter basado en la actividad de publicación de las cuentas. Para
este propósito, se creó un novedoso conjunto de datos de usuarios de Twitter que incluye
17,945 muestras etiquetadas manualmente como bots o humanos. Además, este nuevo
conjunto de datos incluye los metadatos públicos de los usuarios, sus relaciones quiénsigue-
a-quién dentro del conjunto de datos – garantizando una conexión densa entre los
usuarios –, y la actividad de publicación más reciente de los usuarios muestreados. Hasta
donde sabemos, el nuevo conjunto de datos es el mayor en términos de completitud y
de número de muestras. La propuesta de detector de bots sociales aprovecha BERTopic,
un predictor de temas basado en BERT, para clasificar los tuits de los usuarios en 102 categorías.
La información resultante se divide en ventanas de tiempo de 15 minutos para
caracterizar la actividad de los usuarios y se utiliza para predecir si son bots o humanos
mediante el clasificador propuesto: un ensamblado de siete redes neuronales basadas en
LSTM. Este sistema obtuvo una precisión de 0,755 y un valor F1 de 0,777% en el nuevo
conjunto de datos.
Materia
Palabras clave
URI
DOI
Aparece en las colecciones
- Tesis [1353]
Ficheros en el ítem
Tamaño:
1.110
xmlui.dri2xhtml.METS-1.0.size-megabytes
Formato:
Adobe PDF