Compartir
Título
Analysis and classification of spam email using artificial intelligence to identify cyberthreats
Autor
Director/es
Facultad/Centro
Área de conocimiento
Cita Bibliográfica
Jáñez Martino; F. (2023). Analysis and classification of spam email using artificial intelligence to identify cyberthreats. [Tesis doctoral, Universidad de León]
Fecha
2023-11-22
Resumen
[EN] In this Thesis, we propose new models, methodologies, approaches and datasets to
analyze and identify rising cybertreats in spam emails. Motivated by our collaboration
with the Spanish National Institute of Cybersecurity (INCIBE), we focus our efforts on
developing applications and conducting studies to improve the earlier detection of these
risky and harmful emails. Several of the contributions presented in this dissertation are
planned to be incorporated in tools developed by INCIBE to launch more detailed and
earlier warnings to organizations and citizens about potential risks associated with spam
emails. Our approach heavily relies on the application of Natural Language Processing,
as well as Machine and Deep Learning techniques, mainly centred around supervised
learning methods.
First, we aimed at employing text classification methods to classify spam emails related
to cybersecurity topic for the first time in the literature. Our supervised approaches
have lead us to building customand novel datasets for each contribution. In this case, we
created a dataset called SPam EMail Classification dataset (SPEMC), a novel dataset that
includes eleven classes of spam emails based on cybersecurity topics. SPEMC is composed
of two sub-datasets, i.e., SPEMC-E-15K and SPEMC-S-15K, which contain emails
written in English and Spanish, respectively. We used SPEMC to evaluate the combination
of four text representation techniques along with four Machine Learning models.
The combination of Term Frequency - Inverse Document Frequency (TF-IDF) with Logistic
Regression (LR) achieved the highest performance in the assessment done with the
emails in English, 0.953 ofMacro F1-score, while TF-IDF with Naïve Bayes (NB) achieved
0.945 in the Spanish dataset. In both languages, TF-IDF with LR was the fastest combination
with 2.0 ms and 2.2 ms per email, English and Spanish respectively.
Secondly, we aimed at understanding the role of persuasion in spam emails to combat
cybersecurity threats more effectively. We developed intelligent systems to detect
persuasion and used techniques through Natural Language Processing at three granularity
levels: full emails, sentences, and specific text spans (i.e., a group of one or more
words shorter than a sentence). We replicated the Proppy (Barrón-Cedeño et al., 2019)
classifier to spot persuasion in full emails and built our binary and multilabel models
on top of RoBERTa (Liu et al., 2019) for sentence and text spans classification (based on Chernyavskiy et al. (2020)). We created a novel dataset called Persuasion Sentence
in Spam Emails (PerSentSE) containing annotated sentences based on binary, i.e., persuasion
or not, and multilabel classification. For the multilabel approach, we considered
eight persuasion techniques: Appeal to authority, Appeal to fear/prejudice, Doubt, Exaggeration
or minimization, Flag-waving, Loaded Language, Name Calling or Labeling and
Repetition. We collected spam emails from the Bruce Guenter repository.
Lastly, our objective was to create an intelligent system capable of detecting potentially
risky spam emails for both individuals and organizations. We created Spam Email
Risk Classification (SERC-4K), a novel dataset encompassing spam emails classified in
two categories based on the potential risk for users due to their content, low and high
risk, as well as a continuous value from 1 to 10. The dataset is composed of two subdatasets,
onewith spam emails shared by INCIBE (SERC-I) and another collected fromthe
Bruce Guenter repository, Spam Archive (SERC-BG). SERC-I contains English and Spanish
emails, while in the case of SERC-BG almost all of them are written in English. Firstly,
our approach attempted to extract potentially worthy features from headers, text, attachments,
URLs and protocols (56 features in total). Then, the sets of features along with
three popularMachine Learning classifiers were evaluated resulting in Random Forest as
the highest classifier-performance (0.914 of F1-score). Regarding regression approach,
the Random Forest Regressor achieved the lowestMSE (0.579).
Our work also included a feature evaluation to determine the importance of each feature
and set. In the design of our methodologies, we have considered the influence of
the dataset shift, as well as the spam domain is and adversarial environment. Our email
processing sought to overcome some spammer strategies such as image-based spam and
hidden text. [ES] En esta Tesis, proponemos nuevos modelos, metodologías, enfoques y conjuntos de
datos para analizar e identificar las crecientes ciberamenazas en los correos electrónicos
no deseados, conocidos como correos spam. Motivados por nuestra colaboración con
el Instituto Nacional de Ciberseguridad (INCIBE), concentramos nuestros esfuerzos en
desarrollar aplicaciones y llevar a cabo estudios para mejorar la pronta detección de estos
peligrosos correos electrónicos. Varias contribuciones entre las presentadas en esta Tesis
están preparadas para una futura incorporación en las herramientadas desarrolladas por
INCIBE a la hora de lanzar avisos más detallados y rápidos a organizaciones y ciudadados
sobre el potencial riesgo de un correo spam. Nuestros enfoques se basan sobre todo en la
aplicación de técnicas del Procesamiento del Lenguaje Natural, así como de Aprendizaje
Automático y Profundo centrado principalmente en modelos de aprendizaje supervisado.
Primero, nuestro objetivo fue emplear métodos de clasificación de texto para clasificar
los correos spam de acuerdo a su temática de ciberseguridad por primera vez en
la literatura. Nuestros enfoques supervisados nos han dirigido a la creación de nuevos y
personalizados conjuntos de datos para cada contribución. En este caso, hemos creado
SPam EMail Classification dataset (SPEMC), un novedoso conjunto de datos que incluye
once clases de correo spam correspondientes a temas de ciberseguridad. SPEMC está
compuesto de dos subconjuntos, SPEMC-E-15K y SPEMC-S-15K, que contienen emails
escritos en inglés y en español, respectivamente. Usando SPEMC, evaluamos la combinación
de cuatro descriptores de texto junto con cuatro modelos de Aprendizaje Automático.
La combinación de TF-IDF y Regresión Logística alcanzó el mejor valor deMacro
F1-score (0.953). Por otro lado, la combinación de TF-IDF con Naïve Bayes logró 0.945 en
el conjunto de datos en español. En ambos idiomas, TF-IDF con Regresión Logística fue
la combinación más rápida con 2.0 y 2.2 ms por email, en inglés y en español, respectivamente.
Después, buscamos comprender el rol de la persuasión en los correos spam para luchar
contra las amenazas de cibersecuridad más eficientemente. Desarrollamos sistemas
inteligentes para detectar la persuasión y sus técnicas usadas mediante Procesamiento
del Lenguaje Natural en tres niveles de granularidad: correo completo, oraciones y fragmentos
específicos de texto (una o más palabras siempre menores a una oración). Replicamos el clasificador Proppy (Barrón-Cedeño et al., 2019) para detectar la persuasión en
el correo completo y construimos un modelo binario y otro multietiqueta basado en Ro-
BERTa (Liu et al., 2019) para la clasificación a nivel de oración y fragmento (basado específicamente
en Chernyavskiy et al. (2020)). Creamos un nuevo conjunto de datos llamado
Persuasive Sentences in Spam Emails (PerSentSE), que contiene oraciones etiquetadas
de manera binaria, es decir, si contiene persuasión o no, y multietiqueta. Para este último
enfoque, consideramos ocho técnicas de persuasión: Apelar a la Autoridad, Apelar
al miedo/prejuicio, Duda, Exageración o minimización, Patriotismo, Lenguaje Cargado,
Descalificación o Etiquetado y Repetición.
Por último, nuestro objetivo fue desarrollar un sistema inteligente capaz de detectar
los correos potencialmente peligrosos para los individuos y las organizaciones. Construimos
un novedoso conjunto de datos llamado Spam Email Risk Classification (SERC-4K)
que incluye correos spam divididos en dos clases basadas en un potencial riesgo para los
usuarios debido a su contenido, bajo o alto riesgo, así como una valoración del riesgo de 1
a 10. El corpus está compuesto de dos conjuntos, uno con correos spam compartidos por
INCIBE (SERC-I) y otro recolectado del repositorio público de Bruce Guenter, Spam Archive
(SERC-BG). SERC-I contiene correos tanto en inglés como en español,mientras que
en SERC-BG casi todos están escritos en inglés. Primero, nuestro enfoque busca extraer 56
características de las cabeceras, texto, adjuntos, URLs y protocolos de los correos spam.
Después, los conjuntos de características junto con tres populares modelos de Aprendizaje
Automático fueron evaluados, dando como resultado que Random Forest obtuvo el
F1-score más alto (0.914). En cuanto al enfoque de regresión, el estimador Random Forest
Regressor consiguió el MSE más bajo (0.579). Nuestro trabajo también incluye una
evaluación de las características para determinar la importancia de cada una individualmente
y de los grupos de características.
Nuestras metodologías consideran la influencia del cambio en el conjunto de datos
y el entorno contra un adversario (la persona que crea y envía correos spam, llamado
spammer) para sus diseños. Nuestro procesamiento del correo electrónico buscó superar
algunas estrategias creadas por spammers, por ejemplo correos con mensaje spam en las
imágenes o texto oculto.
Materia
Palabras clave
URI
DOI
Aparece en las colecciones
- Tesis [1353]
Ficheros en el ítem
Tamaño:
754.3
xmlui.dri2xhtml.METS-1.0.size-kilobytes
Formato:
Adobe PDF