Analysis and classification of spam email using artificial intelligence to identify cyberthreats

Jáñez Martino, Francisco

doi:10.18002/10612/18579

Título

Analysis and classification of spam email using artificial intelligence to identify cyberthreats

Autor

Jáñez Martino, Francisco

Director/es

González Castro, Víctor

Alaiz Rodríguez, Rocío

Facultad/Centro

Escuela de Ingenierias Industrial, Informática y Aeroespacial

Área de conocimiento

Ingenieria de Sistemas y Automatica

Cita Bibliográfica

Jáñez Martino; F. (2023). Analysis and classification of spam email using artificial intelligence to identify cyberthreats. [Tesis doctoral, Universidad de León]

Fecha

2023-11-22

Resumen

[EN] In this Thesis, we propose new models, methodologies, approaches and datasets to analyze and identify rising cybertreats in spam emails. Motivated by our collaboration with the Spanish National Institute of Cybersecurity (INCIBE), we focus our efforts on developing applications and conducting studies to improve the earlier detection of these risky and harmful emails. Several of the contributions presented in this dissertation are planned to be incorporated in tools developed by INCIBE to launch more detailed and earlier warnings to organizations and citizens about potential risks associated with spam emails. Our approach heavily relies on the application of Natural Language Processing, as well as Machine and Deep Learning techniques, mainly centred around supervised learning methods. First, we aimed at employing text classification methods to classify spam emails related to cybersecurity topic for the first time in the literature. Our supervised approaches have lead us to building customand novel datasets for each contribution. In this case, we created a dataset called SPam EMail Classification dataset (SPEMC), a novel dataset that includes eleven classes of spam emails based on cybersecurity topics. SPEMC is composed of two sub-datasets, i.e., SPEMC-E-15K and SPEMC-S-15K, which contain emails written in English and Spanish, respectively. We used SPEMC to evaluate the combination of four text representation techniques along with four Machine Learning models. The combination of Term Frequency - Inverse Document Frequency (TF-IDF) with Logistic Regression (LR) achieved the highest performance in the assessment done with the emails in English, 0.953 ofMacro F1-score, while TF-IDF with Naïve Bayes (NB) achieved 0.945 in the Spanish dataset. In both languages, TF-IDF with LR was the fastest combination with 2.0 ms and 2.2 ms per email, English and Spanish respectively. Secondly, we aimed at understanding the role of persuasion in spam emails to combat cybersecurity threats more effectively. We developed intelligent systems to detect persuasion and used techniques through Natural Language Processing at three granularity levels: full emails, sentences, and specific text spans (i.e., a group of one or more words shorter than a sentence). We replicated the Proppy (Barrón-Cedeño et al., 2019) classifier to spot persuasion in full emails and built our binary and multilabel models on top of RoBERTa (Liu et al., 2019) for sentence and text spans classification (based on Chernyavskiy et al. (2020)). We created a novel dataset called Persuasion Sentence in Spam Emails (PerSentSE) containing annotated sentences based on binary, i.e., persuasion or not, and multilabel classification. For the multilabel approach, we considered eight persuasion techniques: Appeal to authority, Appeal to fear/prejudice, Doubt, Exaggeration or minimization, Flag-waving, Loaded Language, Name Calling or Labeling and Repetition. We collected spam emails from the Bruce Guenter repository. Lastly, our objective was to create an intelligent system capable of detecting potentially risky spam emails for both individuals and organizations. We created Spam Email Risk Classification (SERC-4K), a novel dataset encompassing spam emails classified in two categories based on the potential risk for users due to their content, low and high risk, as well as a continuous value from 1 to 10. The dataset is composed of two subdatasets, onewith spam emails shared by INCIBE (SERC-I) and another collected fromthe Bruce Guenter repository, Spam Archive (SERC-BG). SERC-I contains English and Spanish emails, while in the case of SERC-BG almost all of them are written in English. Firstly, our approach attempted to extract potentially worthy features from headers, text, attachments, URLs and protocols (56 features in total). Then, the sets of features along with three popularMachine Learning classifiers were evaluated resulting in Random Forest as the highest classifier-performance (0.914 of F1-score). Regarding regression approach, the Random Forest Regressor achieved the lowestMSE (0.579). Our work also included a feature evaluation to determine the importance of each feature and set. In the design of our methodologies, we have considered the influence of the dataset shift, as well as the spam domain is and adversarial environment. Our email processing sought to overcome some spammer strategies such as image-based spam and hidden text.

[ES] En esta Tesis, proponemos nuevos modelos, metodologías, enfoques y conjuntos de datos para analizar e identificar las crecientes ciberamenazas en los correos electrónicos no deseados, conocidos como correos spam. Motivados por nuestra colaboración con el Instituto Nacional de Ciberseguridad (INCIBE), concentramos nuestros esfuerzos en desarrollar aplicaciones y llevar a cabo estudios para mejorar la pronta detección de estos peligrosos correos electrónicos. Varias contribuciones entre las presentadas en esta Tesis están preparadas para una futura incorporación en las herramientadas desarrolladas por INCIBE a la hora de lanzar avisos más detallados y rápidos a organizaciones y ciudadados sobre el potencial riesgo de un correo spam. Nuestros enfoques se basan sobre todo en la aplicación de técnicas del Procesamiento del Lenguaje Natural, así como de Aprendizaje Automático y Profundo centrado principalmente en modelos de aprendizaje supervisado. Primero, nuestro objetivo fue emplear métodos de clasificación de texto para clasificar los correos spam de acuerdo a su temática de ciberseguridad por primera vez en la literatura. Nuestros enfoques supervisados nos han dirigido a la creación de nuevos y personalizados conjuntos de datos para cada contribución. En este caso, hemos creado SPam EMail Classification dataset (SPEMC), un novedoso conjunto de datos que incluye once clases de correo spam correspondientes a temas de ciberseguridad. SPEMC está compuesto de dos subconjuntos, SPEMC-E-15K y SPEMC-S-15K, que contienen emails escritos en inglés y en español, respectivamente. Usando SPEMC, evaluamos la combinación de cuatro descriptores de texto junto con cuatro modelos de Aprendizaje Automático. La combinación de TF-IDF y Regresión Logística alcanzó el mejor valor deMacro F1-score (0.953). Por otro lado, la combinación de TF-IDF con Naïve Bayes logró 0.945 en el conjunto de datos en español. En ambos idiomas, TF-IDF con Regresión Logística fue la combinación más rápida con 2.0 y 2.2 ms por email, en inglés y en español, respectivamente. Después, buscamos comprender el rol de la persuasión en los correos spam para luchar contra las amenazas de cibersecuridad más eficientemente. Desarrollamos sistemas inteligentes para detectar la persuasión y sus técnicas usadas mediante Procesamiento del Lenguaje Natural en tres niveles de granularidad: correo completo, oraciones y fragmentos específicos de texto (una o más palabras siempre menores a una oración). Replicamos el clasificador Proppy (Barrón-Cedeño et al., 2019) para detectar la persuasión en el correo completo y construimos un modelo binario y otro multietiqueta basado en Ro- BERTa (Liu et al., 2019) para la clasificación a nivel de oración y fragmento (basado específicamente en Chernyavskiy et al. (2020)). Creamos un nuevo conjunto de datos llamado Persuasive Sentences in Spam Emails (PerSentSE), que contiene oraciones etiquetadas de manera binaria, es decir, si contiene persuasión o no, y multietiqueta. Para este último enfoque, consideramos ocho técnicas de persuasión: Apelar a la Autoridad, Apelar al miedo/prejuicio, Duda, Exageración o minimización, Patriotismo, Lenguaje Cargado, Descalificación o Etiquetado y Repetición. Por último, nuestro objetivo fue desarrollar un sistema inteligente capaz de detectar los correos potencialmente peligrosos para los individuos y las organizaciones. Construimos un novedoso conjunto de datos llamado Spam Email Risk Classification (SERC-4K) que incluye correos spam divididos en dos clases basadas en un potencial riesgo para los usuarios debido a su contenido, bajo o alto riesgo, así como una valoración del riesgo de 1 a 10. El corpus está compuesto de dos conjuntos, uno con correos spam compartidos por INCIBE (SERC-I) y otro recolectado del repositorio público de Bruce Guenter, Spam Archive (SERC-BG). SERC-I contiene correos tanto en inglés como en español,mientras que en SERC-BG casi todos están escritos en inglés. Primero, nuestro enfoque busca extraer 56 características de las cabeceras, texto, adjuntos, URLs y protocolos de los correos spam. Después, los conjuntos de características junto con tres populares modelos de Aprendizaje Automático fueron evaluados, dando como resultado que Random Forest obtuvo el F1-score más alto (0.914). En cuanto al enfoque de regresión, el estimador Random Forest Regressor consiguió el MSE más bajo (0.579). Nuestro trabajo también incluye una evaluación de las características para determinar la importancia de cada una individualmente y de los grupos de características. Nuestras metodologías consideran la influencia del cambio en el conjunto de datos y el entorno contra un adversario (la persona que crea y envía correos spam, llamado spammer) para sus diseños. Nuestro procesamiento del correo electrónico buscó superar algunas estrategias creadas por spammers, por ejemplo correos con mensaje spam en las imágenes o texto oculto.

Materia

Ingeniería de sistemas

Palabras clave