Using Personality Recognition Techniques to Improve Bayesian Spam Filtering

Ezpeleta, Enaitz; Zurutuza, Urko; Gómez Hidalgo, José María

Using Personality Recognition Techniques to Improve Bayesian Spam Filtering

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/57760

Información del item - Informació de l'item - Item information
Título:	Using Personality Recognition Techniques to Improve Bayesian Spam Filtering
Título alternativo:	Uso de Técnicas de Reconocimiento de la Personalidad para Mejorar el Filtrado Bayesiano de Spam
Autor/es:	Ezpeleta, Enaitz \| Zurutuza, Urko \| Gómez Hidalgo, José María
Palabras clave:	Spam \| Personality \| Polarity \| NLP \| Security \| Personalidad \| Polaridad \| PLN \| Seguridad
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	sep-2016
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2016, 57: 125-132
Resumen:	Millions of users per day are affected by unsolicited email campaigns. During the last years several techniques to detect spam have been developed, achieving specially good results using machine learning algorithms. In this work we provide a baseline for a new spam filtering method. Carrying out this research we validate our hypothesis that personality recognition techniques can help in Bayesian spam filtering. We add the personality feature to each email using personality recognition techniques, and then we compare Bayesian spam filters with and without personality in terms of accuracy. In a second experiment we combine personality and polarity features of each message and we compare all the results. At the end, the top ten Bayesian filtering classifiers have been improved, reaching to a 99.24% of accuracy, reducing also the false positive number. \| Millones de usuarios se ven afectados por las campanas de envío de correos electrónicos no deseados al día. Durante los últimos años diferentes técnicas de detección de spam han sido desarrollados por investigadores, obteniendo especialmente buenos resultados con algoritmos de aprendizaje automático. En este trabajo presentamos una base para un nuevo método de filtrado de spam. Durante el estudio hemos validado la hipótesis de que las técnicas de reconocimiento de personalidad pueden ayudar a mejorar el filtrado Bayesiano de spam. Usando estas técnicas de filtrado, añadimos la característica de personalidad a cada correo, y después comparamos los resultados del filtrado Bayesiano de spam con y sin personalidad, analizando los resultados en términos de exactitud. En un segundo experimento, combinamos las características de personalidad y polaridad de cada mensaje, y comparamos los resultados. Al final, conseguimos mejorar los resultados del filtrado Bayesiano de spam, alcanzando el 99,24% de exactitud, y reduciendo el número de falsos positivos.
Patrocinador/es:	This work has been partially funded by the Basque Department of Education, Language policy and Culture under the project SocialSPAM (PI_2014_1_102).
URI:	http://hdl.handle.net/10045/57760
ISSN:	1135-5948
Idioma:	eng
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica:	si
Versión del editor:	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 57 (2016)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_57_14.pdf		275,54 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo