Ir al contenido

Documat


Using Personality Recognition Techniques to Improve Bayesian Spam Filtering

  • Autores: Urko Zurutuza Ortega Árbol académico, José María Gómez Hidalgo Árbol académico, Enaitz Ezpeleta Gallastegui
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 57, 2016, págs. 125-132
  • Idioma: inglés
  • Títulos paralelos:
    • Uso de Técnicas de Reconocimiento de la Personalidad para Mejorar el Filtrado Bayesiano de Spam
  • Enlaces
  • Resumen
    • español

      Millones de usuarios se ven afectados por las campanas de envío de correos electrónicos no deseados al día. Durante los últimos años diferentes técnicas de detección de spam han sido desarrollados por investigadores, obteniendo especialmente buenos resultados con algoritmos de aprendizaje automático. En este trabajo presentamos una base para un nuevo método de filtrado de spam. Durante el estudio hemos validado la hipótesis de que las técnicas de reconocimiento de personalidad pueden ayudar a mejorar el filtrado Bayesiano de spam. Usando estas técnicas de filtrado, añadimos la característica de personalidad a cada correo, y después comparamos los resultados del filtrado Bayesiano de spam con y sin personalidad, analizando los resultados en términos de exactitud. En un segundo experimento, combinamos las características de personalidad y polaridad de cada mensaje, y comparamos los resultados. Al final, conseguimos mejorar los resultados del filtrado Bayesiano de spam, alcanzando el 99,24% de exactitud, y reduciendo el número de falsos positivos.

    • English

      Millions of users per day are affected by unsolicited email campaigns. During the last years several techniques to detect spam have been developed, achieving specially good results using machine learning algorithms. In this work we provide a baseline for a new spam filtering method. Carrying out this research we validate our hypothesis that personality recognition techniques can help in Bayesian spam filtering. We add the personality feature to each email using personality recognition techniques, and then we compare Bayesian spam filters with and without personality in terms of accuracy. In a second experiment we combine personality and polarity features of each message and we compare all the results. At the end, the top ten Bayesian filtering classifiers have been improved, reaching to a 99.24% of accuracy, reducing also the false positive number.

  • Referencias bibliográficas
    • Bai, S., T. Zhu, and L. Cheng. 2012. Bigfive personality prediction based on user behaviors at social network sites. CoRR, abs/1204.4809.
    • Briggs Myers, I. and P. B. Myers. 1980. Gifts differing: Understanding personality type.
    • Celli, F. and M. Poesio. 2014. Pr2: A language independent unsupervised tool for personality recognition from text. arXiv preprint arXiv:1402.2796.
    • Cormack, G. V. 2007. Email spam filtering: A systematic review. Foundations and Trends in Information Retrieval, 1(4):335–455.
    • Costa, P. T. and R. R. McCrae. 1992. Normal personality assessment in clinical practice: The neo personality inventory. Psychological assessment,...
    • Eberhardt, J. J. 2015. Bayesian spam detection. Scholarly Horizons: University of Minnesota, Morris Undergraduate Journal.
    • Echeverria Briones, P. F., Z. V. Altamirano Valarezo, A. B. Pinto Astudillo, and J. D. C. Sanchez Guerrero. 2009. Text mining aplicado a la...
    • Ezpeleta, E., U. Zurutuza, and J. M. Gómez Hidalgo. 2016a. Does sentiment analysis help in bayesian spam filtering? In Hybrid Artificial...
    • Ezpeleta, E., U. Zurutuza, and J. M. Gómez Hidalgo. 2016b. Short messages spam filtering using personality recognition. In Proceedings of...
    • Giyanani, R. and M. Desai. 2013. Spam detection using natural language processing. International Journal of Computer Science Research &...
    • Jensen, G. H. and J. K. DiTiberio. 1989. Personality and the Teaching of Composition, volume 20. Ablex Pub.
    • Lau, R. Y. K., S. Y. Liao, R. C.-W. Kwok, K. Xu, Y. Xia, and Y. Li. 2012. Text mining and probabilistic language modeling for online review...
    • Liddy, E. 2001. Natural language processing. Encyclopedia of Library and Information Science, 2nd Ed., NY. Marcel Decker, Inc.
    • Liu, B. and L. Zhang. 2012. A survey of opinion mining and sentiment analysis. Mining Text Data, pages 415–463.
    • Mairesse, F., M. A. Walker, M. R. Mehl, and R. K. Moore. 2007. Using linguistic cues for the automatic recognition of personality in conversation...
    • Malarvizhi, R. and K. Saraswathi. 2013. Content-based spam filtering and detection algorithms-an efficient analysis & comparison 1. International...
    • Nazirova, S. 2011. Survey on spam filtering techniques. Communications and Network, 3(3):153–160.
    • Oberlander, J. and S. Nowson. 2006. Whose thumb is it anyway?: Classifying author personality from weblog text. In Proceedings of the COLING/ACL...
    • Rangel, F., F. Celli, P. Rosso, M. Potthast, B. Stein, and W. Daelemans. 2015. Overview of the 3rd Author Profiling Task at PAN 2015. In Working...
    • Sanz, E. P., J. M. G. Hidalgo, and J. C. Cortizo. 2008. Email spam filtering. Advances in Computers, pages 45–114.
    • Savita Teli, S. B. 2014. Effective spam detection method for email. IOSR Journal of Computer Science, pages 68–72.
    • Shen, J., O. Brdiczka, and J. Liu. 2013. Understanding email writers: Personality prediction from email messages. In User Modeling, Adaptation,...
    • Tretyakov, K. 2004. Machine learning techniques in spam filtering. In Data Mining Problem-oriented Seminar, MTAT, volume 3, pages 60–79.
    • Vinciarelli, A. and G. Mohammadi. 2014. A survey of personality computing. Affective Computing, IEEE Transactions on, 5(3):273–291.

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno