Ir al contenido

Documat


Anticipando el Debate: Prediciendo la Controversia en Noticias con PLN basado en Transformers

  • Autores: Asier Gutiérrez Fandiño, Marta Villegas Montserrat Árbol académico, Blanca Calvo Figueras
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 70, 2023, págs. 123-133
  • Idioma: español
  • Títulos paralelos:
    • Anticipating the Debate: Predicting Controversy in News with Transformer-based NLP
  • Enlaces
  • Resumen
    • español

      La controversia es un fenómeno social que ocurre cuando un tema genera desacuerdo entre los ciudadanos. En la esfera pública, la controversia se encuentra a menudo relacionada con las noticias de actualidad. Mientras que trabajos anteriores investigaron la detección de la controversia, en este trabajo nos proponemos predecirla basándonos en el título y el contenido de una noticia. En primer lugar, recogemos y curamos un conjunto de datos de un agregador de noticias en castellano que etiqueta las noticias según su controversia mediante las interacciones de la comunidad. Entonces, experimentamos con las capacidades de los modelos de lenguaje para aprender la categoría de controversia mediante el fine-tuneado de modelos que tienen el título y el contenido como contenido de entrada, y también con solo el título. Para lidiar con el desbalanceo de los datos, realizamos experimentos de sampleado de los datos. El mejor modelo obtiene una micro-F1 de 84.72, entrenado con un conjunto de datos desbalanceado y con el título y el contenido como entrada. Los resultados preliminares muestran que esta tarea puede ser aprendida mediante características lingüísticas y sociales.

    • English

      Controversy is a social phenomenon that emerges when a topic generates large disagreement among people. In the public sphere, controversy is very often related to news. Whereas previous approaches have addressed controversy detection, in this work, we propose to predict controversy based on the title and content of a news post. First, we collect and prepare a dataset from a Spanish news aggregator that labels the news’ controversy in a community-based manner. Next, we experiment with the capabilities of language models to learn these labels by fine-tuning models that take both title and content, and the title alone. To cope with data unbalance, we undergo different experiments by sampling the dataset. The best model obtains an 84.72 micro-F1, trained with an unbalanced dataset and given the title and content as input. The preliminary results show that this task can be learned by relying on linguistic and social features.

  • Referencias bibliográficas
    • Bykau, S., F. Korn, D. Srivastava, and Y. Velegrakis. 2015. Fine-grained controversy detection in Wikipedia. In 2015 IEEE 31st International...
    • Cañete, J., G. Chaperon, R. Fuentes, J.-H. Ho, H. Kang, and J. Pérez. 2020. Spanish pre-trained bert model and evaluation data. In PML4DC...
    • Coletto, M., K. Garimella, A. Gionis, and C. Lucchese. 2017. Automatic controversy detection in social media: A contentindependent motif-based...
    • Devlin, J., M.-W. Chang, K. Lee, and K. Toutanova. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding....
    • Dori-Hacohen, S. 2015. Controversy Detection and Stance Analysis. In Proceedings of the 38th International ACM SIGIR Conference on Research...
    • Dori-Hacohen, S., D. Jensen, and J. Allan. 2016. Controversy Detection in Wikipedia Using Collective Classification. In Proceedings of the...
    • Dori-Hacohen, S., E. Yom-Tov, and J. Allan. 2015. Navigating Controversy as a Complex Search Task. page 5.
    • Gutiérrez-Fandiño, A., J. Armengol-Estapé, M. Pàmies, J. Llop-Palao, J. Silveira- Ocampo, C. P. Carrino, C. Armentano- Oller, C. Rodriguez-Penagos,...
    • Hessel, J. and L. Lee. 2019. Something’s Brewing! Early Prediction of Controversycausing Posts from Discussion Features. In Proceedings of...
    • Jang, M., J. Foley, S. Dori-Hacohen, and J. Allan. 2016. Probabilistic Approaches to Controversy Detection. In Proceedings of the 25th ACM...
    • Kim, Y. a. 2019. Unsupervised Explainable Controversy Detection from Online News. Proceedings of the European Conference on Information Retrieval.
    • Kingma, D. P. and J. Ba. 2015. Adam: A method for stochastic optimization. In Y. Bengio and Y. LeCun, editors, 3rd International Conference...
    • Kshetri, N. and J. Voas. 2017. The Economics of “Fake News”. IT Professional, 19:8–12, November.
    • Lundberg, S. M. and S.-I. Lee. 2017. A unified approach to interpreting model predictions. In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach,...
    • Paz, M. A., A. Mayagoitia-Soria, and J.- M. González-Aguilar. 2021. From Polarization to Hate: Portrait of the Spanish Political Meme. Social...
    • Popescu, A.-M. and M. Pennacchiotti. 2010. Detecting controversial events from twitter. In Proceedings of the 19th ACM international conference...
    • Rethmeier, N., M. Hübner, and L. Hennig. 2018. Learning Comment Controversy Prediction in Web Discussions Using Incidentally Supervised Multi-Task...
    • Shu, K., L. Cui, S. Wang, D. Lee, and H. Liu. 2019. dEFEND: Explainable Fake News Detection. In Proceedings of the 25th ACM SIGKDD International...
    • Sriteja, A., P. Pandey, and V. Pudi. 2017. Controversy Detection Using Reactions on Social Media. In 2017 IEEE International Conference on...
    • Zhong, L., J. Cao, Q. Sheng, J. Guo, and Z. Wang. 2020. Integrating semantic and structural information with graph convolutional network for...

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno