Spanish hate-speech detection in football

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/137094
Información del item - Informació de l'item - Item information
Título: Spanish hate-speech detection in football
Título alternativo: Detección de odio en futbol en español
Autor/es: Montesinos-Cánovas, Esteban | García-Sánchez, Francisco | García-Díaz, José Antonio | Alcaraz Mármol, Gema | Valencia García, Rafael
Palabras clave: Hate speech detection | Large Language Models | Linguistic features | Interpretability | Discurso de odio | Modelos del lenguaje | Características lingüísticas | Interpretabilidad
Fecha de publicación: sep-2023
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2023, 71: 15-27. https://doi.org/10.26342/2023-71-1
Resumen: In the last few years, Natural Language Processing (NLP) tools have been successfully applied to a number of different tasks, including author profiling, negation detection or hate speech detection, to name but a few. For the identification of hate speech from text, pre-trained language models can be leveraged to build high-performing classifiers using a transfer learning approach. In this work, we train and evaluate state-of-the-art pre-trained classifiers based on Transformers. The explored models are fine-tuned using a hate speech corpus in Spanish that has been compiled as part of this research. The corpus contains a total of 7,483 football-related tweets that have been manually annotated under four categories: aggressive, racist, misogynist, and safe. A multi-label approach is used, allowing the same tweet to be labeled with more than one class. The best results, with a macro F1-score of 88.713%, have been obtained by a combination of the models using Knowledge Integration. | En los últimos años, el Procesamiento del Lenguaje Natural (PLN) se ha aplicado con éxito a diversas tareas, como la elaboración de perfiles de autor, la detección de negaciones o la detección de discursos de odio. Para la identificación de odio a partir de texto, es posible explotar modelos del lenguaje preentrenados que permitan construir clasificadores de alto rendimiento utilizando un enfoque de aprendizaje por transferencia (en inglés, transfer learning). En este trabajo, se presentan los resultados de entrenar y evaluar clasificadores preentrenados de última generación basados en Transformers. Los modelos explorados se ajustan (en inglés, fine tune) utilizando un corpus en español sobre el discurso de odio en el futbol que se ha compilado como parte de esta investigación. El corpus contiene un total de 7.483 tuits relacionados con el futbol que han sido anotados manualmente bajo cuatro categorías: agresivo, racista, misógino y seguro. Se utilizó un enfoque multietiqueta, que permite etiquetar el mismo tuit con más de una clase. Los mejores resultados, con un macro F1-score del 88,713%, se han obtenido mediante una combinación de los modelos utilizando la estrategia de Knowledge Integration.
Patrocinador/es: This work is part of the research projects AIInFunds (PDC2021-121112-I00) and LT-SWM (TED2021-131167B-I00) funded by MCIN/AEI/10.13039/501100011033 and by the European Union NextGenerationEU/PRTR. This work is also part of the research project LaTe4PSP (PID2019-107652RB-I00/AEI/10.13039/501100011033) funded by MCIN/AEI/10.13039/501100011033.
URI: http://hdl.handle.net/10045/137094
ISSN: 1135-5948
DOI: 10.26342/2023-71-1
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisión científica: si
Versión del editor: https://doi.org/10.26342/2023-71-1
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 71 (2023)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_71_01.pdf1,22 MBAdobe PDFAbrir Vista previa


Este ítem está licenciado bajo Licencia Creative Commons Creative Commons