Ir al contenido

Documat


Resumen de Automatic classification of sexism in social networks

Francisco Rodríguez Sánchez

  • español

    El rápido crecimiento en el uso de las redes sociales ha facilitado la comunicación anónima entre individuos de diversas procedencias. Aunque los efectos positivos de esta comunicación global son innegables, el papel de las mujeres en los espacios de Internet ha ganado atención debido a un preocupante aumento del discurso de odio y actitudes sexistas dirigidas hacia ellas. La exposición a este lenguaje sexista es extremadamente perjudicial, afectando tanto a las mujeres como a la sociedad en su conjunto. Las empresas y medios online revisan continuamente sus políticas para incluir tipos adicionales de comportamientos abusivos y crean nuevas formas de erradicar este tipo de contenido de sus plataformas. A pesar de estos esfuerzos y del despliegue de cuantiosos recursos, enfrentan numerosos desafíos para gestionar la ingente cantidad de datos generados por los usuarios. El procesamiento del lenguaje natural (PLN) es una herramienta esencial para combatir este problema, y la detección y el análisis del lenguaje sexista se han convertido en una importante área de investigación dentro de este campo.

    Este tesis presenta un enfoque integral para la detección automática del sexismo, centrándose en el desarrollo de un dataset robusto y una serie de modelos computacionales para su detección y categorización. Además, se propone una nueva categorización del sexismo adaptada a los entornos online y se desarrolla en conjunto de datos EXIST, un dataset anotado que clasifica el sexismo online en varios subtipos, incluyendo formas implícitas y explícitas de sexismo. Para promover la investigación en esta área, se han organizdo como parte fundamental de esta tesis las competencias EXIST 2021 y 2022, tareas que reunieron a investigadores y profesionales para desarrollar y evaluar sus sistemas para la detección y categorización de sexismo utiliznado el conjunto de datos EXIST. Asimismo, se realiza un estudio exhaustivo de los resultados de las competiciones, incluyendo un análisis de la dificultad para detectar distintos tipos de sexismo y el impacto de los aspectos específicos del lenguaje en la categorización del sexismo.

    Además, se desarrolla un sistema de clasificación novedoso que aprovecha datos no etiquetados a través de técnicas de adaptación de tareas no supervisadas y aprendizaje semisupervisado, empleando un modelo único capaz de gestionar varios idiomas. También se integra una capa de Sentence-BERT para mejorar el sistema de detección con representaciones semánticamente significativas de oraciones, logrando mejorar los resultados en todas las tareas y competiciones de EXIST. Finalmente, se reúnen las contribuciones de este trabajo y se sugieren direcciones futuras de investigación en el área del estudio del lenguaje sexista y su detección.

  • English

    The rapid growth of social networks has facilitated anonymous communication among individuals from diverse backgrounds. While the positive e;ects of this global communication are undeniable, the role of women within online spaces has unfortunately gained attention due to a concerning rise in hate speech and sexist attitudes directed towards them. Exposure to this sexist language is extremely harmful, impacting both women and society as a whole. Companies are continuously reviewing their policies to include additional types of abusive behavior and are creating new ways to eradicate hateful content from their platforms. Despite significant e;orts and the deployment of many human resources, they face challenges managing the vast amount of data generated by users. Natural language processing (NLP) is an essential tool for combating this issue, and the detection and analysis of sexist language have become major areas in this field.

    This thesis presents a comprehensive approach to automatic sexism detection, focusing on the development of a robust dataset and a series of computational models for sexism detection and categorization. We propose a new sexism categorization adapted to online environments and develop the EXIST dataset, a novel, annotated dataset that categorizes online sexism into various subtypes, including implicit and explicit forms. To promote research in this area, we organized the EXIST 2021 and 2022 challenges, competitions that brought together researchers and practitioners to develop and evaluate their approaches to sexism detection using the EXIST dataset. We provide an in-depth analysis of the results, including an examination of the di;iculty of detecting sexism across di;erent categories and the impact of language-specific aspects on sexism categorization.

    Furthermore, we develop a novel classification system that employs in-domain unlabeled data through unsupervised task-adaptation techniques and semisupervised learning, employing an e;icient single multilingual transformer model.

    We also integrate a Sentence-BERT layer to enhance our system with semantically meaningful sentence embeddings, achieving state-of-the-art results in all EXIST tasks and competitions. Finally, we summarize our contributions and suggest future research directions in the area of online sexism research.


Fundación Dialnet

Mi Documat