Interpretable and Effortless Techniques for Social Network Analysis

Manuel Francisco Aparicio

Ayuda

Interpretable and Effortless Techniques for Social Network Analysis

Autores: Manuel Francisco Aparicio
Directores de la Tesis: Juan Luis Castro Peña (dir. tes.)
Lectura: En la Universidad de Granada ( España ) en 2022
Idioma: inglés
ISBN: 9788411176286
Número de páginas: 281
Tribunal Calificador de la Tesis: José Jesús Castro Sánchez (presid.) , Encarnación Hidalgo Tenorio (secret.) , Cristophe Marsala (voc.)
Enlaces
- Tesis en acceso abierto en: DIGIBUG
Resumen
- español
  Las redes sociales son el medio de comunicación más importante hoy en día. Han cambiado la manera que tenemos de interactuar con nuestra familia y amigos, e incluso la manera que tienen las empresas de realizar estudios de mercado, tomar decisiones de negocio o dirigirse a sus clientes. La cantidad de datos que están siendo generados cada día puede considerarse ilimitada, y puede usarse para realizar estudios sociales o para entrenar modelos de aprendizaje computacional (ML). Sin embargo, existen dificultades con las que lidiar. La información recogida de redes sociales es mayormente desestructurada y escrita en lenguaje natural, y puede presentar faltas de ortografía, contracciones, emojis, y unidades semánticas nuevas, que pueden resultar una carga para los algoritmos de aprendizaje. Una buena base de datos y varios pasos de preprocesamiento se vuelven requisitos indispensables para casi cualquier aplicación de ML en redes sociales. Por desgracia, existen costes nada despreciables para producir dichas bases de datos (esfuerzo humano), y constituye una de las mayores desventajas para empresas de bajo y medio presupuesto. Además, muchas de estas aplicaciones pueden tener repercusiones sociales, por lo que necesitan ser auditadas. Ambos objetivos caen dentro del ámbito de un proyecto multidisciplinar llamado ª Nutcracker, cuyo objetivo es detectar, rastrear, monitorizar y analizar el discurso radical en Internet. Esta tesis es parte del proyecto, y en ella proponemos diferentes mecanismos interpretables y de esfuerzo reducido para abordar las desventajas existentes, utilizando en nuestro beneficio las propias mecánicas de las redes sociales. Primeramente, presentamos un mecanismo deductivo de razonamiento basado en similitud entre usuarios, que permiten inferir propiedades de usuarios desconocidos y, por consiguiente, reducir el esfuerzo necesario para producir la base de datos. Posteriormente, presentamos un nuevo tipo de característica cuya finalidad es reducir la complejidad de los modelos una vez entrenados, consiguiendo así una mayor comprensibilidad y transparencia. Finalmente, estudiamos las peculiaridades del análisis agregado y, en especial, cómo de buenos son lo métodos actuales estimando la prevalencia de las clases en muestras de datos de redes sociales. Nuestros resultados muestran que somos capaces de construir grandes bases de datos de Twitter con una fracción del esfuerzo normal; que podemos entrenar modelos interpretables tan precisos como siempre pero reduciendo su complejidad en un orden de magnitud; y que la cuantificación es una disciplina con mucho que ofrecer al análisis de redes sociales, ya que es capaz de ajustar el sesgo de clasificación. Hemos desarrollado una herramienta como prueba de concepto que es capaz de reducir el esfuerzo de etiquetado de datasets y de la monitorización continua de usuarios relevantes, y la hemos puesto a prueba mediante la producción de cuatro bases de datos. Las técnicas, metodologías y herramientas propuestas han demostrado ser efectivas en diferentes ámbitos, como las ciencias políticas, la lingüística y la ciberseguridad. Están siendo usadas por expertos de nuestro proyecto y han llamado la atención de la Guardia Civil por su potencial. Las aplicaciones incluyen la producción de bases de datos supervisadas (por ejemplo, para análisis de redes sociales, estudios de mercado, atención al cliente, caracterización de perfiles de usuarios...); la aplicación de algoritmos de toma de decisiones completamente interpretables (por ejemplo, para el cierre preventivo de cuentas, rastreo de actividades ilegales, políticas de contratación...); la medición de la opinión general de una población (por ejemplo, durante un evento, como un debate político); el estudio de enfermedades mentales, la detección de epidemias, para campañas de atracción de clientes, o para determinar el impacto de comunidades organizadas, entre otras muchas.
- English
  Social Networking Sites (SNS) are the most important way of communication nowadays. They have changed how we interact with our friends and family, and even how companies target their clients, conduct market analysis and make business decisions. The amount of data that is being generated every day is virtually unlimited, and it can be used to conduct social media analyses and/or to train Machine Learning (ML) models. However, many handicaps need to be alleviated. SNS data is, typically, unstructured and written in natural language, and it presents misspelled words, contractions, emojis, and new semantic units that sometimes are a heavy burden for learning algorithms. A large dataset and multiple preprocessing steps are essential for almost any ML application in SNS. Unfortunately, there is an inherent cost to gather and build labelled databases (human effort), and it constitutes a major drawback for low- to mid-budget ventures. Additionally, many applications may result in social consequences, thus they need to be audited. Both objectives fall into the interest of a multidisciplinary project called ª Nutcracker, that aims to detect, track, monitor an analyse radical discourse online. This dissertation is part of the project, and we propose in it effortless and interpretable mechanisms to tackle aforementioned disadvantages, using social network’s mechanics as leverage. First, we present a reasoning mechanism based on similarity between users, that will allow us to deduce properties of unknown users, hence reducing the effort required to build databases. Then, we present a new kind of feature extraction and selection method whose purpose is to reduce model complexity, thus enhancing model comprehensibility and transparency. Finally, we study the peculiarities of aggregated analysis and, particularly, how well can class prevalence count be estimated when working with SNS data. Our results show that we are able to build large databases in Twitter with a fraction of the effort; that we can train interpretable models as accurate as the baselines but one order of magnitude less complex; and that quantification is a novel approach that has much to offer to social network analysis, since it is able to adjust classification bias. We developed a proof-of-concept tool for effortless labelling and continuous user tracking, and we tested the platform by producing four high-quality weak-labelled datasets. The proposed techniques, methodologies and tools have been proven useful for disciplines such as computational linguistics, political science and cybersecurity. They are being used by members of our team and they have raised the attention of Spanish Civil Guard. Applications include building (and working with) supervised databases (e.g., social network analysis, market analysis, customer service, user profiling...); reaching full transparency in automatic decision-making algorithms (e.g., preemptive account closing, illegal activity tracking, hiring policies...); measuring overall user opinion or sentiment (e.g., during an event like a political debate); studying mental illnesses, detection of epidemic outbreaks, targeting customers, profiling brand ambassadors, or determining the impact of organised communities, among many others.