La Violencia Contra la Mujer (VCM) es un problema de carácter social que está presente en muchos países, convirtiéndose en un fenómeno de alto alcance que requiere atención y un amplio estudio para así concienciar a la sociedad sobre el impacto y las consecuencias que genera. Así mismo, la creciente ola de casos de violencia hace evidente la necesidad urgente de reconocer su importancia y asegurar los principios relativos a la igualdad, seguridad, libertad, integridad y dignidad de todos los seres humanos. Lo antes expuesto motivó a que se realice la presente investigación doctoral para estudiar y analizar las formas y diferentes patrones que envuelven la VCM. De manera que, mediante la aplicación de diferentes técnicas de minería de texto y aprendizaje automático sobre una gran variedad de noticias recolectadas de diversos periódicos digitales obtuvimos información valiosa y relevante que nos ha proporcionado una visión profunda de este fenómeno social latente a nivel mundial. En esta investigación se propone el uso de técnicas de Minería de Texto como: Clasificación de texto, Modelado de temas y Reglas de Asociación para realizar un estudio de la VCM tomando como fuente artículos de violencia extraídos de periódicos digitales. Primeramente, en esta investigación se empleó técnicas de Raspado Web para obtener la colección de documentos a ser estudiados. Una vez obtenida la colección de documentos se sugiere realizar lo siguiente: clasificación del texto en los diferentes tipos de violencia que sufren las mujeres, de la misma forma, mediante la aplicación de técnicas de modelado de temas, se generarán e identificarán temas latentes dentro de la colección de documentos. Finalmente, con la aplicación de minería de reglas de asociación se propone el estudio de los diferentes atributos y patrones que involucran la violencia contra la mujer. Esta propuesta consiste en el desarrollo de los siguientes puntos: Inicialmente, para poder llevar a cabo esta investigación se comenzó con la recopilación de noticias públicas por periódicos digitales. Previo a la recopilación fue necesario realizar un estudio de las diferentes estructuras de páginas web, de modo que, se pudiera identificar en qué nodo de la estructura HTML se encontraba el texto requerido, a fin de, poder definir sobre qué nodos de información haremos la petición, y así, poder obtener el texto específico de cada una de las noticias. Con las técnicas de raspado web se pudo recopilar 7000 noticias (documentos de texto) en formato no estructurado. Posteriormente, se procedió a realizar el procesamiento de la colección de documentos. Este proceso presentó algo de complejidad debido a que el objeto de estudio es texto que puede contener cientos de palabras, donde cada palabra representa un atributo, de modo que, los documentos a estudiar son de gran dimensionalidad. Este tipo de dato sin estructura es más complejo de estudiar dado que muchos de los atributos presentes en el texto no generarán valor a la investigación o incluso podrían afectar al buen funcionamiento de los algoritmos de aprendizaje automático. Para reducir el impacto de este problema se aplicó un proceso de procesamiento de texto que permitió la selección de las características más relevantes dentro de cada uno de los textos recopilados para el estudio. Para identificar y determinar los tipos de violencia con los que se clasificarían los documentos se realizó un estudio de casos e investigaciones sobre VCM que permitieran determinar los tipos de violencia que sufren las mujeres. De aquí se obtuvieron 3 tipos de violencia: Física, Sexual y Psicológica, las cuales pueden estar relacionadas y presentes en un solo hecho o documento, por lo que, se optó por una clasificación multiclase. Para la detección de temas latentes se utilizaron técnicas de modelado de temas, en este estudio se aplicó el algoritmo Asignación Latente de Dirichlet, conocido con sus términos en inglés como “Latent Dirichlet Allocation” (LDA). Como resultado, se obtuvo una lista de temas junto con sus 15 términos más representativos, así mismo, se pudo detectar ciertas características sobre la VCM. A continuación, se determinó las noticias más relevantes dentro de cada tema, y mediante las palabras más frecuentes se pudo construir etiquetas de identificación. Finalmente, en el proceso de minería de reglas de asociación se realizó un estudio de las diferentes características que pueden involucrar un acto de violencia. Entre estas tenemos: el tipo de víctima, el tipo de agresor, los motivos, el arma empleada, el tipo de violencia, si existen heridas en el cuerpo o si la víctima murió o no. A partir del procedimiento descrito anteriormente se aplicaron reglas de asociación sobre una colección de 7000 documentos. Posteriormente, fue necesario realizar una reducción de dimensionalidad, debido a que cada documento puede contener una gran cantidad de palabras. La razón de realizar esta reducción fue los recursos informáticos que consumen la aplicación de modelos de reglas de asociación en documentos de gran dimensionalidad. Así mismo, el uso de atributos poco importantes en la generación de reglas de asociación podría generar resultados dudosos en las dependencias de los atributos. Los resultados obtenidos en el proceso de desarrollo de esta investigación fueron favorables demostrando que las técnicas de minería de texto son herramientas de gran utilidad en el estudio de la Violencia Contra la Mujer, estas técnicas nos permitieron estudiar hechos reales de violencia y obtener información que antes era desconocida. Finalmente, se pudo evidenciar la gravedad y el gran alcance que tiene la VCM, además, de observar la necesidad de aplicar medidas que ayuden a la erradicación de este fenómeno universal que acecha a miles de mujeres y niñas a nivel mundial.
Violence Against Women (VAW) is a social problem that is present in many countries and has become a far-reaching phenomenon that requires attention and extensive study in order to raise awareness of its impact and consequences. Furthermore, the growing wave of cases of violence makes evident the urgent need to recognize its importance and to ensure the principles of equality, security, freedom, integrity and dignity of all human beings. The mentioned before motivated the present doctoral research to study and analyze the forms and different patterns that surround VAW. By applying different text mining and machine learning techniques to a wide variety of news collected from different digital newspapers, we obtained valuable and relevant information that has provided us with a deep insight into this latent social phenomenon at a global level. This research proposes the use of Text Mining techniques such as Text Classification, Topic Modelling and Association Rules to carry out a study of VAW taking as source articles of violence extracted from digital newspapers. Firstly, in this research, we used Web Scraping techniques to obtain the collection of documents to study. Once we obtained the collection of documents, the proposal is as follow; classification of the text into the different types of violence suffered by women, in the same way, through the application of topic modelling techniques, generate and identified latent topics within the collection of documents. Finally, with the application of association rule mining, the study of the different attributes and patterns involving violence against women is proposed. This proposal consists of the development of the following points: Initially, in order to carry out this research, we began with the collection of news published by digital newspapers. It was necessary to carry out a study of the different web page structures in order to identify in which node of the HTML structure the required text is located. In order to be able to define on which information nodes we will make the request and thus be able to obtain the specific text of each of the news items. Using web-scraping techniques was possible to collect 7000 news items (text documents) in unstructured format. Subsequently, the document collection was processed. This process was complex because the text could contain hundreds of words, with each word representing an attribute. Thus, the documents to study were of high dimensionality. This type of unstructured data is more complex to study; many of the attributes present in the text will not generate value to the research or could even affect the proper functioning of the machine learning algorithms. To reduce the impact of this problem, we applied a text processing process that allowed the selection of the most relevant characteristics within each of the texts collected for the study. In order to identify and determine the types of violence to classify the documents, we studied research on VAW to determine the types of violence suffered by women. We detected three types of violence: Physical, Sexual and Psychological, which can be related and present in a single event or document, so we chose a multi-class classification. For the detection of latent topics, we used modelling techniques. In this study, we applied the Latent Dirichlet Allocation (LDA). As a result, we obtained a list of topics and their 15 most representative terms, as well as certain characteristics of VAW. Then, the most relevant news within each topic was determined, and by extracting the most frequent words, we constructed identification tags for the generated topics. Finally, in the association rule mining process we study the different characteristics that may be involved in an act of violence. These include; the type of victim, the type of aggressor, the motives, and the weapon used, the type of violence, whether the victim has wounds on the body or whether the victim died or not. Based on the procedure described above, we applied association rules on a collection of 7000 documents. Subsequently, it was necessary to perform a dimensionality reduction, because each document can contain a large number of words. The reason for this reduction was the computing resources consumed by the application of association rule models on high-dimensional documents. In addition, the use of unimportant attributes in the generation of association rules could generate dubious results in the attribute dependencies. The results obtained in the process of developing this research were favorable, demonstrating that text-mining techniques are very useful tools in the study of violence against women, as they allowed us to study real facts of violence and obtain information that was previously unknown. Finally, it was possible to demonstrate the seriousness and the great scope of VAW, as well as to observe the need to apply measures that help to eradicate the universal phenomenon that stalks thousands of women and girls worldwide.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados