Resumen La llegada de Internet y de las nuevas tecnologías dio lugar al nacimiento de la era de la información, una era que ha conectado a la sociedad de forma global y le ha permitido acceder libremente a la información digital. Con esta facilidad de acceso, cualquier persona, aún sin ser experta en la materia, puede publicar y acceder a la información sin ningún coste, lo que ha ocasionado un exceso de información no contrastada que muchas veces oculta intenciones como el engaño, la manipulación o los fines económicos. De esa forma, la era de la información se ha transformado en la era de la desinformación. La incesante necesidad de estar informados ha motivado que el consumo de la información se convierta en una rutina, ya sea siguiendo las últimas noticias en portales digitales o leyendo a diario publicaciones de personas afines.
Antes, la información viajaba en forma de sonido a través de la radio o en forma de tinta a través de los periódicos, pero ahora una desmedida cantidad de información se propaga a través de algoritmos. Las tecnologías han propiciado la sobreabundancia de información, así como la propagación de noticias falsas y bulos, hasta tal punto que resulta imposible contrastar y procesar manualmente tales volúmenes de desinformación en tiempo real. No obstante, lo que se considera un problema puede convertirse en una solución, pues igual que los algoritmos y el entorno digital son los causantes de la viralización de la información falsa, estos pueden ser a su vez los detectores de la desinformación.
Es aquí donde el Procesamiento del Lenguaje Natural desempeña un papel clave en la relación humano-máquina, modelando el lenguaje humano a través de la comprensión y generación automática del lenguaje, y entrenando modelos a través de la retroalimentación del experto. El trabajo coordinado entre la ingeniería computacional y la lingüística es decisivo a la hora de frenar el fenómeno de la desinformación. Son necesarias las dos perspectivas para abordar la detección automática de la forma más completa y precisa posible, pues el análisis lingüístico permite detectar y estudiar patrones textuales que hacen que la información de una noticia sea o no sea confiable, mientras que el entorno tecnológico se encarga de automatizar la detección de los patrones anotados mediante el entrenamiento de algoritmos de aprendizaje automático.
Específicamente para esta tarea, donde la noticia es el objeto de estudio, el análisis a nivel periodístico también es fundamental. La noticia suele presentar una estructura determinada, técnica conocida como la Pirámide Invertida, don- de la información sigue un orden de relevancia concreto con el fin de captar la atención del lector. Además, suele organizar el contenido de forma precisa y completa respondiendo a seis preguntas clave, conocidas como las 5W1H. Estas dos técnicas periodísticas permiten construir una noticia siguiendo unos están- dares de calidad y son la base de la anotación de la presente investigación.
Para contribuir a la tarea de la detección de desinformación, la presente investigación presenta dos guías de anotación de grano fino diseñadas para anotar tanto la veracidad (guía FNDeepML) como la confiabilidad (guía RUN-AS) de las noticias. Además, se presentan los dos corpus obtenidos y anotados con las guías de anotación, uno de ellos compuesto por 200 noticias verdaderas y falsas (corpus FNDeep) y otro que incluye 170 noticias confiables y no confiables (corpus RUN), ambos en español. Un extenso marco de evaluación se lleva a cabo para validar tanto la calidad de la anotación como la de los recursos, ob- teniendo resultados prometedores que muestran que el entrenamiento con las características de la anotación mejoran notablemente los modelos de predicción. Asimismo, otras dos aportaciones de la tesis relacionadas más bien con el proceso de anotación y de detección son, por un lado, la propuesta de una metodología semiautomática de anotación que agiliza la tarea del experto anotador y, por otro lado, una arquitectura para la detección de desinformación basada en una capa de estructura y otra de predicción. Las aportaciones de este trabajo permiten abordar una parte del problema de la detección de la desinformación aplicando técnicas de Procesamiento del Lenguaje Natural, pero desde un enfoque lingüístico, lo que permite profundizar en el estudio del problema desde su raíz. El conocimiento profundo del lenguaje de las noticias, y específicamente el modelado de un lenguaje propio de la desinformación, permite no solo dar un paso más en su detección, sino además justificar la confiabilidad de la noticia.
Internet and new technologies gave birth to the information age, a period that has connected society globally and given it free access to digital informa- tion. With this accessibility, anyone, including non-experts, can publish and ac- cess information at no cost. This has led to an excess of unverified information that often hides ulterior motives such as deception, manipulation or economic purposes. Thus, the age of information has turned into the age of disinforma- tion. The incessant need to be informed has turned information consumption into a routine, whether it is following the latest news on digital portals or reading daily posts by like-minded people.
In the past, information travelled in the form of sound through radio or in the form of ink through traditional newspapers. Nowadays, however, an inor- dinate amount of information is propagated through algorithms. Technologies have led to a glut of information combined with the spreading of fake news and hoaxes, to such an extent that it is impossible to manually check and process such volumes of disinformation in real time. However, the cause of the problem may also be the solution: just as algorithms and the digital environment are res- ponsible for the spreading of disinformation, they can also be used to detect it.
Natural Language Processing plays a key role in the human-machine rela- tionship, by modelling human language through automatic language understan- ding and generation, and training models through expert feedback. The coordi- nated work between computer engineering and linguistics is decisive in curbing the disinformation phenomenon. Both perspectives are necessary to render au- tomatic detection as complete and precise as possible, as the linguistic analysis allows the detection and study of textual patterns that determine whether the information in a news item is reliable, while the technological environment is responsible for automating the detection of the annotated patterns by training machine-learning algorithms.
Specifically for this task, where the news item is the object of study, analysis at journalistic level is also fundamental. News usually presents a specific struc- ture by following the technique known as the Inverted Pyramid, where the infor- mation is set down in a specific order of relevance in order to catch the reader’s attention. In addition, content is usually organised in a precise and complete way by answering six key questions, known as the 5W1H. These two journalistic techniques allow the construction of a news story according to quality standards and are the basis for the annotation of this research.
To contribute to the task of detecting disinformation, the present research presents two fine-grained annotation schemes designed to annotate both the veracity (FNDeepML scheme) and the reliability (RUN-AS scheme) of news. In addition, the two datasets obtained and annotated with the annotation schemes are presented, one consisting of 200 true and false news items (FNDeep dataset) and the other including 170 reliable and unreliable news items (RUN dataset), both in Spanish. An extensive evaluation framework is established to validate both the quality of the annotation and the resources, obtaining promising re- sults that show that training with the annotation features significantly impro- ves the prediction models. Two other contributions of the thesis related to the annotation and detection processes are, on the one hand, the design of a semi- automatic annotation methodology that accelerates the task of the expert anno- tator and, on the other hand, an architecture for disinformation detection based on a structure layer and a prediction layer. The contributions of this work ad- dress part of the problem of disinformation detection by applying Natural Lan- guage Processing techniques, but from a linguistic approach, which allows us to delve into the root causes of the problem. In-depth knowledge of the language of news, in particular the modelling of a specific disinformation language, not only allows us to take a step further towards detecting it, but also to demonstrate the reliability of the news item.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados