Técnicas para la detección de noticias falsas y desinformación. El dominio médico como caso de estudio.

Juan Ricardo Martínez Rico

Ayuda

Técnicas para la detección de noticias falsas y desinformación. El dominio médico como caso de estudio.

Autores: Juan Ricardo Martínez Rico
Directores de la Tesis: Lourdes Araujo (dir. tes.) , Juan Martínez Romo (codir. tes.)
Lectura: En la UNED. Universidad Nacional de Educación a Distancia ( España ) en 2026
Idioma: español
Número de páginas: 207
Títulos paralelos:
- Techniques for detecting fake news and disinformation. The medical domain as a case study
Tribunal Calificador de la Tesis: Ana M. García Serrano (presid.) , Estela Saquete Boró (secret.) , Luis Alfonso Ureña López (voc.)
Enlaces
- Tesis en acceso abierto en: e-spacio
Resumen
- español
  En el mundo conectado en el que vivimos la proliferación de información falsa ha alcanzado niveles sin precedentes, ya que el acceso a Internet prácticamente universal y las redes sociales hacen que la difusión de estos contenidos se propague con gran rapidez. Si bien la desinformación no es un fenómeno nuevo, el contexto actual amplifica sus efectos nocivos, sobre todo en ámbitos sensibles como el de la salud. Los procesos manuales de verificación de hechos, aunque rigurosos, resultan insuficientes ante el volumen de datos publicados. Los estudios indican que gran parte de la población está preocupada por la veracidad de la información en línea, lo que evidencia la necesidad de sistemas automáticos que complementen la labor humana.
  
  Esta tesis se propone abordar dos retos fundamentales: la detección automática de noticias falsas adaptada específicamente al dominio de la salud, y la generación de explicaciones comprensibles que justifiquen dichas evaluaciones. Para la detección, se ha diseñado una metodología integral que combina recopilación automática de datos, anotación a nivel de oración y extracción de características biomédicas. El flujo de trabajo, que funciona en modo atendido y autónomo, recupera periódicamente noticias evaluadas por entidades verificadoras y permite al usuario depurar el contenido o, en modo autónomo, generar estimaciones de veracidad sin intervención humana. Cada noticia se segmenta en oraciones; a partir de ellas se extraen conceptos médicos mediante una base de conocimiento especializada y se identifica su estructura sintáctica. Como subproducto, se ha construido un corpus de noticias médicas anotado a nivel de oración, que proporciona una referencia valiosa para futuras investigaciones.
  
  En cuanto a la explicabilidad, se plantea un sistema que recupera evidencia contextual de la Web y emplea grandes modelos de lenguaje (LLM) para razonar sobre ella y producir explicaciones estructuradas que respalden las evaluaciones de veracidad realizadas por sistemas no explicativos. El sistema divide las oraciones en unidades más pequeñas y con ellas genera preguntas con las que consulta al motor de búsqueda. La evidencia recuperada también se atomiza en unidades más pequeñas, y a partir de esos elementos se generan explicaciones parciales que, una vez integradas, forman una explicación completa y coherente sobre la veracidad de la noticia. De esta forma, los LLM realizan tareas simples de análisis y generación de texto, reduciendo así la carga de razonamiento y mitigando posibles alucinaciones.
  
  Los resultados demuestran que los modelos de lenguaje discriminativos empleados alcanzan precisiones competitivas en la detección de noticias falsas en el ámbito de la salud, y que la incorporación de estructuras lingüísticas y ontologías médicas potencia su rendimiento. Por otro lado, el uso de LLM generativos junto con evidencia limitada recuperada de Internet permite producir explicaciones automáticas, coherentes y evaluables. En conjunto, la tesis ofrece un marco integral que combina detección y explicabilidad, contribuyendo a mitigar la desinformación sanitariay proporcionando recursos reutilizables para la comunidad investigadora.
- English
  n the connected world we inhabit, the proliferation of false information has reached unprecedented levels, as virtually universal Internet access and social-media platforms enable rapid dissemination of such content. Although misinformation is not a novel phenomenon, the current context amplifies its harmful effects, especially in sensitive domains such as health. Manual fact-checking procedures, while rigorous, are inadequate given the sheer volume of published data. Studies indicate that a large portion of the population is concerned about the veracity of online information, underscoring the need for automated systems that can complement human effort.
  
  This thesis aims to address two fundamental challenges: (i) the automatic detection of fake news specifically within the health domain, and (ii) the generation of comprehensible explanations that justify these assessments. For detection, we have devised an end-to-end methodology that integrates automatic data collection, sentence-level annotation, and extraction of biomedical features. The workflow operates in both assisted and autonomous modes: it periodically retrieves news items evaluated by fact-checking organizations, allowing the user to refine the content (as sisted mode), or it autonomously produces veracity estimates without human intervention (autonomous mode). Each article is segmented into sentences; from these sentences medical concepts are extracted using a specialized knowledge base, and their syntactic structure is identified. As a by-product, we have constructed a sentence annotated corpus of medical news, which constitutes a valuable reference for future research.
  
  Regarding explainability, we propose a system that retrieves contextual evidence from the Web and employs large language models (LLMs) to reason over this evidence and generate structured explanations that support the veracity judgments produced by non-explanatory classifiers. The system decomposes sentences into smaller units, formulates queries from these units, and submits them to a search engine. The retrieved evidence is likewise atomized into finer fragments; partial explanations are generated from these fragments and subsequently integrated into a coherent, complete justification of the article’s truthfulness. In this manner, LLMs perform simple analysis and text-generation tasks, thereby reducing the reasoning load and mitigating potential hallucinations.
  
  Experimental results demonstrate that the discriminative language models employed achieve competitive precision in detecting health-related fake news, and that incorporating linguistic structures and medical ontologies further enhances performance. Moreover, the combination of generative LLMs with a limited set of web-retrieved evidence yields automatic explanations that are coherent, evaluable, and informative. Taken together, the dissertation provides an integrated framework that unites detection and explainability, contributing to the mitigation of health misinformation and delivering reusable resources for the research community.