Resumen de Evaluación de la precisión de los modelos de clasificación binaria para la identificación de noticias verdaderas o falsas en Costa Rica

Eilyn Salazar Miranda, Gustavo Tenorio Arce, Luis Naranjo Zeledón

español
Este artículo describe el proceso investigativo para la creación de un primer conjunto de datos beta con noticias difundidas en Costa Rica y la evaluación del nivel de precisión de modelos de minería de datos para la detección de noticias como verdaderas o potencialmente falsas. Para tal efecto se realiza un análisis lingüístico del contenido de las noticias utilizando la herramienta LIWC para la extracción de características cuantitativas y se ofrecen seis variaciones para modelos como Regresión Logística, Árboles de Decisión, Bosques Aleatorios, Máquinas de Soporte de Vectores y Redes Neuronales, haciendo una comparación de las variables lingüísticas y analizar los resultados obtenidos en los modelos los cuales resultan satisfactorios para la escala de evaluación propuesta.
English
This article describes the investigative process for creating a first beta dataset with news broadcast in Costa Rica and evaluating the level of accuracy of data mining models for news detection as true or potentially false. For this purpose, a linguistic analysis of the news content is carried out using the LIWC tool to extract quantitative characteristics and six variations are offered for models such as Logistic Regression, Decision Trees, Random Forests, Vector Support Machines and Neural Networks, making a comparison of the linguistic variables and analyzing the results obtained in the models which are satisfactory for the proposed evaluation scale.

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: