Quito, Ecuador
Sangolqui, Ecuador
La circulación de noticias falsas en internet, especialmente las de sátira política a través de redes sociales, ha afectado a la mayoría de la población ecuatoriana. Este trabajo presenta una metodología basada en el aprendizaje estadístico que detecta de forma precisa y automática noticias falsas en español utilizando técnicas de aprendizaje automático y procesamiento del lenguaje natural. El documento comienza presentando conceptos básicos relacionados con las noticias falsas y trabajos relacionados con su detección automática. La segunda sección explica el proceso de creación del corpus de noticias, procesamiento de los textos, representación numérica con TF-IDF y entrenamiento de algoritmos de clasificación supervisados con dos conjuntos de datos diferentes. Los resultados obtenidos del entrenamiento se analizan en la tercera sección, siendo los modelos con máquinas de soporte vectorial los que ofrecen mejores predicciones, mejorando aproximadamente un 15%, 6% y 3% al rendimiento de los modelos con naive bayes, random forests y árboles boosting respectivamente. Finalmente, las conclusiones de la investigación y el trabajo futuro se presentan en la cuarta sección.
The circulation of fake news on internet, especially those of political satire through social media, has affected the majority of the Ecuadorian population. This work presents a methodology based on statistical learning that accurately and automatically detects fake news in Spanish using machine learning and natural language processing techniques. The document begins by presenting basic concepts related to fake news and works related to their automatic detection. The second section explains the news corpus creation process, text processing, numerical representation with TF-IDF and training of supervised classification algorithms with two different data sets. Results obtained from the training are analyzed in the third section, being the models with support vector machines the ones that offer the best predictions, improving approximately 15%, 6% and 3% to the performance of the models with naive bayes, random forests and boosting trees respectively. Finally, conclusions of the research and future work is presented in the fourth section.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados