Ir al contenido

Documat


Intelligent system for web spam detection

  • Autores: Jorge Fernández González Árbol académico
  • Directores de la Tesis: Rosalía Laza Fidalgo (dir. tes.) Árbol académico, María Reyes Pavón Rial (dir. tes.) Árbol académico
  • Lectura: En la Universidade de Vigo ( España ) en 2016
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: Fernando Díaz Gómez (presid.) Árbol académico, Anália Lourenço (secret.) Árbol académico, Vitor Manuel Basto Fernandes (voc.) Árbol académico
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • En la presente tesis doctoral se propone un modelo híbrido de Inteligencia Artificial destinado a solventar el problema de la detección y filtrado de dominios web que ofrecen contenido ilícito. En este contexto, la existencia de una web cambiante y cada vez más heterogénea hace patente la necesidad de disponer de nuevas herramientas que permitan la combinación de diferentes técnicas anti-spam con el fin de aumentar su capacidad de generalización.

      Concretamente, el modelo propuesto implementa un sistema basado en reglas, que va a ser el encargado de gestionar y ejecutar las distintas técnicas anti-spam incorporadas al sistema. Este conjunto de reglas constituye la base de conocimiento, que será utilizada por el modelo propuesto a la hora de determinar la legitimidad de un dominio web. Adicionalmente, con el fin de manejar correctamente la naturaleza evolutiva del spam, el modelo incorpora un módulo de aprendizaje capaz de ajustar automáticamente los parámetros de configuración, permitiendo así mantener el rendimiento de filtrado a lo largo del tiempo. Para llevar a cabo este cometido, el modelo propuesto ha sido diseñado utilizando una metodología IBR.

      Con el fin de poder demostrar experimentalmente la hipótesis inicial, el modelo propuesto ha sido evaluado empleando dos corpus accesibles públicamente, los cuales mantienen el contenido original de cada dominio y presentan una distribución altamente desbalanceada, hecho muy habitual en el ámbito de la web. El análisis de los resultados obtenidos evidencia que el sistema desarrollado ofrece mejoras en comparación con el resto de modelos probados, tanto a nivel cualitativo como cuantitativo, siendo capaz de producir clasificaciones más acertadas y con mayor precisión y rapidez.

      Finalmente, se puede afirmar que el presente trabajo ha establecido las bases para la creación de técnicas para el filtrado del spam en la web, teniendo en consideración conceptos tan importantes en este ámbito como son el desbalanceo de clase o la naturaleza cambiante del spam. Adicionalmente, se ha propuesto un modelo de filtrado rápido y fiable, dotado de capacidad de aprendizaje incremental para la detección automática de dominios con contenido ilícito.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno