Sistema automático de gestión de ciberataques

Leopoldo Jesús Gutiérrez Galeano

Ayuda

Sistema automático de gestión de ciberataques

Autores: Leopoldo Jesús Gutiérrez Galeano
Directores de la Tesis: Juan José Domínguez Jiménez (dir. tes.) , Inmaculada Medina Bulo (codir. tes.)
Lectura: En la Universidad de Cádiz ( España ) en 2026
Idioma: español
Tribunal Calificador de la Tesis: Maria Emilia Cambronero Piqueras (presid.) , Pedro Delgado Pérez (secret.) , Antonio García Domínguez (voc.)
Enlaces
- Tesis en acceso abierto en: TESEO RODIN
Resumen
- Actualmente, todo usuario de un equipo informático debe tener en cuenta que cualquier equipo conectado a una red es vulnerable. Este problema no es nuevo, ya que existe desde que se diseñó Internet. Cuando se crearon los protocolos de comunicación en los años 70, el objetivo era compartir recursos en un entorno de confianza, no la seguridad. Sin embargo, con la expansión global de Internet y su uso comercial, esa falta de seguridad se ha convertido en un enorme problema.
  
  Las herramientas que se suelen utilizar para la protección de equipos informáticos, tales como antivirus basados en firmas o cortafuegos, han demostrado no ser suficientes. De hecho, siempre van un paso por detrás de los atacantes. Hoy en día, las amenazas son tan sofisticadas y rápidas que la intervención humana ya no es suficiente para contenerlas. Por ello, el uso de la inteligencia artificial (AI) se ha convertido en una técnica imprescindible para analizar el tráfico de red y gestionar los ataques de forma automática.
  
  Esta tesis doctoral surge de la necesidad de superar las limitaciones de las herramientas actuales. Se han podido identificar tres problemas principales: la escasez de datos de calidad para investigar, la necesidad de detectar ataques con mayor precisión, minimizando falsas alarmas, y la identificación de ataques desconocidos.
  
  Para solucionar esto, en esta tesis doctoral se ha diseñado un sistema de gestión de ciberataques dividido en tres partes: - Generación de datos: el primer problema encontrado para entrenar un modelo de AI es que los conjuntos de datos públicos suelen estar obsoletos o mal etiquetados. Para resolverlo, se ha creado un sistema que genera datos a medida. En lugar de generar datos sintéticos, se ha diseñado una solución que despliega una red utilizando la herramienta Docker. Esto permite simular ataques en un entorno controlado, capturar el tráfico, transformarlo en estadísticas de flujos de red y etiquetarlo automáticamente. Así se consiguen datos de alta calidad y perfectamente etiquetados, sabiendo perfectamente qué es tráfico normal y qué es un ataque.
  
  - Detección de ciberataques: este sistema se ha diseñado mediante la adaptación de un modelo extenso de lenguaje (LLM), concretamente T5, a una tarea de detección de ataques. Esto ha sido una idea novedosa. Partiendo de la premisa de que, si los LLM entienden el lenguaje humano, también pueden entender el tráfico de red, se transforman los datos numéricos de las estadísticas de flujos de red en frases de texto que el modelo puede procesar. Los resultados han sido prometedores. Tras una etapa de ajuste, el sistema fue capaz de distinguir el tráfico normal del malicioso e incluso especificar el tipo de ataque exacto. Se utilizaron los conjuntos de datos CIC-IDS-2017, CSE-CIC-IDS2018 y BCCC-CIC-IDS-2017, elegidos por ser los más empleados en los estudios disponibles en la literatura y porque contienen los tipos de ataques más modernos y populares. Para todas las métricas de evaluación (tasa de acierto, precisión, sensibilidad y valor-F ), los resultados superaron el 99,94 % para el primer conjunto de datos, 99,84 % para el segundo y 99,9 % para el tercero.
  
  - Predicción de ciberataques desconocidos: finalmente, se aborda el problema de predecir ataques que nunca han sido vistos por el modelo. Se ha diseñado una serie de experimentos para probar si el modelo podía detectar un tipo de ataque que nunca había visto durante su entrenamiento. Aquí se descubrió algo muy interesante sobre el uso del timestamp, ya que se pudo demostrar que eliminar el timestamp mejora los resultados. Al quitar la información temporal, se obliga al modelo a centrarse solo en los valores estadísticos que representan un ataque. Esto hace que el sistema sea capaz de generalizar mejor ante amenazas desconocidas.
  
  Por lo tanto, con esta tesis doctoral se presenta una solución que se encarga desde la generación automática de datos fiables hasta un sistema de detección y predicción. Los resultados confirman que adaptar los LLM al análisis de red es una estrategia viable y muy eficaz para utilizarlo como protección en un entorno cada vez más preocupante y cambiante.