Aplicación de técnicas de aprendizaje no supervisado para la clusterización temática de la red TOR

Irene Sánchez López; Álvaro W Schuller Fernández Aguilar; David Martín Bragado; Carlos Cilleruelo Rodríguez; Manuel Sánchez Rubio; José Javier Martínez Herráiz

Ayuda

Aplicación de técnicas de aprendizaje no supervisado para la clusterización temática de la red TOR

Sánchez López, Irene ^[1] ; Schuller Fernández-Aguilar, Álvaro W ^[1] ; Martín Bragado, David ^[1] ; Cilleruelo Rodríguez, Carlos ^[1] ; Sánchez Rubio, Manuel ^[2] ; Martínez Herráiz, José Javier ^[1]
1. [1] Universidad de Alcalá
  
  Universidad de Alcalá
  
  Alcalá de Henares, España
2. [2] INTA
Localización: IV Congreso Nacional de i+d en Defensa y Seguridad DESEi+d 2016: Actas, 16, 17 y 18 de noviembre de 2016 / José Serna Serrano (dir. congr.) , María del Pilar Sánchez Andrada (dir. congr.), Ignacio Álvarez Rodríguez (dir. congr.), 2016, ISBN 978-84-946021-3-9, págs. 1073-1081
Idioma: español
Enlaces
- Texto Completo Libro (pdf)
Resumen
- La red TOR es un proyecto asociado a la tan sonada últimamente Deep Web. Se calcula que en dicha red, existían en el año 2013 unos 6.500 servicios webs. Dada la magnitud de esta, se considero interesante la creación de un crawler capaz de recorrerlos servicios web de TOR y descargar las paginas webs alojadas en ellos. El objetivo ha sido además analizar el contenido de las páginas recogidas por el crawler. Con toda esta información, mediante el uso de técnicas de aprendizaje no supervisado se han realizado labores de clustering de los servicios web en función de su temática. Un crawler es un software capaz de navegar de forma automatizada y recopilar información de las paginas webs que visita. En la arquitectura del crawler desarrollado, existen tres elementos imprescindibles para la gestión efectiva del sistema: Elastic Search, un motor de búsqueda enfocado al almacenamiento textual donde se registra la URL y su código fuente; MongoDB, otro motor de base de datos NoSQL donde se realiza un grafo de la jerarquía de punteros entre paginas y la comunicación con la base de datos en memoria Redis, enfocada a asignar prioridades a la cola de URLs que esperan ser visitadas. Actualmente se dispone de 10.000 dominios y 120.000 URLs analizadas. A través de aprendizaje no supervisado, mediante clustering jerárquico aglomerativo, se han detectado tres racimos temáticos. Se han realizado distintas labores de Procesamiento de Lenguaje Natural (NLP, Natural Language Processing) para extraer los temas de los mismos, empleando el modelo estadístico Latent Dirichlet Allocation (LDA). Aquí ha sido posible distinguir como el primer ´ cluster tenía una clara orientación sexual, recogiendo palabras como ‘sex’, ‘porn’, ‘child’ y ‘pornography’; un segundo cluster enfocado al mercado de la droga y armas, con términos como: ‘drugs’, ‘market’, ‘weapongs’, ‘guns’ y ‘darknetmarket’;y un ultimo grupo con temáticas mucho más diseminadas: credit cards’, ‘BTC’, ‘forum’ y ‘hosting’.