Ir al contenido

Documat


Resumen de Identificación de "malware" perteneciente a ataques APT mediante la selección de características altamente discriminatorias usando técnicas de "Machine Learning"

Luis Francisco Martín Liras

  • español

    Esta tesis persigue realizar una aportación a la detección de los ataques de ciberseguridad denominados “amenazas persistentes avanzadas (APT)”. Estos ataques se caracterizan por la dificultad que presentan a la hora de ser detectados, por su gravedad y por estar dirigidos principalmente a corporaciones tales como empresas u organismos gubernamentales. Las aplicaciones antimalware no son siempre capaces de identificar este tipo de malware puesto que a menudo se esconden como software benigno o como malware genérico (el enviado, a diario, a millones de personas) y requieren de expertos para su detección.

    La línea de investigación realizada en este trabajo construye una solución para la identificación de APTs a través de la detección del malware usado en el ataque. Diversas técnicas de aprendizaje automático han permitido clasificar el malware según su uso probable en un ataque de este tipo. Tras el capítulo 1 de introducción, la presente memoria contiene un análisis del estado del arte, en el capítulo 2, describiendo a continuación en el capítulo 3 la metodología usada a lo largo del trabajo. El capítulo 4 está dedicado a la descripción del primer corpus de datos generado, un conjunto de 19.457muestras de malware con 1.941 características binarias y numéricas diferentes.

    Hasta donde el autor conoce, se trata del repositorio más completo publicado hasta la fecha con el objetivo de identificación de malware perteneciente a ataques APT.

    El análisis realizado sobre el conjunto de datos muestra que existe una relación entre las muestras de malware pertenecientes a APT. En el capítulo 5, se detalla la selección de las 238 características más discriminativas para la identificación de malware de ataques APT entre un conjunto de muestras de malware genérico. La selección automática de características aportó información sobre el malware de los ataques APT, mostrando la importancia de la funciones importadas por las muestras de malware y de las APIs utilizadas durante su ejecución para identificar que una muestra de malware podría pertenecer a una APT. Los experimentos de clasificación realizados sobre esta preselección de características aportaron muy buenos resultados, permitiendo detectar como malware de APT más del 97% de las muestras que realmente lo eran.

    Tres años después de la obtención del conjunto de datos inicial, se generó un segundo conjunto de datos, más reducido, aunque similar en su estructura al original, con muestras de malware y de APTs de esta nueva época. En el capítulo 7 se describen los experimentos de validación realizados usando este segundo conjunto de datos, obtenido independientemente del primero. Los experimentos de clasificación con el modelo original entrenado con el primer conjunto de datos continuaron siendo adecuados para la detección de malware perteneciente a APTs sobre el segundo conjunto de datos. Los clasificadores siguieron aportando una exactitud superior al 90%. También se calculó de nuevo el conjunto de las características más discriminativas de este nuevo corpus de datos, usando las mismas técnicas que con el primero. El nuevo conjunto de características obtenido resultó diferente al primero, lo que indicaría que las muestras de malware evolucionan con el tiempo. Todo lo anterior parece indicar que un sistema de identificación de malware perteneciente a ataques APT debería recalcular periódicamente este conjunto de características.

    No obstante, el trabajo realizado permite sostener que el conjunto de características propuestas inicialmente es suficientemente discriminativo, incluso pasado un largo periodo de tiempo. Además, queda demostrado que no se puede presuponer una perspectiva fija del malware, considerando que ni éste ni sus características evolucionan.

    Todo lo contrario, el entorno no es estacionario debido a naturaleza conflictiva del malware. Las características de las nuevas muestras de malware relacionadas con campañas APT experimentan algunos cambios (por ejemplo, los packers utilizados o las diferentes características más importantes en el nuevo conjunto de datos) porque necesitan evolucionar como respuesta a los avances en la detección de malware. Por esta razón parece que las precisiones de clasificación puedan ser extrapoladas claramente a nuevo futuro malware. Por último, la valoración sobre un conjunto de datos completamente nuevo permitió conocer nuevas tendencias en el desarrollo de malware que podrían ser investigadas en futuros trabajos.

  • English

    This thesis aims to contribute to the detection of cybersecurity attacks known as “Advanced Persistent Threats (APTs)”. These attacks are characterised by the difficulty to detect, their severity, and the fact that they are mainly targeted at corporations such as companies or governmental institutions. Anti-malware software is not always able to identify this type of malware as they are often hidden as benign software or generic malware (the one sent daily to millions of people) and require experts to detect them.

    The line of research carried out in this work builds a solution for the identification of APTs through the detection of the malware used in the attack. Several machine learning techniques have allowed us to classify malware according to its likely use in such an attack. After the introductory chapter 1, this Thesis contains a description of the previous works, in chapter 2, and the methodology used throughout the work, in chapter 3. Chapter 4 is devoted to the description of the first corpus of data generated, a set of 19,457 malware samples with 1,941 different binary and numerical features.

    To the author’s knowledge, this is the most complete repository published to date for the purpose of identifying malware belonging to APT attacks.

    The analysis of the dataset shows that there is a relationship between the APT malware samples. In chapter 5, the selection of the 238 most discriminative features that would allow the identification of APT attack malware from a set of generic malware samples is detailed. The automatic feature selection revealed knowledge about APTrelated malware, such as the importance of the functions imported by the malware samples and the APIs used during their execution to identify that a malware sample could belong to an APT. The classification experiments performed on this feature pre-selection yielded very good results, allowing more than 97% of the samples to be detected as APT malware.

    Three years after the initial dataset was obtained, a second, smaller dataset was generated, although similar in structure to the original one with samples of malware and APTs from this new epoch. Chapter 7 describes the validation mechanisms performed on this second dataset, obtained independently of the first one. The classification experiments with the original model trained on the first dataset continued to be adequate for the detection of malware belonging to APTs, and were validated with the second dataset. The classifiers continued to provide a very high classification accuracy of over 90%. The set of the most discriminative features of this new dataset was also re-calculated using the same techniques as the first one. The new feature set obtained was very different from the first one, which would indicate that malware samples evolve over time. All of the above suggests that a system for identifying malware pertaining to APT attacks should periodically recalculate this set of features.

    However, the work carried out allows us to argue that the set of features initially proposed is sufficiently discriminative, even after a long period of time. Moreover, it has been shown that a fixed view of malware cannot be assumed, considering that neither malware nor its characteristics evolve. On the contrary, the environment environment is not stationary due to the conflicting nature of the malware. The characteristics of new malware samples related to APT campaigns undergo some changes (e.g. the packers used or the different features that are most important in the new dataset) because they need to evolve in response to advances in malware detection.

    For this reason it seems that the classification accuracies can clearly be extrapolated to new future malware.

    Finally, the assessment on a completely new dataset provided insight into new trends in the development of malware that could be investigated in future work.


Fundación Dialnet

Mi Documat