Ir al contenido

Documat


Resumen de Algoritmos de inteligencia computacional para abordar problemas de detección de anomalías en entornos big data

Jacinto Carrasco Castillo

  • español

    La proliferación del uso de sistemas informáticos en todo tipo de ámbitos, tanto médico, industrial, económico y científico ha traído consigo la generación de volúmenes cada vez mayores de datos. Esto ha provocado la necesidad de generar nuevas tecnologías que permitan el almacenamiento y análisis de dichos datos, a la par que generar nuevas circunstancias donde se pretende extraer conocimiento de los mismos. Uno de los escenarios habituales es el de la detección de anomalías, donde el interés reside en la identificación de una clase minoritaria de los datos, bien porque pueda suponer una amenaza al sistema estudiado, como en el caso de la detección de fraude o en el mantenimiento predictivo de sistemas industriales, o bien en entornos médicos, donde se disponen de pocas muestras de datos de pacientes con una enfermedad frente al común de la población sana y se pretenda detectar dicha enfermedad. El hecho de que el foco caiga sobre la clase minoritaria diferencia la detección de anomalías de la detección de ruido, definido como un efecto sobre los datos que querremos mitigar en la fase de preprocesamiento de los datos pero cuya causa no es relevante para la investigación. Por tanto, podemos identificar dentro del ámbito de la detección de anomalías distintos escenarios en función de la disponibilidad de información en el momento del aprendizaje del algoritmo: escenarios supervisados, asimilables a problemas de clasificación desbalanceada; escenarios semisupervisados o de detección de novedad, donde se genera un modelo de normalidad en base a los datos de la clase mayoritaria, los únicos disponibles en la fase de entrenamiento; y escenarios no supervisados, donde no se dispone de información sobre la clase de las instancias. Estas diferencias derivan en la existencia de distintos métodos de evaluación y en la necesidad de recurrir a mecanismos adicionales para la extracción de conocimiento interpretable en escenarios donde la representación aprendida por el modelo sea insuficiente para la comprensión del problema. En esta tesis nos centramos en el estudio del problema de detección de anomalías para escenarios no supervisados, tanto para problemas de series temporales como para datos estáticos. Este estudio parte de la demarcación del problema dentro del ámbito de la detección de anomalías para pasar al diseño de un algoritmo distribuido para la detección de anomalías válido tanto para datos estáticos como para series temporales enfocado en la obtención de explicaciones para ayudar a la toma de decisiones y la comprensión del conjunto de datos estudiado. Finalmente, se propone un modelo de evaluación para escenarios no supervisados de detección de anomalías en series temporales. En concreto, las propuestas realizadas en el marco de la tesis son: Un modelo distribuido de detección de anomalías enfocado en la explicabilidad. Para este modelo nos basamos en el algoritmo HBOS, que realiza histogramas univariantes para la asignación de puntuación de anomalía, y lo extendemos para la búsqueda de anomalías en subespacios de mayor dimensionalidad. El uso de este algoritmo como base viene justificado por la posibilidad de construir una representación del conocimiento que permite en fases posteriores reconstruir histogramas de subespacios de mayor dimensionalidad aprovechando ciertos cálculos. Además, la representación del conocimiento nos permite incluir una propuesta de construcción de reglas para describir los motivos de la categorización de instancias concretas a través de contrahechos, unas reglas que justifican por qué una instancia pertenece a una clase y no a la otra. En la experimentación asociada a esta propuesta se ve cómo los resultados no son asimilables al estado del arte en la detección de anomalías, siendo el menor rendimiento la contrapartida a la simplicidad del modelo que permite la obtención de reglas. Un modelo de evaluación de algoritmos de detección de anomalías para series temporales. En el ámbito de la detección de anomalías existen múltiples esquemas para la evaluación. En concreto, es habitual encontrar en escenarios de series temporales la aplicación de modelos de predicción de puntuación de anomalía para instancias temporales mientras que identifiquen eventos de interés que ocurren con posterioridad a las predicciones anómalas. Sin embargo, estos métodos plantean problemas como la necesidad de establecer ciertos parámetros para la evaluación como la definición de una ventana previa al evento de interés o pesos para recompensar una detección rápida o la multiplicación del efecto del desbalanceo entre clases. Por ello, proponemos un mecanismo de puntuación basado en la definición de múltiples ventanas previas a los eventos de interés y el uso de una curva ROC generalizada para las distintas ventanas de manera que la agregación de las instancias mediante una función es la puntuación de anomalía para ese intervalo. Esta propuesta incluye una implementación para entornos clásicos y otro para entornos distribuidos y una comparación con una propuesta de medida de evaluación para detección de anomalías asimilable por su trabajo con intervalos, donde mostramos no solo la utilidad de nuestra medida para la evaluación en los escenarios descritos sino también la eficiencia del cómputo de nuestra medida frente a esta alternativa. Las propuestas realizadas vienen a aportar soluciones a problemas concretos de la investigación en detección de anomalías como son la falta de modelos capaces de trabajar en entornos distribuidos y que ofrezcan explicaciones sobre el motivo de la clasificación de una instancia como anómala o normal, y la disociación de ciertos sistemas de evaluación que consideran instancias puntuales para la valoración de eventos que ocurren a lo largo de un período.

  • English

    The proliferation of the use of computer systems in all kinds of fields, whether medical, industrial, economic or scientific, has brought with it the generation of everincreasing volumes of data. This has led to the need to create new technologies that allow the storage and analysis of this data, as well as generating new circumstances in which the aim is to extract knowledge from it. One of the usual scenarios is that of anomaly detection, where the interest lies in the identification of a minority class of data, either because it may pose a threat to the system under study, as in the case of fraud detection or predictive maintenance of industrial systems, or in medical environments, where there are few samples of data from patients with a disease compared to the common healthy population and the aim is to detect that disease. The fact that the focus is on the minority class differentiates anomaly detection from noise detection, defined as an effect on the data that we want to mitigate in the data pre-processing phase but whose cause is not relevant to the investigation. Therefore, we can identify different scenarios within the scope of anomaly detection depending on the availability of information at the time of learning the algorithm: supervised scenarios, assimilable to unbalanced classification problems; semi-supervised or novelty detection scenarios, where a normality model is generated based on the data of the majority class, the only ones available in the training phase; and unsupervised scenarios, where no information is available on the class of the instances. These differences result in the existence of different evaluation methods and in the need to resort to additional mechanisms for the extraction of interpretable knowledge in scenarios where the representation learned by the model is insufficient for the understanding of the problem. In this thesis we focus on the study of the anomaly detection problem for unsupervised scenarios, both for time series problems and for static data. This study starts from the demarcation of the problem within the anomaly detection domain to move on to the design of a distributed algorithm for anomaly detection valid for both static and time series data focused on obtaining explanations to help decision making and understanding of the studied dataset. Finally, an evaluation model for unsupervised time series anomaly detection scenarios is proposed. Specifically, the proposals made in the framework of the thesis are: A distributed anomaly detection model focused on explainability. For this model we rely on the HBOS algorithm, which performs univariate histograms for anomaly score assignment, and extend it to search for anomalies in higher dimensionality subspaces. The use of this algorithm as a basis is justified by the possibility of constructing a knowledge representation that allows in later phases to reconstruct histograms of higher dimensionality subspaces by taking advantage of certain calculations. Furthermore, the knowledge representation allows us to include a proposal for the construction of rules to describe the reasons for the categorisation of specific instances through counterfactuals, rules that justify why an instance belongs to one class and not to another. In the experimentation associated with this proposal, it can be seen that the results are not comparable to the state of the art in anomaly detection, the lower performance being the counterpart to the simplicity of the model that allows the rules to be obtained. A model for evaluating anomaly detection algorithms for time series. In the field of anomaly detection, there are multiple evaluation schemes. In particular, it is common to find in time series scenarios the application of anomaly score prediction models for time instances while identifying events of interest that occur subsequent to the anomalous predictions. However, these methods pose problems such as the need to set certain parameters for the evaluation such as the definition of a window prior to the event of interest or weights to reward fast detection or the multiplication of the effect of interclass imbalance. Therefore, we propose a scoring mechanism based on the definition of multiple windows prior to the events of interest and the use of a generalised ROC curve for the different windows such that the aggregation of the instances by a function is the anomaly score for that interval. This proposal includes an implementation for classical environments and another for distributed environments and a comparison with a proposed evaluation measure for anomaly detection assimilated by its work with intervals, where we show not only the usefulness of our measure for evaluation in the described scenarios but also the computational efficiency of our measure versus this alternative. The proposals made provide solutions to specific problems in anomaly detection research, such as the lack of models capable of working in distributed environments and offering explanations as to why an instance is classified as anomalous or normal, and the dissociation of certain evaluation systems that consider specific instances for the evaluation of events that occur over a period of time.


Fundación Dialnet

Mi Documat