Towards a more sustainable anomaly detection: new methods and practical applications

Meira, Jorge

Ver/abrir

Meira_Jorge_TD_2023.pdf (3.647Mb)

Use este enlace para citar

http://hdl.handle.net/2183/33493

Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido

A non ser que se indique outra cousa, a licenza do ítem descríbese como Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido

Coleccións

Teses de doutoramento [2089]

Metadatos

Mostrar o rexistro completo do ítem

Título

Towards a more sustainable anomaly detection: new methods and practical applications

Autor(es)

Meira, Jorge

Director(es)

Alonso-Betanzos, Amparo
Marreiros, Goreti
Bolón-Canedo, Verónica

Data

2023

Resumo

[Resumo] A detección de anomalías é un problema crítico en moitos campos, con aplicación que van desde a detección de intrusións ata o diagnóstico de fallos e o mantemento predictivo. Os métodos non supervisados gañaron unha gran popularidade debido á súa capacidade para aprender de datos sen requirir exemplos etiquetados. Esta tese doutoral presenta unha visión xeral completa dos métodos de detección de anomalías, cun enfoque específico en técnicas non supervisadas e as suás aplicacións en varios dominios. A tese tamén enfatiza a sustentabilidade ao presentar métodos que están deseñados para ser escalables, eficientes e capaces de manexar grandes e complexos conxuntos de datos. Os mecanismos de afinaci´on automática dos hiperparámetros, combinados coas propiedades distribuídas de algúns dos métodos, permiten un procesamento eficiente e minimizan a necesidade de afinación manual, que pode ser consumidora de tempo e recursos. Isto resulta nun enfoque máis sustentable e eficiente para a detección de anomalías, reducindo o risco de sobrecarga de sistemas e minimizando a pegada de carbono do procesamento implicado. Estes enfoques aplícanse a varios conxuntos de datos e dominios, incluíndo un conxunto de datos de detección de intrusións de IoT, un fluxo de datos de sistema ferroviario e as preferencias turísticas baseadas no conxunto de datos de reseñas de TripAdvisor. O rendemento dos métodos avalíase utilizando unha variedade de métricas, como a precisión de clasificación, precisión, recall, curva ROC, tempo de procesamento e tests estatísticos como o test post hoc Nemmenyi, amosando resultados de vangarda. A investigación presentada nesta tese fai unha contribución significativa á detección de anomalías ao introducir novos métodos máis eficientes para lidiar con conxuntos de datos grandes e complexos. Ademais, os métodos son escalables e sostibles, o que son factores importantes para a súa implementación en aplicacións do mundo real. En xeral, o traballo nesta tese proporciona unha visión detallada e actualizada dos métodos de detección de anomalías, co enfoque nas técnicas non supervisadas e as súas aplicacións prácticas, especialmente coas novas tendenciascara unha intelixencia artificial máis verde.

[Resumen] La detección de anomalías es un problema crítico en muchos campos, con aplicaciones que van desde la detección de intrusiones hasta el diagnóstico de fallos y el mantenimiento predictivo. Los métodos no supervisados han ganado una gran popularidad debido a su capacidad para aprender de los datos sin requerir ejemplos etiquetados. Esta tesis doctoral presenta una visión general completa de los métodos de detección de anomalías, con un enfoque particular en las técnicas no supervisadas y sus aplicaciones en una amplia variedad de dominios. Además, la tesis hace énfasis en la sostenibilidad al presentar métodos que están diseñados para ser escalables, eficientes y capaces de manejar grandes y complejos conjuntos de datos. Los mecanismos de ajuste automático de hiperparámetros, combinados con las propiedades distribuidas de algunos de los métodos, permiten un procesamiento eficiente y minimizan la necesidad de ajuste manual, que puede ser tardado y requerir recursos intensivos. Esto resulta en un enfoque más sostenible y eficiente para la detección de anomalías, reduciendo el riesgo de sobrecarga de los sistemas y minimizando la huella de carbono del procesamiento involucrado. Estos enfoques se aplican a varios conjuntos de datos y dominios, incluyendo un conjunto de datos de detección de intrusiones de IoT, un flujo de datos de sistema ferroviario y las preferencias turísticas basadas en el conjunto de datos de reseñas de TripAdvisor. El rendimiento de los métodos se evalúa utilizando una variedad de métricas, como la precisión de clasificación, la precisión, el recall, la curva ROC, el tiempo de procesamiento y los tests estadísticos como el test post hoc Nemmenyi, mostrando resultados de vanguardia. La investigación presentada en esta tesis hace una contribución significativa al campo de la detección de anomalías al introducir nuevos métodos más eficientes para tratar con conjuntos de datos grandes y complejos. Además, los métodos son escalables y sostenibles, lo cual son factores importantes para su implementación en aplicaciones del mundo real. En general, el trabajo en esta tesis proporciona una visión detallada y actualizada de los métodos de detección de anomalías, con un enfoque en técnicas no supervisadas y sus aplicaciones prácticas, especialmente con las nuevas tendencias hacia una inteligencia artificial más verde.

[Abstract] Anomaly detection is a critical problem in many fields, with applications ranging from intrusion detection to fault diagnosis and predictive maintenance. Unsuper- vised methods have gained widespread popularity due to their ability to learn from data without requiring labeled examples. This doctoral thesis presents a comprehen- sive overview of anomaly detection methods, with a particular focus on unsupervised techniques, and their applications in a wide variety of domains. The thesis also emphasizes sustainability by presenting methods that are de- signed to be scalable, efficient, and able to handle large and complex datasets. The automatic hyperparameter tuning mechanisms, combined with the distributed prop- erties of some of the methods, enable efficient processing and minimize the need for manual tuning, which can be time-consuming and resource-intensive. This results in a more sustainable and efficient approach to anomaly detection, reducing the risk of overloading systems and minimizing the carbon footprint of the processing involved. These approaches are applied to various datasets and domains, including an IoT intrusion detection dataset, a railway system data stream, and tourist preferences based on the TripAdvisor reviews dataset. The performance of the methods is evaluated using a range of metrics, such as classification accuracy, precision, recall, area under the curve ROC, processing time, and statistical tests such as the Nemmenyi post hoc test, showing state-of-art results. The research presented in this dissertation makes a significant contribution to the field of anomaly detection by introducing new methods that are more efficient for dealing with large and complex datasets. Moreover, the methods are scalable and sustainable, which are important factors for their deployment in real-world applications. Overall, the work in this thesis provides a detailed and up-to-date overview of anomaly detection methods, with a focus on unsupervised techniques and their practical applications, specially with the new tendencies towards a greener AI.

Palabras chave

Control automático-Informática
Aprendizaje automático-Informática
Inteligencia artificial-Informática

Descrición

Programa Oficial de Doutoramento en Computación. 5009V01

Dereitos

Os titulares dos dereitos de propiedade intelectual autorizan a visualización do contido desta tese a través de Internet, así como a súa reproducción, gravación en soporte informático ou impresión para o seu uso privado e/ou con fins de estudo e de investigación. En nengún caso se permite o uso lucrativo deste documento. Estos dereitos afectan tanto ó resumo da tese como o seu contido Los titulares de los derechos de propiedad intelectual autorizan la visualización del contenido de esta tesis a través de Internet, así como su repoducción, grabación en soporte informático o impresión para su uso privado o con fines de investigación. En ningún caso se permite el uso lucrativo de este documento. Estos derechos afectan tanto al resumen de la tesis como a su contenido

Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)