Ir al contenido

Documat


Resumen de Machine learning for anomaly detection: From surface to deep

David Novoa Paradela

  • español

    La detección de anomalías es la rama del aprendizaje automático encargada de construir modelos capaces de diferenciar entre datos normales y anómalos. A priori, esto convierte la detección de anomalías en un problema de clasificación en dos únicas clases. Sin embargo, dado que las anomalías suelen ocurrir de forma esporádica, los datos normales son los que prevalecen en estos escenarios, por lo que es habitual que se requieran modelos específicos cuyo entrenamiento se lleve a cabo empleando únicamente datos de la clase normal. Estos sistemas juegan un papel vital en una amplia gama de aplicaciones reales, como la medicina, la detección de fraudes bancarios, intrusiones en la red, o el mantenimiento predictivo de sistemas industriales. Esta tesis se ha centrado en el desarrollo de nuevos algoritmos de detección de anomalías para tres escenarios diferentes, desde modelos basados en la geometría de los datos, hasta modelos más complejos basados en aprendizaje profundo. En el primer escenario proponemos un método basado en cierres no convexos subdivisibles para entornos tradicionales, en los que algunos de los principales problemas son la dimensionalidad de los datos de entrenamiento y la forma de la nube de puntos en el espacio n-dimensional. En el segundo escenario se presenta una red autoencoder profunda válida para entornos de computación en el borde y aprendizaje federado debido a su entrenamiento no iterativo, así como una arquitectura federada para su implementación semi-centralizada. Por último, en línea con las nuevas tendencias de inteligencia artificial aplicable, se ha estudiado la aplicabilidad de la detección de anomalías sobre textos, proponiendo un pipeline para la detección de reseñas anómalas explicable en plataformas de comercio electrónico. El trabajo desarrollado ha sido compartido con la comunidad investigadora a través de publicaciones en revistas y congresos científicos, así como repositorios de código abierto, contribuyendo de este modo al avance del campo de la detección de anomalías.

  • English

    Anomaly detection is the branch of machine learning in charge of building models capable of differentiating between normal and anomalous data. A priori, this makes anomaly detection a two-class classification problem. However, since anomalies tend to occur sporadically, normal data are the ones that prevail in these scenarios, so it is common to require specific models whose training is carried out using only data from the normal class. These systems play a vital role in a wide range of realworld applications, such as medicine, bank fraud detection, network intrusions, or predictive maintenance of industrial systems. This thesis has focused on the development of new anomaly detection algorithms for three different scenarios, from models based on data geometry to more complex models based on deep learning. In the first scenario, we propose a method based on subdivisible non-convex hulls for traditional environments, where some of the main problems are the dimensionality of the training data and the shape of the point cloud in the n-dimensional space. In the second scenario, a deep autoencoder network valid for edge computing and federated learning environments is presented due to its non-iterative training, as well as a federated architecture for its semi-centralized implementation. Finally, in accordance with the new trends in applied artificial intelligence, the applicability of anomaly detection on text has been studied, proposing a pipeline for the detection of explainable anomalous reviews in e-commerce platforms. The work developed has been shared with the research community through publications in scientific journals and conferences, as well as open source repositories, thus contributing to the advancement of the field of anomaly detection.

  • galego

    A detección de anomalías é a rama da aprendizaxe automática encargada de construír modelos capaces de diferenciar entre datos normais e anómalos. A priori, isto converte a detección de anomalías nun problema de clasificación en dúas clases. Con todo, dado que as anomalías adoitan ocorrer de forma esporádica, os datos normais son os que prevalecen nestes escenarios, polo que é habitual que se requiran modelos específicos cuxo adestramento sexa levado a cabo empregando unicamente datos da clase normal. Estes sistemas xogan un papel vital nunha ampla gama de aplicacións reais, como a medicina, a detección de fraudes bancarias, intrusións na rede, ou o mantemento preditivo de sistemas industriais. Esta tese centrouse no desenvolvemento de novos algoritmos de detección de anomalías para tres escenarios diferentes, desde modelos baseados na xeometría dos datos, ata modelos máis complexos baseados en aprendizaxe profunda. No primeiro escenario propoñemos un método baseado en peches non convexos subdivisibles para escenarios tradicionais, nos que algúns dos principais problemas son a dimensionalidade dos datos de adestramento e a forma da nube de puntos no espacio n-dimensional. No segundo escenario preséntase unha rede autoencoder profunda válida para escenarios de computación no borde e aprendizaxe federado debido ao seu adestramento non iterativo, así como unha arquitectura federada para a súa implementación semi-centralizada. Por último, en liña coas novas tendencias da intelixencia artificial aplicable, estudouse a aplicabilidade da detección de anomalías sobre textos, propoñendo un pipeline para a detección de recensións anómalas explicable en plataformas de comercio electrónico. O traballo desenvolvido foi compartido coa comunidade investigadora a través de publicacións en revistas e conferencias científicas, ademais de repositorios de código aberto, contribuíndo así ao avance do campo da detección de anomalías.


Fundación Dialnet

Mi Documat