Ir al contenido

Documat


Resumen de Clustering probabilístico dinámico para la búsqueda de patrones de degradación de elementos de máquina en el ámbito del industrie 4.0

Javier Diaz Rozo

  • La Cuarta Revolución Industrial y en particular, los sistemas ciberfísicos (CPS), han abierto una amplia gama de oportunidades en términos de análisis de rendimiento. Estas oportunidades pueden ser aplicables a sistemas de diagnóstico y predicción de fallos pero también, pueden contribuir a la mejora del diseño de los productos y a la optimización de los procesos industriales. Las capacidades de comunicación de los CPS a alta velocidad permiten adquirir, pre-procesar y procesar los datos que se extraen, por ejemplo, de las máquinas, pilar fundamental de los procesos productivos. Como resultado, la degradación de los elementos de máquina sujetos a comportamientos dinámicos puede detectarse de una manera más rápida mediante el estudio de los patrones que forman sus principales variables de funcionamiento a lo largo del tiempo. Esto permite generar herramientas de monitorización de elementos productivos, aplicables principalmente al mantenimiento y al control de calidad.

    Sin embargo, este tipo de aproximaciones trabajan con sensores que envían datos de procesos dinámicos a alta velocidad en donde no es fácil generar información útil en el momento adecuado. Una parte del problema se refiere al procesamiento de una gran cantidad de datos, mientras que los fenómenos dinámicos subyacentes relacionados con la máquina posiblemente evolucionen con el tiempo dando lugar a un concept drift. Esto se debe a factores como la degradación, algo completamente normal en los sistemas físicos. Como resultado, cualquier modelo de datos puede volverse obsoleto y es necesaria su constante actualización.

    Para hacer frente a este problema, se propone una aproximación desde el aprendizaje automático no supervisado. Específicamente, el uso de algoritmos de clustering dinámicos. Para ello, se trabaja en una metodología que primero estudia el rendimiento de los algoritmos de clustering en aplicaciones industriales. Posteriormente, se seleccionan aquellos algoritmos que tengan la capacidad de aportar nuevo conocimiento relacionado con los elementos productivos y sus patrones de degradación. El siguiente paso es adaptar el algoritmo seleccionado al comportamiento dinámico de las máquinas y al trabajo con data streams, mucho más cercano a la realidad industrial. De esta manera, partiendo de algoritmos de clustering como: K-medias, jerárquico aglomerativo, espectral, propagación de afinidad y modelos de mixturas de Gaussianas, se selecciona este último tipo como el más apto para esta aplicación.

    Se propone un nuevo algoritmo de aprendizaje no supervisado, denominado clustering probabilístico dinámico basado en mixturas de Gaussianas (GDPC). GDPC integra y adapta tres algoritmos conocidos para poder ser usados en escenarios dinámicos: el algoritmo de esperanza--maximización (EM) responsable de estimar los parámetros del modelo de mixturas y el test de hipótesis de Page--Hinkley que junto con las cotas de Chernoff permiten detectar los concept drift.

    A diferencia de otros métodos no supervisados, el modelo inducido por el GDPC proporciona las probabilidades de asignación de cada instancia a cada clúster o componente. Esto permite determinar, a través de un análisis con el Brier score, la robustez de esta asignación y su evolución una vez detectado un concept drift. El GDPC trabaja con una ventana óptima de datos reduciendo de manera importante las necesidades de potencia de cómputo. Sin embargo, el algoritmo requiere un conocimiento del dominio profundo con el fin de seleccionar correctamente los parámetros (por ejemplo, el número de componentes). Además, puede ser inestable debido a otro fenómeno encontrado comúnmente en datos industriales relacionado con fases no estacionarias que ocurren cuando los elementos cambian de estado y se estabilizan en su valor esperado.

    De esta manera, se proponen una nueva versión con serie de mejoras con el objetivo de aumentar el grado de robustez del algoritmo ante estas problemáticas. Esta nueva versión, denominada GDPC+, introduce las siguientes mejoras: (a) la selección automática del número de componentes de la mixtura de Gaussianas en función del criterio de información Bayesiano; y (b) la estabilización debida a los efectos transitorios, no estacionarios, durante el concept drift gracias a la integración de la divergencia de Cauchy--Schwarz con el test de Dickey--Fuller aumentado. Por lo tanto, el GDPC+ tiene un mejor desempeño que el GDPC en términos del número de falsos positivos en aplicaciones altamente dinámicas.

    El desarrollo de estos algoritmos ha sido validado con pruebas sobre data stream de origen sintético y también originados a partir de un banco de pruebas y una máquina-herramienta produciendo piezas reales, en este caso, cigüeñales de automoción. Estos resultados se han validado en términos de diferentes medidas como precisión, recall, especificidad y F-score. Adicionalmente, partiendo de los resultados de clustering de datos reales de máquina, se han desarrollado conjuntos de reglas inducidas mediante un algoritmo de clasificación supervisada con el fin de proporcionar información sobre el proceso subyacente y sus concept drift asociados.


Fundación Dialnet

Mi Documat