Ir al contenido

Documat


Resumen de Minería de datos en series temporales: preprocesamiento, análisis, segmentación y predicción. Aplicaciones

Antonio Manuel Duran Rosal

  • 1. introducción o motivación de la tesis Actualmente existe un crecimiento exponencial de la cantidad de datos que generan los sistemas de información. Esto hace necesario el desarrollo de técnicas automáticas de procesamiento y minería de datos. En esta Tesis, se abordan estos problemas cuando se usan series temporales, es decir, conjuntos de datos recogidos cronológicamente a lo largo del tiempo, los cuales están presentes en muchos ámbitos de la ciencia.

    La minería de datos en series temporales [1] comprende distintas tareas como por ejemplo, clasificación [2], segmentación [3], agrupamiento de series [4] y predicción [5], entre otros. Concretamente, esta tesis se centra en las tareas de preprocesamiento, segmentación (incluyendo detección de eventos de la serie) y predicción.

    El preprocesamiento es una tarea que suele estar presente como prerrequisito para que el resto de tareas funcionen correctamente. Por ejemplo, la reconstrucción de los valores de la serie donde existen pérdidas de información es una tarea de preprocesamiento. La segmentación consiste en dividir la serie temporal en distintos segmentos, seleccionando un subconjunto de puntos, con el fin de satisfacer diferentes objetivos. De entre ellos, los dos mas importantes son: encontrar patrones o similaridades de segmentos de la serie a lo largo del tiempo [6], y utilizar la simplificación de la serie temporal en un subconjunto de puntos [3]. Por último, la predicción se basa en la estimación de valores futuros analizando información pasada de la serie [7].

    Por otra parte, la estimación de las distribuciones de probabilidad de la serie puede ayudar a la búsqueda de diferentes soluciones para satisfacer los objetivos en las anteriores tareas. Por ejemplo, para la estimación en series temporales con presencia de valores muy altos en comparación con el resto, se usan distribuciones de probabilidad asociadas a valores extremos [8].

    Aunque el análisis de series temporales ha sido abordado desde el punto de vista estadístico durante varias décadas, en esta tesis hemos considerado resolver estos problemas con la aplicación y el desarrollo de nuevas técnicas de aprendizaje automático [9], incluyendo metaheurísticas novedosas como algoritmos de arrecife de coral y enjambre de partículas, y algoritmos híbridos, pero sin olvidar la importancia de la componente estadística tradicional, mejorando los algoritmos propuestos en el estado del arte. Además, han sido aplicadas a problemas reales en series temporales de paleoclimatología [10], altura de ola, y de formación de niebla, entre otros.

    2. contenido de la investigación Durante el desarrollo de la tesis se han propuesto y explorado diferentes técnicas de aprendizaje automático, algoritmos bioinspirados y algoritmos híbridos, para la resolución de las tareas indicadas anteriormente.

    En primer lugar, esta tesis comienza con el desarrollo de un algoritmo evolutivo de redes neuronales para recuperar información en series temporales de altura de olas en el Golfo de Alaska, dado que este tipo de series temporales son recogidas por boyas situadas en alta mar y que son muy susceptibles de averiarse por las condiciones físicas.

    El segundo bloque de la Tesis es el de segmentación de series temporales. Este apartado es el más importante y extenso en cuanto a la investigación realizada a lo largo de la tesis. Atendiendo al descubrimiento de patrones, inicialmente, se ha desarrollado un algoritmo genético para detectar Tipping Points (es decir, puntos de inflexión) en series de paleoclimatología. La propuestas segunda y tercera han consistido en dotar al algoritmo de una búsqueda guiada por optimización de máxima verosimilitud asumiendo distintas distribuciones teóricas y sirviendo para detectar fases comunes en series europeas financieras, y para la detección de altura de olas extremas. Las propuestas referentes a la reducción del número de puntos de la serie se han centrado en el desarrollo de algoritmos bioinspirados basados en arrecifes de coral y enjambres de partículas. Por último, esta tesis ha abordado ambos puntos de vista en un mismo algoritmo multiobjetivo, ya que como se demuestra en el desarrollo de la misma, ambos son objetivos contrapuestos.

    La investigación en predicción de series temporales se ha centrado en transformar los problemas tradicionales de estimación de valores para ser tratados como problemas de clasificación, donde, en lugar de predecir un valor real, el objetivo es predecir segmentos de la serie con algoritmos de aprendizaje automático. Esta tesis recoge el desarrollo y aplicación de algoritmos evolutivos de redes neuronales para la predicción de altura de ola extrema y de formación de niebla en aeropuertos.

    Finalmente, se ha abierto una línea nueva de investigación que trata de determinar la distribución de probabilidad de la serie para guiar futuras operaciones. Así, se ha definido una nueva distribución de probabilidad mixta formada por una distribución normal en combinación de una distribución uniforme, y se ha desarrollado un método de estimación de los parámetros para determinar la distribución de probabilidad de series temporales de altura de olas extremas.

    3. conclusión Todos los trabajos propuestos en la Tesis Doctoral han sido validados y publicados por revistas de prestigio internacional y en conferencias nacionales/internacionales. Se han desarrollado distintos algoritmos de aprendizaje automático, bioinspirados (como algoritmos basados en arrecifes de coral y en enjambres de partículas) y algoritmos híbridos para tratar de resolver algunas tareas de minería de datos en series temporales, entre las que se incluye el preprocesamiento, la segmentación y la predicción. Además, se ha abierto una línea prometedora de investigación centrada en el ajuste de la distribución de probabilidad de la serie temporal para guiar a otras tareas. Por lo general, las metodologías propuestas han mejorado y/o complementado los algoritmos del estado del arte.

    4. bibliografía [1] T.-C. Fu. A review on time series data mining. Engineering Applications of Artificial Intelligence, 24(1):164 – 181, 2011.

    [2] X. Xi, E. Keogh, C. Shelton, L. Wei, and C. A. Ratanamahatana. Fast time series classification using numerosity reduction. In Proceedings of the 23rd international conference on Machine learning, pages 1033–1040. ACM, 2006.

    [3] E. Keogh, S. Chu, D. Hart, and M. Pazzani. Segmenting time series: A survey and novel approach. In Data mining in time series databases, pages 1–21. World Scientific, 2004.

    [4] T. W. Liao. Clustering of time series data—a survey. 38(11):1857–1874, 2005.

    [5] A. M. Viselli, G. Z. Forristall, B. R. Pearce, and H. J. Dagher. Estimation of extreme wave and wind design parameters for offshore wind turbines in the Gulf of Maine using a POT method. Ocean Engineering, 104:649–658, 2015.

    [6] V. S. Tseng, C.-H. Chen, P.-C. Huang, and T.-P. Hong. Cluster-based genetic segmentation of time series with DWT. Pattern Recognition Letters, 30(13):1190–1197, 2009.

    [7] A. S. Weigend. Time series prediction: forecasting the future and understanding the past. Routledge, 2018.

    [8] F. Mazas and L. Hamm. A multi-distribution approach to pot methods for determining extreme wave heights. Coastal Engineering, 58(5):385 – 394, 2011.

    [9] C. M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.

    [10] T. M. Lenton. Early warning of climate tipping points. Nature Climate Change, 1(4):201–209, 2011.


Fundación Dialnet

Mi Documat