Ir al contenido

Documat


Diffusion, methods and applications

  • Autores: Ángela Fernández Pascual
  • Directores de la Tesis: José Ramón Dorronsoro Ibero (dir. tes.) Árbol académico, Julia Díaz García (dir. tes.) Árbol académico
  • Lectura: En la Universidad Autónoma de Madrid ( España ) en 2014
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: César Hervás Martínez (presid.) Árbol académico, Ana Pilar González Marcos (secret.) Árbol académico, Ronald Raphaël Coifman (voc.) Árbol académico, Concha Bielza Lozoya (voc.) Árbol académico, Neta Rabin (voc.) Árbol académico
  • Enlaces
  • Resumen
    • Big Data es un problema importante hoy en día, que puede ser entendido en términos de un amplio número de patrones, una alta dimensión o, como sucede normalmente, de ambos. En esta tesis nos vamos a centrar en los problemas de alta dimensión, aplicando técnicas de aprendizaje de subvariedades para visualizar y analizar dichos patrones.

      La técnica central será Diffusion Maps (DM) y su versión anisotrópica, Anisotropic Diffusion (AD), introducida por Ronald R. Coifman y su escuela en la Universidad de Yale, la cual va a ser tratada de manera completa, sistemática, compacta y auto-contenida. Esto se llevará a cabo tras un breve repaso de métodos previos de aprendizaje de subvaridades.

      Las contribuciones algorítmicas de esta tesis están centradas en dos de los grandes retos en métodos de difusión: el potencial alto coste que tiene el análisis de autovalores de la matriz de similitud necesaria para definir las coordenadas embebidas, y la dificultad para calcular este mismo embedding sobre nuevos datos que no eran accesibles cuando se realizó el análisis de autovalores inicial. Respecto al primer tema, se muestra como la aproximación AD se puede utilizar para evitar el cómputo del embedding cuando estamos interesados en definir modelos locales. En este caso, se pueden seleccionar patrones cercanos por medio de la búsqueda de vecinos próximos (k-Nearest Neighbors (k-NN)), usando como distancia una media de Mahalanobis local que permite encontrar vecinos sobre las variables latentes existentes bajo el modelo de AD, pero todo esto trabajando directamente sobre los patrones observables y, por tanto, evitando el costoso cálculo que supone el cálculo de autovalores de la matriz de similitud.

      El segundo algoritmo propuesto, que llamaremos Auto-adaptative Laplacian Pyramids (ALP), se centra en la extensión del embedding para datos fuera de la muestra, y consiste en una modificación del método denominado Laplacian Pyramids (LP). En este nuevo algoritmo, las iteraciones de LP se combinan con una estimación del error de Leave One Out CV (LOOCV), permitiendo definir directamente en el periodo de entrenamiento, un criterio para estimar el punto de parada óptimo en este método iterativo.

      Esta tesis presenta también una serie de contribuciones de aplicación de estas técnicas a importantes problemas en energías renovables e imágenes médicas. Más concretamente, se muestra como DM es un buen método para reducir la dimensión de predicciones del tiempo meteorológico, sirviendo por tanto de herramienta de visualización y descripción, así como de clasificación de los datos con vistas a definir modelos locales sobre cada grupo descrito.

      Posteriormente, se aplica nuestro método de búsqueda localizada basado en AD tanto a la búsqueda de la correspondiente posición de imágenes de escáneres en el cuerpo humano, como para la detección de rampas de energía eólica en parque individuales y de manera global en España. En ambos casos, los resultados obtenidos mejoran los métodos del estado del arte actual.

      Finalmente se ha comparado ALP, nuestra propuesta, frente al conocido método de Nyström y al método de LP así como frente a algunas variantes del problema de extensión de coordenadas de difusión en dos problemas de alta dimensión: el problema de compresión temporal de datos meteorológicos y el análisis de variables meteorológicas relevantes para la predicción de la radiación diaria. En ambos casos se muestra como ALP compara favorablemente con las otras aproximaciones al problema de extensión para puntos fuera de la muestra.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno