Navigating diverse datasets in the face of uncertainty

Alejandro Álvarez Ayllón

Ayuda

Navigating diverse datasets in the face of uncertainty

Autores: Alejandro Álvarez Ayllón
Directores de la Tesis: Manuel Palomo Duarte (dir. tes.) , Juan Manuel Dodero Beardo (codir. tes.)
Lectura: En la Universidad de Cádiz ( España ) en 2023
Idioma: inglés
Tribunal Calificador de la Tesis: Daniel Molina Cabrera (presid.) , María Mercedes Rodríguez García (secret.) , Christophe Haen (voc.)
Enlaces
- Tesis en acceso abierto en: TESEO RODIN
Resumen
- Uno de los mayores problemas del big data es el origen diverso de los datos. Un investigador puede estar interesado en agregar datos provenientes de múltiples ficheros que aún no han sido pre-procesados e insertados en un sistema de bases de datos, debiendo depurar y filtrar el contenido antes de poder extraer conocimiento.
  
  La exploración directa de estos ficheros presentará serios problemas de rendimiento: examinar archivos sin ningún tipo de preparación ni indexación puede ser ineficiente tanto en términos de lectura de datos como de tiempo de ejecución. Por otro lado, ingerirlos en un sistema de base de datos antes de entenderlos introduce latencia y tra- bajo potencialmente redundante si el esquema elegido no se ajusta a las consultas que se ejecutarán. Afortunadamente, nuestra revisión del estado del arte demuestra que existen múltiples soluciones posibles para explorar datos in-situ de manera efectiva.
  
  Otra gran dificultad es la gestión de archivos de diversas procedencias, ya que su esquema y disposición pueden no ser compatibles, o no estar correctamente documen- tados. La mayoría de las soluciones encontradas pasan por alto esta problemática, especialmente en lo referente a datos numéricos e inciertos, como, por ejemplo, aque- llos relacionados con atributos físicos generados en campos como la astronomía.
  
  Nuestro objetivo principal es ayudar a los investigadores a explorar este tipo de datos sin procesamiento previo, almacenados en múltiples archivos, y empleando únicamente su distribución intrínseca.
  
  En esta tesis primero introducimos el concepto de Equally-Distributed Dependencies (EDD) (Dependencias de Igualdad de Distribución), estableciendo las bases necesarias para ser capaz de emparejar conjuntos de datos con esquemas diferentes, pero con atributos en común. Luego, presentamos PresQ, un nuevo algoritmo probabilístico de búsqueda de quasi-cliques en hiper-grafos. El enfoque estadístico de PresQ permite proyectar el problema de búsqueda de EDD en el de búsqueda de quasi-cliques.
  
  Por último, proponemos una prueba estadística basada en Self-Organizing Maps (SOM) (Mapa autoorganizado). Este método puede superar, en términos de poder es- tadístico, otras técnicas basadas en clasificadores, siendo en algunos casos comparable a métodos basados en kernels, con la ventaja adicional de ser interpretable.
  
  Tanto PresQ como la prueba estadística basada en SOM pueden impulsar descubri- mientos serendípicos.