Ir al contenido

Documat


A model-driven approach for systematic reproducibility and replicability of data science projects

  • Francisco Javier Melchor González [1] ; Roberto Rodriguez-Echeverria [1] Árbol académico ; José M. Conejero [1] Árbol académico ; Alvaro E. Prieto Ramos [1] Árbol académico ; Juan D. Gutiérrez Gallardo [1]
    1. [1] Universidad de Extremadura

      Universidad de Extremadura

      Badajoz, España

  • Localización: Actas de las XXVII Jornadas de Ingeniería del Software y Bases de Datos (JISBD 2023) / coord. por Amador Durán Toro Árbol académico, 2023
  • Idioma: inglés
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • En los últimos años se ha producido un importante incremento en el número de herramientas y enfoques para la definición de pipelines que permiten el desarrollo de proyectos de ciencia de datos. Estas herramientas permiten tanto la definición del pipeline como la generación del código necesario para ejecutar el proyecto, proporcionando una forma sencilla de realizar estos proyectos incluso para usuarios no expertos. Sin embargo, todavía existen algunos retos que estas herramientas no abordan. Por ejemplo, la posibilidad de ejecutar pipelines en entornos tecnológicos diferentes a los de su definición (reproducibilidad y replicabilidad), o la identificación de operaciones inconsistentes (intencionalidad). Para paliar estos problemas, este trabajo presenta un framework basado en modelos para la definición de pipelines de ciencia de datos independientes de la plataforma de ejecución y de las herramientas concretas. Este framework se basa en la separación de la definición del pipeline en dos capas de modelado diferentes: conceptual, en el que el científico de datos puede especificar todas las operaciones de datos que conforman el pipeline; operacional, en el que el ingeniero de datos puede describir los detalles concretos del entorno de ejecución donde se implementarán las operaciones finalmente. Basado en esta definición abstracta y en la separación en capas, nuestra propuesta permite: el uso de diferentes herramientas mejorando, así, la replicabilidad del proceso; la automatización de la ejecución del proceso, mejorando la reproducibilidad del proceso; y la definición de reglas de verificación del modelo, proporcionando restricciones de intencionalidad.


Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno