Ir al contenido

Documat


Resumen de A model-driven approach for systematic reproducibility and replicability of data science projects

Francisco Javier Melchor González, Roberto Rodríguez Echeverría Árbol académico, José María Conejero Manzano Árbol académico, Alvaro Prieto Ramos Árbol académico, Juan Diego Gutiérrez Gallardo

  • En los últimos años se ha producido un importante incremento en el número de herramientas y enfoques para la definición de pipelines que permiten el desarrollo de proyectos de ciencia de datos. Estas herramientas permiten tanto la definición del pipeline como la generación del código necesario para ejecutar el proyecto, proporcionando una forma sencilla de realizar estos proyectos incluso para usuarios no expertos. Sin embargo, todavía existen algunos retos que estas herramientas no abordan. Por ejemplo, la posibilidad de ejecutar pipelines en entornos tecnológicos diferentes a los de su definición (reproducibilidad y replicabilidad), o la identificación de operaciones inconsistentes (intencionalidad). Para paliar estos problemas, este trabajo presenta un framework basado en modelos para la definición de pipelines de ciencia de datos independientes de la plataforma de ejecución y de las herramientas concretas. Este framework se basa en la separación de la definición del pipeline en dos capas de modelado diferentes: conceptual, en el que el científico de datos puede especificar todas las operaciones de datos que conforman el pipeline; operacional, en el que el ingeniero de datos puede describir los detalles concretos del entorno de ejecución donde se implementarán las operaciones finalmente. Basado en esta definición abstracta y en la separación en capas, nuestra propuesta permite: el uso de diferentes herramientas mejorando, así, la replicabilidad del proceso; la automatización de la ejecución del proceso, mejorando la reproducibilidad del proceso; y la definición de reglas de verificación del modelo, proporcionando restricciones de intencionalidad.


Fundación Dialnet

Mi Documat