Ir al contenido

Documat


Aplicación de flujos de trabajo científicos en dominios con procesamiento intensivo de datos

  • Autores: Rubén Salado Cid
  • Directores de la Tesis: José Raúl Romero Salguero (dir. tes.) Árbol académico
  • Lectura: En la Universidad de Córdoba (ESP) ( España ) en 2024
  • Idioma: español
  • Tribunal Calificador de la Tesis: Javier Luis Cánovas Izquierdo (presid.) Árbol académico, Eduardo Cañete Carmona (secret.) Árbol académico, Aurora Ramírez Quesada (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: Helvia
  • Resumen
    • . Introducción o motivación de la tesis: Muchas organizaciones en todo el mundo están invirtiendo en mejores soluciones que les permitan obtener conocimiento útil a partir de enormes cantidades de datos para lograr una posición líder en el mercado. Según una encuesta sobre tecnologías de la información y líderes empresariales realizada por Gartner [1], el 72 % de las empresas líderes en datos están apostando firmemente en iniciativas dirigidas por los datos y de transformación digital.La adopción de soluciones intensivas en datos puede ser un desafío para muchas empresas y organizaciones debido a la curva de aprendizaje y al conocimiento técnico requerido [2], lo que resulta en una limitación de su aplicabilidad en un rango más amplio de dominios donde se necesita generar conocimiento a partir de los datos importados y almacenados. Por tanto, la búsqueda de mecanismos para facilitar la creación de aplicaciones que favorezcan el análisis de datos radica, principalmente, en eliminar las distintas barreras que actualmente existen para su adopción, como la necesidad de poseer un conocimiento técnico profundo, la configuración avanzada de herramientas para adaptarlas a problemas específicos o la obligación de utilizar un gran número de herramientas dependiendo de las necesidades de cada dominio.El análisis del estado del arte de las aplicaciones intensivas en datos ha permitido identificar la necesidad de facilitar la adopción de este tipo de soluciones por un público más amplio, además de considerar los distintos desafíos a los que los se deben enfrentar [3] para conseguir involucrar al experto del dominio en tareas que hasta ahora solo estaban al alcance del científico de datos o del experto en computación. En este contexto, la democratización de las aplicaciones intensivas en datos no solo implica hacer que haya un mayor número de herramientas disponibles, sino proporcionar mecanismos que permitan crear soluciones listas para usar, interoperables y que requieran muy poca o ninguna configuración [4]. Esta democratización se logrará a través del aumento del nivel de abstracción, ocultando los detalles de bajo nivel relacionados con redes, computación distribuida o lenguajes de programación, de manera que se puedan crear procesos complejos de análisis de datos en múltiples dominios con un esfuerzo limitado.

      2.Contenido de la investigación: Durante el desarrollo de esta tesis doctoral se han investigado mecanismos que facilitan la democratización del desarrollo de aplicaciones intensivas en datos, permitiendo la creación semi-automática de herramientas no-code intensivas en datos adaptadas a dominios específicos [4], reduciendo la necesidad de configuración y de conocimientos específicos en computación. El principal objetivo es dar respuesta a la complejidad existente en el desarrollo de este tipo de aplicaciones mediante la simplificación de su proceso de creación [5]. Así, se favorece que los profesionales de diversos ámbitos, y con diferentes niveles de habilidades tecnológicas, dispongan de herramientas intensivas en datos adaptadas a sus necesidades con un menor esfuerzo y costes reducidos.Para ello, siguiendo los preceptos de la ingeniería del software dirigido por modelos (MDSE, por sus siglas en inglés) [6], se ha diseñado e implementado un lenguaje abstracto de modelado específico de dominio, independiente de cualquier herramienta y notación concreta, denominado SWEL. Al ser agnóstico de herramientas particulares, este lenguaje proporciona flexibilidad y practicidad, permitiendo a los expertos del dominio definir aplicaciones intensivas en datos con un alto nivel de abstracción. Se permite así ocultar los detalles de bajo nivel, facilitando la definición de conceptos complejos y favoreciendo la reutilización del conocimiento en múltiples dominios.También se ha diseñado e implementado una serie de transformaciones de modelos [6] que permiten la interoperabilidad e integración entre las distintas herramientas intensivas en datos actuales, promoviendo un entorno donde estas herramientas puedan trabajar de manera conjunta. Además, se estudiará su aplicabilidad con algunas de las principales herramientas intensivas en datos, como Taverna o Kepler.Tomando los preceptos de MDSE y la especificación de SWEL, se ha diseñado e implementado una herramienta que permite generar herramientas visuales intensivas en datos ya adaptadas a dominios específicos: Workgenesis. Workgenesis se trata de una herramienta low-code especializada en la generación de estas soluciones, que pretende facilitar a los profesionales de distintos dominios la creación de herramientas no-code adaptadas a sus respectivas necesidades, sin requerir conocimientos profundos en desarrollo de software. Para mostrar su practicidad y aplicabilidad, se ha realizado un caso práctico real orientado al ámbito educativo, convirtiendo a profesores y gestores educativos en sus propios científicos de datos.

      3.Conclusión: A través del análisis y desarrollo de Workgenesis, se ha logrado establecer una solución basada en el principio de separación de responsabilidades y en los principios MDSE. Estos principios han permitido proporcionar herramientas altamente especializadas y adaptadas a las necesidades particulares de los científicos de datos y de los expertos del dominio.Uno de los principales logros ha sido la superación de la barrera del conocimiento técnico requerido para la creación y ejecución de aplicaciones intensivas en datos. Workgenesis se enfoca en ser una plataforma accesible y efectiva, permitiendo a expertos del dominio sin formación técnica el desarrollar soluciones software integrales de análisis de datos que les permitan obtener una ventaja competitiva.La capacidad de registrar y adaptar servicios y algoritmos, así como definir la lógica del dominio, es un aspecto fundamental para la creación y generación de herramientas altamente personalizadas. La flexibilidad y configurabilidad de Workgenesis permite la generación de soluciones específicas para cada dominio con un menor esfuerzo del que supondría el desarrollo a medida de una herramienta similar. Por otro lado, la configuración de la metainformación, funcionalidades de la herramienta generada y capacidades del motor de ejecución proporciona un mayor nivel de adaptabilidad, permitiendo a los expertos del dominio disponer de cada herramienta según sus necesidades y preferencias.Este trabajo de tesis abre nuevas líneas de investigación, integrando otras áreas de trabajo como son los grandes modelos de lenguaje (LLM, por sus siglás en inglés) o los nuevos avances en herramientas low-/no-code en el dominio de la ciencia de datos, como AutoML.

      4. Bibliografía: [1] L. Goasduff. Gartner survey finds 72 % of data & analytics leaders are leading or heavily involved in digital transformation initiatives. 2022. https://www.gartner.com/en/newsroom/press-releases/2021-05-05-gartner-finds-72-percent-of-data-and-analytics-leaders-are-leading -or-heavily-involved-in-digital-transformation-initiatives.[2] D. Loshin. Chapter 3 - Achieving organizational alignment for Big Data analytics. In D. Loshin, editor, Big Data Analytics, pages 21-28. Morgan Kaufmann,2013[3] R. Salado-Cid, A. Ramírez, and J. R. Romero. On the Need of Opening the Big Data Landscape to Everyone: Challenges and New Trends, pages 675-687. Springer Berlin Heidelberg, Berlin, Heidelberg, 2018[4] D. Di Ruscio, D. Kolovos, J. de Lara, A. Pierantonio, M. Tisi, and M. Wimmer. Low-code development and model-driven engineering: Two sides of the same coin? Software and Systems Modeling, 21(2):437-446, Apr 2022.[5] R. Waszkowski. Low-code platform for automating business processes in manufacturing. IFAC-PapersOnLine, 52(10):376-381, 2019. 13th IFAC Workshop on Intelligent Manufacturing Systems IMS 2019[6] D. Schmidt. Guest editor's introduction: Model-driven engineering. Computer, 39(2):25-31, 2006


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno