Ir al contenido

Documat


Lenguajes específicos de dominio para la democratización de la minería de datos

  • Autores: Alfonso de la Vega Ruiz
  • Directores de la Tesis: Pablo Sánchez Barreiro (dir. tes.) Árbol académico
  • Lectura: En la Universidad de Cantabria ( España ) en 2019
  • Idioma: español
  • Títulos paralelos:
    • Domain-specific languages for data mining democratisation
  • Tribunal Calificador de la Tesis: María José Aramburu Cabo (presid.) Árbol académico, Carlos Blanco Bueno (secret.) Árbol académico, Vasco Miguel Moreira Amaral (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: UCrea
  • Resumen
    • español

      En la actualidad, los sistemas informáticos recogen grandes cantidades de datos que, si se analizan adecuadamente, pueden resultar de gran ayuda para diferentes fines.

      Por ejemplo, las técnicas de minería de datos se pueden utilizar para descubrir patrones en datos en principio no detectables a simple vista.

      Sin embargo, el uso correcto de estas técnicas requiere del conocimiento de ciertos conceptos muy especializados, como algoritmos de análisis, estadísticas avanzadas o gestión y tratamiento de datos.

      Gran parte de las personas que disponen de datos que les gustaría analizar a menudo carecen de este conocimiento, lo que dificulta la democratización de la minería de datos.

      En esta tesis analizamos si la Ingeniería Dirigida por Modelos (MDE) y los Lenguajes Específicos de Dominio (DSLs) pueden resultar de ayuda para conseguir una efectiva democratización de la minería de datos.

      Estas tecnologías han demostrado su eficacia para proporcionar soluciones adaptadas a cada contexto, fáciles de usar y que resultan familiares para los expertos en un dominio de aplicación.

      Por lo tanto, el uso de estas tecnologías podría contribuir positivamente al objetivo de ampliar el número de personas que pueden aplicar técnicas de minería de datos.

      Nuestro trabajo comenzó con una revisión sistemática del estado del arte en este campo, lo que nos permitió identificar cualquier aspecto a mejorar en los enfoques existentes.

      Algunos de estos aspectos fueron: (1) aquellas soluciones para facilitar el análisis que son completamente independientes del dominio de aplicación pueden presentar problemas de precisión en sus resultados, ya que no tienen en cuenta las especificidades del dominio para configurar los procesos de análisis; y (2) la tarea de facilitar la selección y preparación de los datos que se van a utilizar en un análisis apenas se ha abordado en la literatura.

      A partir de los resultados de esta revisión, nuestro trabajo consistió en el diseño de distintas contribuciones para para proporcionar a los usuarios no expertos diferentes DSLs para la democratización de la minería de datos.

      Una de estas contribuciones es FLANDM: un entorno de desarrollo basado en modelos para la rápida generación de DSLs que permiten realizar análisis de datos adaptados a las especificidades de cada contexto concreto.

      Los DSLs generados con este framework proporcionan a los no expertos una sintaxis basada en consultas para invocar procesos de análisis.

      Estas consultas se formulan combinando comandos de alto nivel con terminología del dominio, ocultando al usuario final cualquier detalle técnico de los procesos ejecutados.

      Adicionalmente, este framework utiliza dos DSLs, Lavoisier y Pinset, que se encargan del proceso de transformar y preparar conjuntos de datos a analizar para que cumplan con los requisitos impuestos por los algoritmos de minería de datos ejecutados.

      Lavoisier ofrece una sintaxis usable por no expertos para seleccionar la información a analizar a partir de un modelo de dominio, que actúa como una representación de alto nivel de los datos disponibles.

      De forma complementaria, Pinset proporciona a usuarios avanzados con conocimientos en programación una serie de construcciones sintácticas potentes para realizar cálculos de datos más complejos, que requieren un control más detallado del proceso de transformación de datos.

      Durante nuestra investigación realizamos diferentes evaluaciones para valorar nuestras contribuciones, por ejemplo, mediante la generación de DSLs para varios dominios.

      Además, llevamos a cabo una serie de experimentos empíricos para determinar si los DSLs generados con FLANDM podrían ser realmente utilizables por personas sin conocimientos sobre técnicas de minería de datos.

      Los resultados de estos experimentos muestran que, tras recibir una formación mínima, la mayoría de estos usuarios fueron capaces de emplear el DSL proporcionado para invocar procesos de minería de datos sobre los datos de su dominio.

    • English

      Currently, computer systems gather large amounts of data that, when properly analysed, can be of great help for different purposes. This analysis is performed by the application of data mining techniques. Nevertheless, the correct usage of these techniques requires sound knowledge in very specialised concepts, such as analysis algorithms, advanced statistics, or data management. People willing to analyse data often lack this knowledge, which hampers data mining democratisation.

      In this thesis, we explored whether Model-Driven Engineering (MDE) and Domain-Specific Languages (DSLs) technologies can be of help to the data mining democratisation field. These technologies have demonstrated their effectiveness to provide domain-adapted solutions, which are easy to use and feel familiar to experts in an application domain. Therefore, the use of these technologies could contribute positively to the goal of enlarging the spectrum of people that can apply data mining techniques.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno