Minería de datos sobre objetos de aprendizaje

Pedro González Espejo

Ayuda

Minería de datos sobre objetos de aprendizaje

Autores: Pedro González Espejo
Directores de la Tesis: Cristóbal Romero Morales (dir. tes.) , Eva Gibaja Galindo (dir. tes.)
Lectura: En la Universidad de Córdoba (ESP) ( España ) en 2020
Idioma: español
Tribunal Calificador de la Tesis: Sebastián Ventura Soto (presid.) , Rebeca Cerezo Menéndez (secret.) , Juan Alfonso Lara Torralbo (voc.)
Enlaces
- Tesis en acceso abierto en: Helvia
Resumen
- 1. introducción o motivación de la tesis La minería de datos (Fayyad et al., 1996; Han y Kamber, 2011; Tan et al., 2018) es un campo muy amplio dentro del área de computación y que acoge gran cantidad de métodos y técnicas para la obtención de conocimiento a partir de bases de datos.
  
  En los últimos años está cobrando mucha importancia la educación a través de internet (e-learning) (López et al., 2012). Son muy numerosos los planteamientos metodológicos y herramientas que están surgiendo que se basan en el aprovechamiento de las ventajas que ofrecen las tecnologías web para apoyar y potenciar la docencia.
  
  Pero aunque se están dedicando numerosos e importantes esfuerzos al desarrollo de herramientas y recursos de e-learning, es mucho menor el esfuerzo y la atención que se han dedicado al análisis de dichas herramientas y recursos. Es muy importante analizar la utilidad y uso de estos recursos de e-learning para aprender acerca de su impacto real en la docencia y para poder disponer de indicadores que permitan mejorar el desarrollo de dichos elementos. Para llevar a cabo análisis de los recursos de e-learning desde diferentes perspectivas surge de manera natural la idea de aplicar técnicas de minería de datos, dando lugar a lo que se conoce como minería de datos educativa (MDE o EDM - educational data mining, en inglés; ver Romero y Ventura, 2010).
  
  La hipótesis en la que se basa la utilidad de esta investigación es que hay técnicas de minería de datos que pueden ayudarnos a entender la utilidad de los recursos de e-learning y obtener conocimiento acerca de dichos recursos, lo que permitirá medir el impacto del uso de estos recursos y diseñar mejores recursos en el futuro.
  
  El objetivo general de esta tesis es proponer una metodología que permita recomendar de manera automática las categorías a las que pertenece un objeto de aprendizaje (OA), es decir, un recurso de e-learning, que se añade a un repositorio. Esto permitirá facilitar y mejorar la categorización de OA añadidos a un repositorio y en consecuencia facilitará la posterior búsqueda por parte de los usuarios de OA que se adecúen a sus necesidades.
  
  2.contenido de la investigación Para lograr el objetivo descrito al final de la anterior sección se llevó a cabo una primera investigación centrada principalmente en estudiar si es posible llevar a cabo una selección de atributos que describen a los OA, de forma que la aplicación de algoritmos de clasificación resultara más eficiente. Esta investigación preliminar fue refrendada con la aportación de una comunicación a un congreso internacional (González et al., 2017) que permitió establecer las bases para un estudio más detallado.
  
  Se procedió después (Espejo et al., 2017) por lo tanto a ampliar el anterior estudio para comprobar la validez de tres hipótesis: • H1: Si seleccionamos de manera adecuada el número de atributos que describen cada OA podremos reducir el tiempo de aprendizaje sin comprometer la calidad del mismo.
  
  • H2: Si a la hora de etiquetar un nuevo OA al añadirlo a un repositorio nos fijamos en otros OA similares ya existentes en el repositorio, éstos pueden sugerirnos categorías a las que posiblemente pertenezca el nuevo OA.
  
  • H3: Si comparamos los diferentes algoritmos de aprendizaje multietiqueta utilizando varias medidas de calidad, podremos determinar qué algoritmo o conjunto de algoritmos proporcionan un mejor rendimiento para el tipo de datos que nosotros manejamos.
  
  Así pues, se siguió un enfoque basado en tres experimentos consecutivos. En primer lugar se analizó el efecto que tiene la reducción del número de atributos que describen a los OA, ampliando el número de métricas de calidad frente a las utilizadas en la investigación preliminar previamente citada. Una vez identificado el subconjunto de atributos más relevante que permite clasificar los OA sin que se produzca una pérdida significativa de la calidad de clasificación se llevó a cabo un segundo experimento en el que se determinó hasta qué punto la información relativa al uso previo de los OA puede mejorar la calidad de clasificación de los mismos. Finalmente, se llevó a cabo un tercer experimento en el que, utilizando los atributos seleccionados en el primer experimento y la información de uso más relevante identificada en el segundo experimento, se pasó a identificar qué algoritmos de clasificación son los que mejores resultados ofrecen a la hora de categorizar los OA.
  
  3.conclusión El trabajo realizado en el desarrollo de esta tesis nos ha permitido verificar las tres hipótesis recogidas en la sección anterior.
  
  • Hemos comprobado que, efectivamente, es posible reducir el número de atributos de contenido que describen los OA sin que esto perjudique la calidad de clasificación. En nuestro caso, hemos logrado un nivel de reducción muy considerable, desde los 1336 atributos originales hasta 250.
  
  • Hemos comprobado que, efectivamente, podemos mejorar la calidad de clasificación añadiendo al conjunto de datos información relativa al uso que se ha hecho en el pasado de OA similares a uno nuevo que se vaya a añadir al repositorio. En nuestro caso, hemos podido mejorar la calidad de clasificación añadiendo información de uso acumulada a lo largo de un periodo de dos años.
  
  • Hemos comprobado que, efectivamente, podemos distinguir un grupo de algoritmos de clasificación multietiqueta que son los que mejores resultados ofrecen a la hora de categorizar los OA. Para nuestros datos, el algoritmo que mejor funciona es ECC, aunque hay otros que tienen un nivel de rendimiento que no es significativamente peor: CC, EPS, CLR y RAkEL.
  
  4. bibliografía Espejo, P. G., Gibaja, E., Menéndez, V. H., Zapata, A., & Romero, C. Improving Multi-Label Classification for Learning Objects Categorization by Taking into Consideration Usage Information. Journal of Universal Computer Science. Volumen 25 (Issue 13): 1687-1716. 2019.
  
  Fayyad, U. M.; Piatetsky-Shapiro, G.; Smyth, P. 1996. From data mining to knowledge discovery in databases. AI Magazine, 17 (3), 37-54.
  
  González, P., Gibaja, E. Zapata, A., Menéndez, V. H., Romero, C. Towards Automatic Classification of Learning Objects: Reducing the Number of Used Features, EDM 2017. 394-395. Wuhan, China, 25-28/06/2017.
  
  Han, J., Kamber, M. Data Mining - Concepts and Techniques (3rd ed.) Morgan Kaufmann, 2011.
  
  López, V. F., de la Prieta, F., Ogihara, M., Wong, D. D. 2012. A model for multi-label classification and ranking of learning objects. Expert Systems with Applications, 39(10), 8878-8884.
  
  Romero, C., Ventura, S. 2010. Educational data mining: a review of the state of the art. IEEE Transactions on Systems, Man, and Cybernetics, 40 (6), 601-618.
  
  Tan, P.-N., Steinbach, M., Karpatne, A., Kumar, V. Introduction to Data Mining (2nd ed.) Pearson, 2018.