Ir al contenido

Documat


Resumen de Análisis de datos educativos aplicado en el estudio de la incidencia de factores socioeconómicos en el rendimiento escolar

Jorge Iván Pincay Ponce

  • La investigación que corresponde con esta tesis se desarrolló en el campo de la Minería de Datos Educativos, en un sentido más amplio, en la Ciencia Informática aplicada en la Educación. El documento articula el análisis de datos con el problema multifactorial del rendimiento académico en las escuelas.

    Así, el objetivo general es el análisis de la incidencia de los factores socioeconómicos en el aprovechamiento académico a nivel escolar, con la finalidad de contribuir a su entendimiento y mejora, mediante la aplicación de modelos de análisis de datos predictivos o supervisados y descriptivos o no supervisados. También se ha incluido un análisis confirmatorio que tiene relaciones entre sus elementos, a priori sustentados en las exploraciones estadísticas de los datos que anteceden al desarrollo de los modelos supervisados y no supervisados y también a dichos modelos.

    Los datos objeto de estudio corresponden a dos escuelas de Ecuador, dado que la cantidad de datos entre una y otra difería considerablemente no se presenta un análisis comparativo, sino uno con base en la información consolidada que totaliza 6808 instancias o registros de calificaciones y 88 columnas que lo describen. El análisis gira en torno a cada registro de calificaciones y no de cada alumno, porque en el sistema escolar ecuatoriano las bajas calificaciones en una materia, simplificadas como rendimiento académico, pueden llegar a determinar la reprobación del año básico cursado por el alumno.

    El proceso de análisis ejecutado es iterativo, permite ir hacia adelante y hacia atrás entre las fases que lo componen, siempre que resulte necesario tener mejores resultados. Se basa en el ciclo de vida conocido como CRISP-DM, siglas del Proceso Estándar Intersectorial para Minería de Datos. Además, se adicionó algunas prácticas sugeridas en el Proceso Estándar Intersectorial para el Desarrollo de Aplicaciones de Aprendizaje Automático con Metodología de Garantía de Calidad o CRISP-ML (Q), cómo, por ejemplo, cumplir con requisitos que promuevan la calidad de datos, robustez del modelo y evaluación de riesgos, para así aminorar problemas de sesgo, sobreajuste y falta de reproducibilidad de los modelos hacia nuevas escuelas y regiones.

    Se utilizó el modelado predictivo para ayudar a las instituciones educativas con la identificación temprana de los estudiantes con dificultades para sostener su rendimiento académico escolar. Se desarrolló modelos predictivos que utilizan datos de calificaciones, factores socioeconómicos y de comportamiento de los estudiantes, mismos que se han recopilado de sistemas provistos por el Estado y del departamento de orientación estudiantil de las escuelas ecuatorianas. Con ello se buscó clasificar con precisión si un estudiante está en riesgo de reprobar un curso o experimentar problemas en cierta materia del curso. La identificación de patrones de estudiantes en riesgo es de ayuda a los docentes y más actores educativos en la toma de medidas proactivas que favorezcan la participación efectiva en las aulas de clases y en que se aminore las eventuales brechas educativas relacionadas con el rendimiento académico.

    Se recurrió a 13 modelos supervisados, 5 no supervisados y un análisis confirmatorio. La relación entre los resultados obtenidos a partir de ellos guarda consistencia. Los datos fueron estudiados desde cinco ejes (1) Modelos no supervisados, (2) Modelos de clasificación considerando notas intermedias, (3) Modelos de clasificación sin considerar notas intermedias, (4) Modelos de regresión sin considerar notas intermedias y (5) Modelos de clasificación con datos reducidos en su dimensionalidad, balanceados y sin considerar notas intermedias.

    Cuando no se incluyó a las notas intermedias fue porque era de esperar que el promedio final se vea muy influenciado por las calificaciones progresivas de los alumnos, por tanto, la no inclusión de dichas calificaciones ilustra de mejor manera la incidencia de los factores socioeconómicos sobre el rendimiento académico. Existen calificaciones que en el sistema escolar ecuatoriano se registran, pero no condicionan la aprobación del año básico por parte del alumno, estas son el comportamiento de cada alumno y la calificación de su participación en los denominados proyectos escolares, que tienen como finalidad evaluar a las habilidades sociales de los alumnos. Con la reducción de la dimensionalidad se favoreció los tiempos de entrenamiento de los modelos supervisados a la par de prevenir la indisponibilidad de ciertos datos para los análisis posteriores.

    La información resultante de los modelos se combinó con el aporte de la revisión sistemática de la literatura. De modo general, los métodos de ensamblado reportaron los mejores valores en las diversas métricas, entonces, los resultados de las clasificaciones y regresiones logradas son confiables y no casuales, reflejan los patrones en los datos, porque en tales métodos de ensamblado se empleó 50 estimadores basados en árboles de decisión. Como referencia a una métrica, la Exactitud de la clasificación siempre superó el 90% y las regresiones tuvieron una efectividad de hasta el 85% porque las predicciones de promedios en los mejores casos pueden efectuase con un error de hasta 1.5 puntos sobre 10 posibles.

    En esta investigación doctoral, se ha combinado la objetividad de las métricas en las tareas de clasificación y regresión, con la subjetiva pero importante interpretabilidad de los resultados, apoyados en estudios referidos a técnicas de puntuación de características y su respectiva ilustración visual, con ello se ha pretendido que los modelos resulten interpretables por los usuarios posibles al tiempo de fortalecer su confianza en las decisiones de los modelos de las instituciones escolares.

    Parte de los resultados obtenidos muestran que los alumnos que no alcanzan los aprendizajes requeridos, es decir, que obtienen las calificaciones más bajas posibles, tienen como tendencia a un padre en estado civil de unión libre, un bajo número de hermanos, suelen presentar alguna discapacidad, su comportamiento en principio es A o el más alto, pero tiende a bajar conforme avanza el periodo lectivo, en sus proyectos escolares tienen una muy buena calificación B pero que no es la mejor A, su padre suele tener una ocupación laboral informal (por ejemplo, guardia de seguridad), el ingreso familiar suele ser bajo y también suelen vivir en familias reconstruidas.

    A futuro, estudios como el presente pueden ser fortalecidos con la incorporación de más escuelas de distintas regiones para obtener un abordaje más significativo por disponer de más datos y así producir resultados más fiables y extrapolables.


Fundación Dialnet

Mi Documat