Ir al contenido

Documat


Evaluación asistida por inteligencia artificial generativa en prácticas de Ingeniería de Software: una prueba de concepto

  • Francisco José García-Peñalvo [1] Árbol académico ; Marc Alier-Forment [2] Árbol académico ; Andrea Vázquez-Ingelmo [1] ; Alicia García-Holgado [1] Árbol académico ; María José Casañ-Guerrero [2] ; Juanan Pereira [3]
    1. [1] Universidad de Salamanca

      Universidad de Salamanca

      Salamanca, España

    2. [2] Universitat Politècnica de Catalunya

      Universitat Politècnica de Catalunya

      Barcelona, España

    3. [3] Universidad del País Vasco/Euskal Herriko Unibertsitatea

      Universidad del País Vasco/Euskal Herriko Unibertsitatea

      Leioa, España

  • Localización: RIED: revista iberoamericana de educación a distancia, ISSN 1138-2783, Vol. 29, Nº 2, 2026 (Ejemplar dedicado a: La universidad ante la IA generativa: Veracidad, docencia y evaluación)
  • Idioma: español
  • Títulos paralelos:
    • Generative artificial intelligence-assisted assessment in Software Engineering assignments:: A proof of concept
  • Enlaces
  • Resumen
    • español

      La irrupción de la inteligencia artificial generativa (GenAI) está transformando la evaluación en la educación superior y plantea desafíos específicos en asignaturas técnicas con proyectos complejos. Este trabajo presenta un asistente de evaluación basado en GenAI como prueba de concepto aplicado al hito de proyecto de la asignatura Ingeniería del Software I (Grado en Ingeniería Informática, Universidad de Salamanca). El sistema se despliega en infraestructura local y combina un pipeline multimodal para procesar memorias en PDF (incluyendo texto y diagramas de casos de uso) con un flujo de prompts alineado con la rúbrica de la asignatura. A partir de los documentos, el asistente extrae objetivos, requisitos y casos de uso; analiza su coherencia (trazabilidad e integridad); aplica la rúbrica para asignar calificaciones; y genera un informe cuantitativo y cualitativo para cada grupo. El estudio compara las notas propuestas por la IA con las otorgadas por el profesorado en 14 entregas del curso 2023-2024. Los resultados muestran una tendencia sistemática de la IA a calificar aproximadamente 1 punto por debajo de la media humana, con convergencia en algunos criterios (p. ej., requisitos no funcionales) y divergencia en otros (objetivos, casos de uso, matrices de trazabilidad), donde la IA aplica una lógica cercana a estándares profesionales. Estas diferencias resultan complementarias al juicio docente y permiten una evaluación más rica y transparente. Se discuten implicaciones éticas y pedagógicas del enfoque y se proponen líneas de trabajo futuro centradas en el refinamiento de los prompts y en la evaluación prospectiva en nuevas cohortes.

    • English

      The emergence of generative artificial intelligence (GenAI) is transforming assessment in higher education and poses specific challenges in technical subjects with complex projects. This work presents a proof-of-concept GenAI-based assessment assistant applied to the milestone of the project in the Software Engineering I subject (Bachelor’s Degree in Computer Engineering, University of Salamanca). The system is deployed on local infrastructure and combines a multimodal pipeline to process PDF reports (including text and use case diagrams) with a flow of prompts aligned with the subject’s rubric. Based on the generated documents, the assistant extracts objectives, requirements, and use cases; analyses their coherence (traceability and completeness); applies the rubric to assign ratings to each criterion; and synthesizes a final quantitative and qualitative report for each group. The study compares the marks proposed by the AI with those awarded by the teaching staff in 14 assignments from the 2023-2024 academic year. The results show a systematic tendency for the AI to mark approximately 1 point below the human average, with high convergence in some criteria (e.g., well-defined non-functional requirements) and divergence in others (e.g., objectives, use cases, traceability matrices), where the AI applies a logic closer to professional standards. Far from being interpreted as a failure, these differences reveal themselves as complementary to teaching judgment and allow for richer, more transparent, formative assessment. The ethical and pedagogical implications of the approach are discussed, and future work focuses on refining prompts and evaluating the system in new cohorts.

  • Referencias bibliográficas

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno