, Oier López de Lacalle Lecuona
, Ainhoa Latatu, Izortze Santin Gomez, 2025, ISBN 978-84-8438-928-6, págs. 125-132In this article, we have developed an automatic evaluator that determines whether texts written in Basque meet theC1 level. To train the system, we used 10,000 transcribed essays obtained through an agreement between HABE and HiTZ. To analyze the potential impact of essay topics, we designed the training in two ways: using texts from only one exam period and using texts from two exam periods. To establish baselines, we trained two Language Models for Basque, RoBERTa and Latxa, and then worked on different techniques to address data scarcity, prevent system overfitting, and improve performance: EDA, SCL, and regularization. Finally, we conducted analyses of different system behaviors to measure model calibration and the impact of artifacts.
Artikulu honetan euskarazko idazlanek C1 maila duten edo ez zehazten duen ebaluatzaile automatiko bat garatu dugu. Sistema elikatzeko HABE eta HiTZ arteko hitzarmenaren bitartez lortutako transkribatutako 10.000 idazlan erabili dira. Idazlanen gaiak eduki dezaketen eragina aztertzeko entrenamenduak bi eratara diseinatu ditugu, epealdi bakarreko testuak bakarrik erabilita eta bi epealdietakoekin. Oinarri lerroak finkatzeko euskarazko bi Hizkuntza Eredu (HE), RoBERTa eta Latxa, ereduak entrenatu ditugu, eta ondoren datu eskasiari aurre egiteko, sistemaren gaindoitzea ekiditeko eta errendimendua hobetzeko teknika ezberdinak landu: EDA, SCL eta erregulazioa. Azkenik, sistema ezberdinen portaeren analisiak burutu ditugu, ereduen kalibrazioa eta artefaktuen eragina neurtzeko.
© 2008-2026 Fundación Dialnet · Todos los derechos reservados