Ir al contenido

Documat


Resumen de Eusko legebiltzarreko eztabaida saioak ParlaMint 4.0 proiektuan txertatzen

Jon Alkorta Agirrezabala, Mikel Iruskieta Quintian, Kike Fernández de Pinedo, Manex Agirrezabal Zabaleta, Ekain Arrieta Franco, Rodrigo Agerri Gascón Árbol académico

  • English

    In this work, we present the corpus of debate sessions of the Basque Parliament. The corpus is part of the Parla- Mint 4.0 project and includes textual data from 2015 to 2022. In order to create the corpus, the transcripts of the debate sessions have been handed over to us by the Basque Parliament, and with the approval of the parliament, we have done all the tasks required of ParlaMint. First of all, the transcripts are converted into ParlaMint’s XML TEI format. Then, these transcripts are enriched with extra information, such as, the author names and the language of each sentence. In addition, another metadata document is created with the data of the Basque Parliament (year of establishment, website, address, name in three languages, etc.), political parties (year of establishment, acronym, website, political orientation, etc.) and members of parliament (surnames, year of birth, political affiliation, gender, city, etc.). Finally, we conducted a linguistic analysis of the corpus. The corpus consists of 13,321,393 words, and it is available for further research on the KonText, TEITOK and NoSketch Engine websites.

  • euskara

    Lan honetan, Eusko Legebiltzarreko eztabaida saioen corpusa aurkezten dugu. Corpusa ParlaMint 4.0 proiektuaren parte da, eta 2015etik 2022ra bitarteko datuak biltzen ditu. Corpusa sortu ahal izateko, eztabaida saioen transkripzio dokumentuak laga dizkigu Eusko Legebiltzarreko mahaiak, eta Legebiltzarreko mahaiaren oniritziarekin ParlaMinten eskatzen ziren ataza guztiak egin ditugu. Lehendabizi, transkripzio edo datuak ParlaMinteko XML TEI formatuan jarri dira. Ondoren, transkripzio horiek hainbat informazioz aberastu ditugu: hizketaldien egileak, esaldi bakoitzaren hizkuntza, besteak beste. Horrez gain, metadatuen beste dokumentu bat ere eratu dugu; bertan, Eusko Legebiltzarraren (sorrera urtea, webgunea, helbidea, izena hiru hizkuntzetan...), alderdi politikoen (sorrera urtea, sigla, webgunea, orientazio politikoa...) eta legebiltzarkideen datuekin (izen-abizenak, jaiotza urtea, afiliazio politikoa, generoa, hiria...). Bukatzeko, osatu dugun corpusaren analisi linguistikoa egin dugu. Corpusak 13.321.393 hitz ditu, eta ikertzaileek aztertzeko prest dago KonText, TEITOK eta NoSketch Engine webguneetan.


Fundación Dialnet

Mi Documat