Ir al contenido

Documat


Estaldura zabaleko euskararako analizatzaile sintaktiko estatistikoa

  • Autores: Kepa Xabier Bengoetxea Kortazar
  • Directores de la Tesis: Koldobika Gojenola Galletebeitia (dir. tes.) Árbol académico
  • Lectura: En la Universidad del País Vasco - Euskal Herriko Unibertsitatea ( España ) en 2014
  • Idioma: euskera
  • Tribunal Calificador de la Tesis: Arantza Díaz de Ilarraza Sánchez (presid.) Árbol académico, Miguel Ballesteros Martínez (secret.) Árbol académico, Basilio Sierra Araujo (voc.) Árbol académico, Goiuria Sagardui Mendieta (voc.) Árbol académico, María Aranzazu del Pozo Echezarreta (voc.) Árbol académico
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • Tesi lan honen helburu nagusia da euskararako estaldura zabala izango duendependentzietan oinarritutako analizatzaile sintaktiko estatistikoa sendo batlortzea, eta, xede horretarako, hurrengo eginkizunak burutu dira:- Artearen egoera diren analizatzaile sintaktiko estatistiko sortzaileenjarduteko modua ikasi eta egokienak aukeratzea.- Aukeratutako analizatzaile sintaktiko estatistiko sortzaileak euskararaegokitzeko behar diren oinarrizko elementuak egokitu: zuhaitz-bankua,algoritmo sintaktikoa, ikasketa automatikoa eta ezaugarrien modeloa.- Lehenengo probak zuhaitz-bankuan dauden urre-patroiko ezaugarrimorfosintaktikoekin egin dira. Baina, zuhaitz-bankuko esaldiak analisimorfologiko eta desanbiguatze moduluetatik pasa ostean lortutako ezaugarrimorfosintaktiko automatikoekin analizatzaile sintaktikoa benetako egoerabatean probatuko da.Sistemak egokitu ostean, eta sistema hauen zehaztasuna hobetze aldera, bestehizkuntzekin arrakastatsuak izan diren hainbat teknika euskarara moldatudira:- Zuhaitz-transformazio teknikak, nahiz eta buru-osagarri eta burumodifikatzaileegitura gehienek analisi berdintsua izan dependentziagramatikan,badaude eztabaidagarriak diren egitura asko, besteak beste: aditzlaguntzaileaaditz nagusiaren gobernatzailea izatea edo ez; determinatzailesintagman,determinatzailea burua izatea edo ez; postposizio-sintagman,azken hitza burua izatea edo ez; koordinazioetan, juntagailu edokoordinazioaren lehenengo edo azken osagaia buru izatea edo ez.Erabakitzeko unean teoria ezberdinak aurki daitezke. Etiketatze-teoriadesberdinen eragina aztertzeko, zuhaitz-bankuari aplikatutako aldez aurretikoeta ondorengo prozesaketa ezberdinak azalduko dira: proiektibizaziotransformazioa, sintagmen transformazioa, mendeko perpausentransformazioa eta koordinazioaren transformazioa.- Pilaketa edo stacking teknika: ikasketa denboran, analizatzaile bibateratzeko, lehenengo analizatzailearen irteeran lortutako egituraezaugarriak, bigarren analizatzailearen sarrera aberasteko erabili dira.Euskara buru-azkeneko hurrenkera duen hizkuntza izanik, lehenengoanalizatzailearen irteera ematen duten ezaugarri morfosintaktikoek (numeroa,kasua eta mendeko perpausa bezalakoak) bigarren analizatzailea aberasdezaten, printzipio linguistikoak hartuko dira oinarritzat.- Bozketa bidezko konbinaketa teknika: analizatzaile modelo desberdinenirteerak kontuan hartuko dira, irteera bateratu eta egoki bat lortzekoasmoarekin. Aztergai dauden esperimentuak egite aldera, eta dependentzietanoinarritutako analizatzaileen irteerak bateratzeko, bozketaren bidezkokonbinaketa erabili da. Sortutako oinarrizko sistemen (sistemen egokitzapenagauzatu ostean) eta sistema hedatuen (pilaketa eta zuhaitz-transformazioteknika osagarriak gauzatu ostean) irteerak konbinatu dira aniztasunfaktoreak analisian izan dezakeen eragina probatzeko.- Informazio semantikoaren aberasketa aspalditik, hizkuntzarenprozesamenduan, egitura sintaktikoen desanbiguazioan (hitzen adierendesanbiguazioan, eta bide batez, analizatzaile sintaktikoaren lana hobetzeko),informazio semantikoa erabiltzea pentsatu da. Hizkuntzaren prozesamenduansemantika jorratu ahal izateko ezinbestekoa da ezagutza-base lexikosemantikoak(EBLSak) garatzea. EBLSak hitzei eta adierei buruzkoinformazioa duten baliabide lexikal egituratuak dira. IXA taldean,euskararako EBLSa garatzen den bitartean, ingeleserako garatuta dagoenEBLSa (WordNeta) erabili da. Horrela informazio semantikoak analisisintaktikoan izan dezakeen eragina aztertzeko WordNeteko klase semantikoaketa corpusetik ateratako hitz-multzoak probatu dira


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno