Arantxa Otegi Usandizaga , Eneko Agirre Bengoa , Xabier Arregi Iparragirre
Informazioaren berreskurapena (lB) erabiltzai le baten informazio-beharra aseko duten dokumentuak bilatzean datza. Beraz, lB sistemak erabiltzai leari laguntza emango dio dokumentu adierazgarriak, alegia, erabi ltza ileak behar duen informazioa eduki dezaketen dokumentuak , topatzeko . Horretarako, erabi ltzaileak egindako kontsultan oinarritzen gara. Kontsu ltaren eta dokumentuen arteko parekatze arazoa deiturikoa da lB sistemek aurre egin behar dioten arazo nagusienetako bat: dokumentu bat kontsulta baterako ad ierazgarria izan daiteke, nahiz eta bietan erabilitako hitzak guztiz berdinak ez izan, eta, alderantziz, dokumentu bat ezadierazgarria izan daiteke kontsulta baterako, nahiz eta termino komun batzuk eduki. Arazo hauek hitzen sinonimiaren eta anbiguotasunaren kausaz gertatzen dira. Lan honetan, kontsulten eta dokumentuen hedapenak egin eta aurre egingo diogu parekatze arazoari, hizkuntzaren prozesamenduko hitzen adiera-desanbiguazioa eta ahaidetasun semantikoa erabiliz. Hiru datu multzotan egindako esperimentu eta analisiek erakusten dute proposatutako hedapen-metodoek parekatze arazoari aurre egiteko balio dutela eta, ondorioz, baita lB sistemaren erag inkortasuna hobetzeko ere.
lnformation retrieval (IR) aims at searching documents which satisfy the information need of an user. In that way, an IR system informs the user about relevant documents , that is those documents that contain the information they need as formulated in the query. One of the main problems is the so-called vocabulary mismatch problem between query and documents: sorne documents might be relevant to the query e ven if the specific terms used differ substantia ll y, or so me documents might not be relevant to the query even if they have some terms in common. The former is because severa! words or phrases can be used to express the same idea or item (synonymy).
The latter is caused by ambiguity, where one word can have more than one interpretation dependi ng on the context. In this work, we expand queries and documents making use of two NLP techn iques , word sense disambiguation and semantic relatedness. Our extensive experiments on three datasets show that the expansion methods explored in this dissertation help overcome the mismatch problem, consequently improving the effectiveness of an IR system.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados