Paula Ontalvilla Gutiérrez, Aitziber Atutxa Salazar , Maite Oronoz Anchordoqui
This work has a double objective: on the one hand, it identifies named entities using language models based on transformers and, on the other hand, it links the identified clinical entities with the diseases and symptoms of the Wikidata knowledge base. To identify the entities, experiments have been performed on the MedMentions biomedical corpus with a generalpre-trained language moden BERT (BERT small) and two specialised BERTs ̃ (BiomedNLP-PubMedBERT and BioBERT). When assessing whether a succession of tokens constitutes a medical entity, an F1 value of 0.819 was obtained, while assessing the specific class to which the entity belongs, an F1 value of 0.62 was obtained. In addition, a recall close to 50% has been achieved in the first attempt to associate Wikidata to known entities using the Levenhstein distance.
Lan honek helburu bikoitza du: alde batetik, transformerretan oinarritutako hizkuntza-ereduak erabiliz medi- kuntzaren alorreko entitate izendunen identifikazioa egiten du, eta bestetik, identifikatutako entitate klinikoak Wikidata ezagutza-baseko gaixotasunekin eta sintomekin lotzen ditu. Entitateak ezagutzeko, biomedikuntzako MedMentions corpusaren gainean, aldez aurretik entrenatutako BERT hizkuntza-eredu orokor batekin (BERT small) eta bi BERT espezializaturekin (BiomedNLP-PubMedBERT eta BioBERT) egin dira esperimentuak. Token segida batek medikuntzako entitate bat osatzen ote duen ebaluatu denean, 0,819ko F1 balioa lortu da, eta entitatea zein klase zehatzetakoa den ebaluatu denean, 0,62ko F1 balioa. Gainera, Levenhstein distantzia erabiliz ezagututako entitateak Wikidatarekin lotzeko lehenengo saiakeran %50 inguruko estaldura lortu da.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados