Miguel Á. Alonso , Jesús Vilares
La extracción de los términos que caracterizan un documento es una tarea de vital importancia en el desarrollo de sistemas de Recuperación de Información En este articulo proponemos la utilización de análisis sintáctico superficial, implementado mediante cascadas de traductores finitos, para la extracción de términos índice complejos en base a una gramática aproximada del español que si bien es incompleta permite obtener adecuadamente las palabras involucradas en las dependencias sintácticas más importantes La efectividad de los términos extraídos ha sido evaluada en la colección CLEF de textos en español.
The extraction of the keywords that characterize a document in a given collection is one of the most important components of an Information Retrieval system. In this article, we propose to apply shallow parsing, implemented by means of cascades of finite-state transducers, to extract complex index terms based on an approximated grammar of Spanish. The coverage of the grammar is small but it allows us to extract the words involved in the most relevant syntactic dependencies. The effectiveness of the extracted index terms has been evaluated in the CLEF collection of Spanish texts.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados