Extracting terminology from Wikipedia

Vivaldi Palatresi, Jorge; Rodríguez Hontoria, Horacio

Extracting terminology from Wikipedia

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/18514

Información del item - Informació de l'item - Item information
Título:	Extracting terminology from Wikipedia
Título alternativo:	Extracción de terminología a partir de la Wikipedia
Autor/es:	Vivaldi Palatresi, Jorge \| Rodríguez Hontoria, Horacio
Palabras clave:	Extracción de términos \| Wikipedia \| Term extraction \| Term recognition
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	sep-2011
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	VIVALDI, Jorge; RODRÍGUEZ, Horacio. “Extracting terminology from Wikipedia”. Procesamiento del Lenguaje Natural. N. 47 (2011). ISSN 1135-5948, pp. 65-73
Resumen:	En este artículo presentamos una aproximación novedosa para obtener la terminología de un dominio utilizando las estructuras de páginas y categorías de Wikipedia de una forma independiente del dominio y de la lengua. La idea es aprovechar el grafo de categorías de Wikipedia a partir de un conjunto de categorías que asociamos con el dominio. Después de obtener las categorías del dominio seleccionado se extraen las páginas correspondientes con ciertas restricciones. El conjunto resultante de páginas y categorías se seleccionan como vocabulario inicial del dominio. Comparamos los resultados obtenidos mediante un modulo de un extractor híbrido, YATE y su equivalente que utiliza la Wikipedia. El resultado muestra que este recurso puede utilizarse para esta tarea. Aplicamos esta aproximación a cuatro dominios (astronomía, química, economía y medicina) y dos idiomas (inglés y castellano). \| In this paper we present a new approach for obtaining the terminology of a given domain using the category and page structures of the Wikipedia in a domain and language independent way. The idea is to take profit of category graph of Wikipedia starting with a set of categories that we associate with the domain. After obtaining the full set of categories belonging to the selected domain, the collection of corresponding pages is extracted, using some constraints. The set of titles of recovered pages and categories is selected as initial domain term vocabulary. The system has been evaluated substituting by it the term candidates analyzer module of an state-of-the-art term extractor, YATE. The results show that this resource may be used for this task overcoming some of the limitations of alternative knowledge sources. This approach has been applied to three domains (astronomy, chemistry, economics and medicine) and two languages (English and Spanish).
URI:	http://hdl.handle.net/10045/18514
ISSN:	1135-5948
Idioma:	eng
Tipo:	info:eu-repo/semantics/article
Revisión científica:	si
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 47 (2011)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_47_07.pdf		1,07 MB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo