Ir al contenido

Documat


Una aproximación basada en corpus para la detección del foco geográfico en el texto

  • Autores: Fernando S. Peregrino Torregrosa, David Tomás Díaz Árbol académico, Fernando Llopis Pascual Árbol académico
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 50, 2013, págs. 69-76
  • Idioma: español
  • Enlaces
  • Resumen
    • español

      El foco geográfico de un documento identifica el lugar o lugares en los que se centra el contenido del texto. En este trabajo se presenta una aproximación basada en corpus para la detección del foco geográfico en el texto. Frente a otras aproximaciones que se centran en el uso de información puramente geográfica para la detección del foco, nuestra propuesta emplea toda la información textual existente en los documentos del corpus de trabajo, partiendo de la hipótesis de que la aparición de determinados personajes, eventos, fechas e incluso términos comunes, pueden resultar fundamentales para esta tarea. Para validar nuestra hipótesis, se ha realizado un estudio sobre un corpus de noticias geolocalizadas que tuvieron lugar entre los años 2008 y 2011. Esta distribución temporal nos ha permitido, además, analizar la evolución del rendimiento del clasificador y de los términos más representativos de diferentes localidades a lo largo del tiempo.

    • English

      The geographical focus of a document identifies the relevant locations mentioned in text. This paper presents a corpus-based approach to detecting the geographical focus in documents. Despite other approaches focused on using solely geographical information, our proposal employs all the textual information included in the corpus under the assumption that the presence of particular names of persons, events, and even common terms can definitely help to solve this task. In order to validate our hypothesis, a study was carried out on a corpus of georeferenced news that took place between 2008 and 2011. Moreover, this temporal distribution allowed to carry out a study on the evolution of the performance of the classifier and the most representative terms for different locations over time.

  • Referencias bibliográficas
    • Amitay, Einat, Nadav Har’El, Ron Sivan, y Aya Soffer. 2004. Web-a-where: geotagging web content. En Proceedings of the 27th annual international...
    • Anastácio, Ivo, Bruno Martins, y Pável Calado. 2009a. Classifying documents according to locational relevance. En Progress in Artificial Intelligence,...
    • Anastácio, Ivo, Bruno Martins, y Pável Calado. 2009b. A comparison of different approaches for assigning geographic scopes to documents. En...
    • Buscaldi, Davide y Paulo Rosso. 2008. A conceptual density-based approach for the disambiguation of toponyms. Int. J. Geogr. Inf. Sci., 22(3):301–313,...
    • Chang, Chih-Chung y Chih-Jen Lin. 2011. Libsvm: A library for support vector machines. ACM Trans. Intell. Syst. Technol.,2(3):27:1–27:27,...
    • Clough, Paul, Jiayu Tang, Mark M Hall, y Amy Warner. 2011. Linking archival data to location: a case study at the uk national archives. ASLIB...
    • Daelemans, Walter y Antal van den Bosch. 2009. Memory-Based Language Processing. Cambridge University Press, New York, NY, USA, 1st edici´on.
    • Fan, Rong-En, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang, y Chih-Jen Lin. 2008. Liblinear: A library for large linear classification. J....
    • Leidner, Jochen Lothar. 2007. Toponym Resolution in Text: Annotation, Evaluation and Applications of Spatial Grounding of Place Names. Ph.D....
    • Martins, Bruno y M. J. Silva. 2005. A graphranking algorithm for geo-referencing documents. En Jiawei Han y Et Al.Editor, editores, Fifth...
    • Qin, Teng, Rong Xiao, Lei Fang, Xing Xie, y Lei Zhang. 2010. An efficient location extraction algorithm by leveraging web contextual information....
    • Witten, Ian H. y Eibe Frank. 2005. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, San Francisco, 2 edición.
    • Woodruff, Allison Gyle y Christian Plaunt. 1994. Gipsy: automated geographic indexing of text documents. Journal of the American Society for...
    • Yang, Yiming y Jan O. Pedersen. 1997. A comparative study on feature selection in text categorization. En ICML ’97, páginas 412–420, San Francisco,...
    • Ye, Mao, Rong Xiao, Wang-Chien Lee, y Xing Xie. 2011. Location relevance classification for travelogue digests. En WWW ’11, páginas 163–164,...

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno