Ir al contenido

Documat


An Unsupervised Algorithm for Person Name Disambiguation in the Web

  • Autores: Agustín D. Delgado, Raquel Martínez Unanue Árbol académico, Soto Montalvo Herranz Árbol académico, Víctor Fresno Fernández Árbol académico
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 53, 2014, págs. 51-58
  • Idioma: inglés
  • Títulos paralelos:
    • Algoritmo no Supervisado para Desambiguacion de Nombres de Personas en la Web
  • Enlaces
  • Resumen
    • español

      En este trabajo presentamos un sistema no supervisado para agrupar los resultados proporcionados por un motor de búsqueda cuando la consulta corresponde a un nombre de persona compartido por diferentes individuos. Las páginas web se representan mediante n-gramas de diferente información y tamaño. Además, proponemos un algoritmo de clustering capaz de calcular el número de clusters y devolver grupos de páginas web correspondientes a cada uno de los individuos, sin necesidad de entrenamiento ni umbrales predefinidos, como hacen los mejores sistemas del estado del arte en esta tarea. Hemos evaluado nuestra propuesta con tres colecciones de evaluación propuestas en diferentes campañas de evaluación para la tarea de Desambiguación de Personas en la Web. Los resultados obtenidos son competitivos y comparables a aquellos obtenidos por los mejores sistemas del estado del arte que utilizan algún tipo de supervisión.

    • English

      In this paper we present an unsupervised approach for clustering the results of a search engine when the query is a person name shared by different individuals. We represent the web pages using n-grams, comparing different kind of information and different length of n-grams. Moreover, we propose a new clustering algorithm that calculates the number of clusters and establishes the groups of web pages according to the different individuals, without the need of any training data or predefined thresholds, as the successful state of the art systems do. Our approach is compared with three gold standard collections compiled by different evaluation campaigns for the task of Web People Search. We obtain really competitive results, comparable to those obtained by the best approaches that use annotated data.

  • Referencias bibliográficas
    • Andrade, M.A. and A. Valencia. 1998. Automatic extraction of keywords from scientific text: application to the knowledge domain of protein...
    • Artiles, J. 2009. Web People Search. PhD Thesis, UNED University.
    • Artiles, J., J. Gonzalo, and S. Sekine. 2007. The SemEval-2007 WePS Evaluation: Establishing a Benchmark for the Web People Search Task. In...
    • Artiles, J., E. Amig´o, and J. Gonzalo. 2009a. The Role of Named Entities in Web People Search. In Proceedings of the 2009 Conference on Empirical...
    • Artiles, J., J. Gonzalo, and S. Sekine. 2009b. Weps 2 Evaluation Campaign: Overview of the Web People Search Clustering Task. In 2nd Web People...
    • Artiles, J., A. Borthwick, J. Gonzalo, S. Sekine, and E. Amig´o. 2010. WePS-3 Evaluation Campaign: Overview of the Web People Search Clustering...
    • Bagga, A. and B. Baldwin. 1998. Entity-Based Cross-Document Coreferencing Using the Vector Space Model. In Proceedings of the 36th Annual...
    • Balog, K., J. He, K. Hofmann, V. Jijkoun, C. Monz, M. Tsagkias,W.Weerkamp, and M. de Rijke. 2009. The University of Amsterdam at WePS-2. In...
    • Chen, Y. and J. Martin. 2007. CU-COMSEM: Exploring Rich Features for Unsupervised Web Personal Named Disambiguation. In Proceedings of the...
    • Chen, Y., S. Yat Mei Lee, and C. Huang. 2009. PolyUHK: A Robust Information Extraction System for Web Personal Names. In 2nd Web People Search...
    • Elmacioglu, E., Y. Fan Tan, S. Yan, M. Kan, and D. Lee. 2007. PSNUS: Web People Name Disambiguation by Simple Clustering with Rich Features....
    • Fujiwara, Y., G. Irie, and T. Kitahara. 2011. Fast Algorithm for Affinity Propagation. In Proceedings of the Twenty-Second International Joint...
    • Lana-Serrano, S., J. Villena-Rom´an, and J.C. González-Cristóbal. 2010. Daedalus at WebPS-3 2010: k-Medoids Clustering using a Cost Function...
    • Liu, Z., Q. Lu, and J. Xu. 2011. High Performance Clustering for Web Person Name Disambiguation using Topic Capturing. In International Workshop...
    • Long, C. and L. Shi. 2010. Web Person Name Disambiguation by Relevance Weighting of Extended Feature Sets. In Third Web People Search Evaluation...
    • Mann, G.S. 2006. Multi-Document Statistical Fact Extraction and Fusion. PhD thesis, Johns Hopkins University, Baltimore, MD, USA. AAI3213760.
    • Manning, C.D., P. Raghavan, and H. Schütze. 2008. Introduction to Information Retrieval. Cambridge University Press, New York, USA.
    • Popescu, O. and B. Magnini. 2007. IRSTP: Web People Search Using Name Entities In Proceedings of the 4th International Workshop on Semantic...
    • Wilcoxon, F. 1945. Individual Comparisons by Ranking Methods, 1(6). Biometrics Bulletin.

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno