Desambiguación de nombres de persona en la web en un contexto multilingüe

Agustín D. Delgado

Ayuda

Desambiguación de nombres de persona en la web en un contexto multilingüe

Autores: Agustín D. Delgado
Directores de la Tesis: Raquel Martínez Unanue (dir. tes.) , Soto Montalvo Herranz (dir. tes.)
Lectura: En la UNED. Universidad Nacional de Educación a Distancia ( España ) en 2016
Idioma: español
Tribunal Calificador de la Tesis: Luis Alfonso Ureña López (presid.) , Enrique Amigó (secret.) , Alexandra Balahur Dobrescu (voc.)
Enlaces
- Tesis en acceso abierto en: e-spacio (pdf) e-spacio
Resumen
- español
  Esta tesisdoctoral trata la desambiguación de nombres de personas en la Web.Es- te problema puede describirse de la siguiente manera: dado el ranking de resultados devuelto por un motor de búsqueda tras consultar un nombre de persona,el objetivo consiste en agrupar los resultados debúsqueda de manera que cada grupo esté formado por las páginas web que hablan de un mismo individuo. Los motores de búsqueda más populares ofrecen pocas herramientas de desambiguación de este tipo de consultas, aunque sus estadísticas de us oreflejan que son muy frecuentes. Por este motivo,en los últimos años han surgido varias start-ups que ofrecen un servicio especializado de búsqueda de personas en Internet. Además,la comunidad científica ha mostrado interés en este problema por varias razones. Por un lado,los nombres de persona son un tipo de entidades nombradas especialmente ambiguo y,por este motivo, su desambiguación ha sido estudiada en diferentes contextos. Por otro lado,el escenario de búsqueda en la Web presenta varios retos:(i)las páginas web no tratan una temática determinada debido a su naturaleza heterogénea;(ii) la Web alberga cada vez más contenido en distintos idiomas debido a su naturaleza multilingüe; y (iii)la búsqueda en la Web requiere métodos poco costosos debido a que los usuarios de los motores de búsquedas esperan resolver sus consultas en muy pocot iempo. Por tanto, nos encontramos ante un problema real que ha suscitado el interés de la comunidad científica. La desambiguación de nombres de personas en la Web ha sido tratada en el estado del arte como un problema de clustering compuesto por dos fases principales.El objetivo de la primera fase consiste en representar los resultados de búsqueda mediante rasgos adecuados que sean de utilidad a la hora de identificar y distinguir a distintos individuos con el mismo nombre. Por otro lado,la segunda fase consiste en aplicar un algoritmo de clustering para agrupar las páginas web de acuerdo al individuo que mencionan. En particular,los mejores sistemas del estado del arte emplean una representación de los resultados de búsqueda consistente en una rica selección de rasgos de distinto tipo y agrupan las páginas web mediante un algoritmo de agrupamiento jerárquico aglomerativo tras haber aprendido previamente el valor de un cierto umbral de similitud mediante datos de entrenamiento.
- English
  This thesis addresses person name disambiguation on the Web. This problem can be described as follows: given a web pages ranking retrieved by a search engine when looking for a person name,the goal is to group properly the search results, so each group contains all the search results which refer to the same individual. The most popular search engines provide little disambiguation tools for this kind of queries, although their usage statistics show that they are very frequent. Because of this, several start- ups offer specialized services in people search on the Web. In addition, the scientific community has shown interest in this problem for several reasons. On the one hand, person name disambiguation has been studied in several contexts due to person names are an especially ambiguous kind of name identities. On the other hand, the search scenario on the Web presents several challenges:(i) web pages do not treat a specific topic because of its heterogeneous nature;(ii) the Web increasingly hosts web pages written in different languages because of its multilingual nature; and(iii) the Web search scenario requires efficient methods due to users expect quick responses. Therefore, this is a real problem that has aroused the interest of the scientific community due to its characteristics. Person name disambiguation has been dealt as a clustering problem composed by two main phases. The goal of the first phase is to represent the search results by means of suitable features to identify and distinguish different individual with the same name.On the other hand, the goal of the second phase is to apply a clustering algorithm to group the web pages according to the individual they refer to. In particular,the best systems of the state-of-the-art represent the search results by means of a rich selection of features of different kind, while they employ the hierarchical agglomerative clustering algorithm to group the web pages after having previously learned the value of a similarity thereshold by means of training data.