Word sense disambiguation in multilingual contexts

Andrés Duque Fernández

Ayuda

Word sense disambiguation in multilingual contexts

Autores: Andrés Duque Fernández
Directores de la Tesis: Lourdes Araujo (dir. tes.) , Juan Martínez Romo (dir. tes.)
Lectura: En la UNED. Universidad Nacional de Educación a Distancia ( España ) en 2017
Idioma: español
Tribunal Calificador de la Tesis: Julio Gonzalo Arroyo (presid.) , Eneko Agirre Bengoa (secret.) , Ahmet Aker (voc.)
Enlaces
- Tesis en acceso abierto en: e-spacio (pdf)
Resumen
- español
  La desambiguación del sentido de las palabras se define como el proceso de identificación del sentido que adopta una palabra polisémica, es decir, con varios significados posibles, en el contexto concreto de una oración. Debido a la necesidad de definir sin ambigüedad posible el significado de todas las palabras de un texto para que un sistema automático pueda entenderlo y trabajar con él, la desambiguación semántica representa un aspecto crucial y transversal a cualquier tarea dentro del Procesamiento del Lenguaje Natural. La investigación realizada en esta tesis doctoral se centra en la desambiguación semántica en escenarios en los que existe la posibilidad de utilizar textos escritos en diversos idiomas. Dentro de estos escenarios, dividimos la tesis en dos grandes campos, en función de las tareas específicas de desambiguación a las que nos enfrentamos: desambiguación bilingüe del sentido de las palabras, y desambiguación multilingüe en el dominio biomédico. En la primera tarea, el objetivo es, dada una palabra con múltiples significados, escrita en un idioma inicial (generalmente inglés), encontrar su traducción más adecuada en un idioma final. La tarea de desambiguación en el dominio biomédico se basa en encontrar el sentido correcto de un término médico que puede apuntar a distintos conceptos concretos. Para hacer frente a las tareas propuestas, se utiliza una técnica novedosa basada en grafos de co-ocurrencia: a través de dicha técnica se transforma la información no estructurada disponible en diversos corpus, en una base de conocimiento estructurada que se puede utilizar después para realizar tareas de desambiguación. La base de conocimiento es un grafo en el que los nodos representan conceptos del corpus, y los enlaces entre ellos contienen información relacionada con la significancia estadística de su co-ocurrencia, es decir, de su aparición conjunta en un mismo documento del corpus. En la primera tarea, la información multilingüe es inherente al propio planteamiento del problema, ya que se busca obtener las traducciones más adecuadas de palabras entre varios idiomas. En ella, nuestro sistema utiliza los grafos de co-ocurrencia para representar el conocimiento en el idioma objetivo. Los contextos de las palabras ambiguas, escritos en el idioma original y traducidos gracias a un diccionario bilingüe creado automáticamente, se utilizan como fuente de información para que el grafo de co-ocurrencia realice la desambiguación. En esta línea se presenta también un estudio sobre los diccionarios bilingües necesarios en este tipo de tareas. En lo que se refiere a la desambiguación en el dominio biomédico, el multilingüismo se utiliza como evidencia adicional para comprobar si es posible mejorar la eficacia de sistemas monolingües en la tarea. Para ello, inicialmente se plantea una adaptación de nuestro sistema para hacer frente a la tarea desde una perspectiva monolingüe (en la que el grafo de coocurrencia se construye a partir de un corpus escrito en un único idioma). A continuación, se enriquece el grafo con información procedente de idiomas adicionales, para observar si este enriquecimiento desemboca en una mejora de los resultados obtenidos por el sistema. Se trata de una propuesta pionera en su campo, ya que no se han encontrado otros trabajos que utilicen información multilingüe para la desambiguación en el dominio biomédico. A lo largo del desarrollo de la tesis, se exploran múltiples corpus monolingües y multilingües, tanto de propósito general como relacionados con un dominio específico (en concreto el dominio biomédico). También se han estudiado y comparado diversos algoritmos que utilizan el grafo de co-ocurrencia como base estructurada de conocimiento para realizar la desambiguación final. La hipótesis matemática en la que se basa la construcción de nuestro grafo de co-ocurrencia ha sido comparada con otras técnicas similares, ofreciendo mejores resultados. Asimismo, para cada una de las tareas consideradas (desambiguación bilingüe y desambiguación en el dominio biomédico), nuestro sistema se ha comparado con otras técnicas del estado del arte, presentando resultados muy competitivos.
- English
  Word Sense Disambiguation (WSD) can be defined as the process of identifying the sense adopted by a polysemic word, that is, a word with different possible meanings, in a particular context within a sentence. This process represents a key aspect of any Natural Language Processing task, given the need of determining without ambiguity the correct meaning of all the words within a text, for an automatic system to be able to understand it and work with it. In this thesis, we present a research focused on Word Sense Disambiguation in scenarios in which it is possible to make use of information written in different languages. Considering those scenarios, we divide the thesis into two lines of study, depending on the specific WSD tasks that are tackled: Cross-Lingual Word Sense Disambiguation, and multilingual Word Sense Disambiguation in the biomedical domain. In the first task, the main aim is to find the most suitable translation for an ambiguous target term written in a source language (typically English) into a target one. The biomedical WSD task is based on finding the most suitable sense of a term that can refer to many different biomedical concepts. In order to address the proposed tasks, we use a novel technique based on co-occurrence graphs: through that technique, we are able to transform the unstructured information available in different corpora, into a structured base of knowledge that will be subsequently used for performing the disambiguation itself. This knowledge base is a graph in which nodes represent concepts from a given corpus, and the links between those nodes contain information related to the statistical significance of their co-occurrence, that is, of the appearance of both concepts in the same document of the corpus. Regarding the first task, multilingual information is inherent to the problem itself, since the objective is to find the most suitable translations of words between different languages. For addressing it, our system makes use of the co-occurrence graphs for representing the knowledge in the target language. Then, the contexts of the ambiguous terms, written in the source language and translated through an automatically created bilingual dictionary, are used as source of information for the co-occurrence graph to perform the disambiguation step. In this line of research we also present a study on the possible bilingual dictionaries needed in this kind of tasks. Considering the biomedical WSD task, in our research multilinguality is used as an additional evidence for testing whether it is possible to improve the performance of monolingual systems addressing the task. For that purpose, we initially adapt our system for tackling the task under a monolingual perspective (in which the co-occurrence graph is built from a corpus written in a single language). After that, we enhance the graph with information from additional languages, in order to study whether this enhancement leads to an improvement of the results obtained by the system. It is a pioneering research in this field, since no similar studies have been found in the literature that make use of multilingual information for performing WSD in the biomedical domain. We have explored many different monolingual and multilingual corpora along the development of this thesis, both written with general purposes and related to a specific domain (in particular, the biomedical domain). We have also studied and compared different algorithms that make use of the co-occurrence graph as a structured knowledge base for performing the final disambiguation. The mathematical hypothesis in which the construction of our co-occurrence graph is based, has been compared to similar techniques, offering better results. Similarly, for each of the considered tasks (Cross-Lingual WSD and biomedical WSD), our system has been compared with other state-of-the-art techniques, obtaining very competitive results.