Ir al contenido

Documat


Seeking robustness in a multilingual world: from pipelines to embeddings

  • Autores: Yerai Doval
  • Directores de la Tesis: Manuel Vilares Ferro (dir. tes.) Árbol académico, Jesús Vilares (codir. tes.) Árbol académico
  • Lectura: En la Universidade da Coruña ( España ) en 2019
  • Idioma: inglés
  • Número de páginas: 207
  • Tribunal Calificador de la Tesis: María Lourdes Araújo Serna (presid.) Árbol académico, Miguel Á. Alonso (secret.) Árbol académico, Pavel Brazdil (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: RUC
  • Resumen
    • español

      En esta tesis estudiamos dos enfoques para abordar los desafíos planteados de cara al procesamiento de contenidos textuales no estándar y multilingües generados por los usuarios del tipo que se pueden encontrar en la Web a día de hoy. En primer lugar, presentamos un enfoque tradicional basado en pipelines discretos en el que el texto de entrada es preprocesado para facilitar su ulterior tratamiento por otros sistemas. Esto implica abordar el problema del multilingüismo, primero, identificando el idioma de la entrada para, seguidamente, tratar los fenómenos de escritura no estándar específicos de dicho idioma presentes en la entrada. Para ello se aplicarán técnicas de normalización del texto y (re-)segmentación de palabras. En segundo lugar, analizamos las limitaciones inherentes a este tipo de modelos discretos, lo cual nos conduce a un enfoque centrado en el empleo de modelos continuos basados en word embeddings (i.e., representaciones vectoriales). En este caso, el preprocesamiento expíıcito de la entrada es sustituido por la codificación de las características lingüísticas y demás matices propios de los textos no estándar en el propio espacio de embedding (un espacio vectorial). Nuestro objetivo es obtener modelos continuos que no sólo superen las limitaciones de los modelos discretos, sino que también se alineen con el estado del arte actual del Procesamiento de Lenguaje Natural (PLN), dominado por sistemas basados en redes neuronales. Los resultados obtenidos después de una extensa experimentación muestran la capacidad de las word embeddings para dar un soporte efectivo por sí mismas a los fenómenos multilingües y no estándar propios de los textos generados por usuarios. Además, todo esto se logra dentro de un marco conceptual simple y modular que no necesita sacrificar la integración de sistemas. Dichos modelos de word embeddings pueden emplearse fácilmente como un elemento fundamental en redes neuronales de última generación que, a su vez, son utilizadas en prácticamente cualquier tarea de PLN.

    • English

      In this dissertation, we study two approaches to overcome the challenges posed by processing user-generated non-standard multilingual text content as it is found on the Web nowadays. Firstly, we present a traditional discrete pipeline approach where we preprocess the input text so that it can be more easily handled later by other systems. This implies dealing first with the multilinguality concern by identifying the language of the input and, next, managing the language-specific non-standard writing phenomena involved by means of text normalization and word (re-)segmentation techniques. Secondly, we analyze the inherent limitations of this type of discrete models, taking us to an approach centred on the use of continuous word embedding models. In this case, the explicit preprocessing of the input is replaced by the encoding of the linguistic characteristics and other nuances of non-standard texts in the embedding space. We aim to obtain continuous models that not only overcome the limitations of discrete models but also align with the current state of the art in Natural Language Processing (NLP), dominated by systems based on neural networks. The results obtained after extensive experimentation showcase the capabilities of word embeddings to effectively support the multilingual and non-standard phenomena of usergenerated texts. Furthermore, all this is accomplished within a conceptually simple and modular framework which does not sacrifice system integration. Such embedding models can be readily used as a fundamental building block for state-of-the-art neural networks which are, in turn, used in virtually any NLP task.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno