Ir al contenido

Documat


Resumen de Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas

Felipe Sánchez Martínez Árbol académico

  • español

    Los enfoques basado en corpus para la construcción de sistemas de traducción automática (TA) requieren de una gran cantidad de textos paralelos (textos en una lengua junto con su traducción a otro idioma) para alcanzar una calidad una calidad razonable a la hora de traducir textos de propósito general; esta gran cantidad de corpus paralelos no se encuentra siempre disponible, especialmente para aquellos pares de lenguas con pocos recursos electrónicos y de los cuales existe una demanda creciente de servicios de traducción, tal es el caso de los pares de lenguas occitano-catalana, francés-catalán o inglés-afrikaanas. En estos casos, el paradigma de TA basada en reglas es el único enfoque realista desde un punto de vista práctico. Sin embargo, la construcción de sistemas de TA basados en reglas implica un ingente esfuerzo humano para codificar todos los recursos lingüísticos necesarios. Esta tesis estudia el desarrollo de métodos no supervisados basados en corpus para obtener de forma automática algunos de los recursos lingüísticos necesarios para construir sistemas de TA basados en reglas. Concretamente, esta tesis se centra en: i) el desarrollo de un método no supervisado para el entrenamiento de desambiguadores léxicos categoriales basados en modelos ocultos de Markov con vista a su empleo en sistemas de TA; ii) la inferencia automática del conjunto de estados a emplear por el desambiguador léxico categorial para llevar a cabo la desambiguación léxica categorial de los textos a traducir; y iii) la inferencia automática de reglas de transferencia estructural a partir de una pequeña cantidad de corpus paralelos. EL objetivo final de los métodos propuestos y evaluados en esta tesis es reducir en la medida de lo posible el esfuerzo humano necesario para construir un sistema de TA basado en reglas desde cero. Los enfoques analizados en esta tesis demuestran que a la hora de entrenar de manera no supervisada un desambiguador léxico categorial basado en modelos ocultos de Markov hay una fuente de conocimiento, un modelo estadístico de la lengua destino de la traducción, que puede ser usado fácilmente para obtener desambifuadores léxicos categoriales especialmente adaptados a su posterior uso como módulo embebido en un sistema de TA basado en reglas. Este novedoso enfoque utiliza información no sólo de la lengua origen, como ya hacen los métodos de entrenamiento clásicos, sino también de lengua destino de la traducción y de los restantes módulos del sistema de TA en el que el desambiguador se integra. El desambiguador resultante es más adecuado para su empleo en sistemas de TA basados en reglas que los obtenidos mediante el método de entrenamiento no supervisado clásico (el algoritmo de Baum y Welch). Además, en esta tesis se analiza la aplicación de un algoritmo de agrupamiento (clustering) para obtener automáticamente el conjunto de estados a utilizar por los modelos ocultos de Markov empleados para la desambiguación léxico categorial. Por último, esta tesis demuestra que el conjunto de reglas de transferencia estructural a usar en TA puede inferirse a partir de un corpus paralelo de pequeño tamaño mediante la adaptación de las plantillas de alineamiento empleadas en TA estadística al paradigma de la TA basada en reglas. El conjunto de reglas inferido mejorar la calidad de las traducciones en comparación con la traducción palabra por palabra y ofrece resultados de traducción razonable próximos a los obtenidos usando reglas de transferencia estructural codificadas a mano. Además, las reglas inferidas son fácilmente legibles y pueden coexistir con reglas codificadas a mano.

  • English

    During the last years, corpus-based approaches to machine translation (MT), such as statistical MT or example-based MT have grown in interest as a consequence of the increasing availability of bilingual texts in electronic format. However, corpus-based approaches are not applicable when the translation involves less-resourced language pairs for which there are no parallel corpora available, or the size of such corpora is not large enough to build a general-purpose MT system; in those cases, the rule-based approach is the only applicable solution.

    This is currently the case of less-resourced language pairs such as Occitan–Catalan, French–Catalan or English–Afrikaans, among others.

    Since I started to work in 2003 at the Departament de Llenguatges i Sistemes In-formatics at Universitat d’Alacant I have participated in the development of rule-based MT (RBMT) systems such as the Spanish–Catalan MT system interNOSTRUM, The Spanish–Portuguese MT system Traductor Universia and the open-source shallow-transfer MT platform Apertium, which has several language pairs available. Experience in the development of MT systems of this kind has shown to me the huge human effort that involves coding all the linguistic resources needed to build them.

    This thesis focuses on the development of unsupervised methods to obtain automatically from corpora some of the linguistic resources required to build RBMT systems; more precisely, shallow-transfer MT systems like those in whose development I have been involved. Specifically, this thesis focuses on: (I) an unsupervised method to train part-of-speech (PoS) taggers to be used in RBMT; (II) the automatic inference of the set of states to be used by PoS taggers based on hidden Markov models for use in RBMT; and, (III) the automatic inference of shallow-transfer rules from a small amount of parallel corpora.

    The final goal is to reduce as much as possible the human effort needed to build a RBMT system from scratch.

    The approaches that will be discussed in this thesis will show that to (unsupervisedly) train PoS taggers based on hidden Markov models (HMM) there is a source of knowledge, namely, a statistical model of the target language, that can be easily used to produce PoS taggers specially suited for use in RBMT. In addition, it will show how to apply a clustering algorithm to automatically determine the set of hidden states to be used by HMM-based PoS taggers. Finally, this thesis will demonstrate that shallow structural transfer rules can be inferred from a small amount of parallel corpora by using alignment templates like those used in statistical MT.

    All the approaches and methods that will be discussed in this thesis have been implemented and released as open source in order to allow the whole community to benefit from them; moreover, they have been implemented as tools for the development of new language pairs for Apertium.

    The public availability of the source code guarantees the reproducibility of all the experiments conducted. It also allows other researchers to improve them and saves the time and effort of people developing new language pairs for Apertium.

    This thesis has been possible thanks to the ideas and constant supervision of Drs. Mikel L. Forcada and Juan Antonio Perez-Ortiz from the Departament de Llenguatges i Sistemes Informatics at Universitat d’Alacant.

    Nevertheless, the part of this thesis that deals with the inference of shallow-transfer rules by adapting the alignment template approach was initially developed during my three-months stay in 2005 at the Chair of Computer Science 6 (Computer Science Department) at the RWTH Aachen University (Germany) under the supervision of Dr. Hermann Ney. The approach was later improved thanks to suggestions by Dr. Mikel L. Forcada.


Fundación Dialnet

Mi Documat