Exploiting lexical information and discriminative alignment training in statistical machine translation

Patrik Lambert

Ayuda

Exploiting lexical information and discriminative alignment training in statistical machine translation

Autores: Patrik Lambert
Directores de la Tesis: Rafael E. Banchs Martínez (dir. tes.) , Núria Castell Ariño (dir. tes.)
Lectura: En la Universitat Politècnica de Catalunya (UPC) ( España ) en 2008
Idioma: inglés
Tribunal Calificador de la Tesis: José Adrián Rodríguez Fonollosa (presid.) , Lluís Márquez i Villodre (secret.) , Philippe Langlais (voc.)
Texto completo no disponible (Saber más ...)
Resumen
- El trabajo de la tesis se ha enmarcado en tres aspectos de la traducción automática estadística: el uso de información léxica como modelos léxicos básicos o expresiones multi-palabras, estrategias de entrenamiento por minimización del error, y finalmente modelos de alineado a nivel de palabra, Estos aspectos han sido estudiados en el marco del sistema de traducción basado en n-gramas. Según este enfoque, la probabilidad de traducción conjunta se modela a través de una combinación log-lineal compuesta de un modelo de n-gramas bilingüe así como de funciones características adicionales.
  
  En primer lugar, se ha estudiado en profundidad el tema de la evaluación del alineado. In particular, se destaca el impacto en los resultados de la manera con la que la referencia de alineado está construida, y se dan pautas para alinear manualmente un corpus. A continuación, se describe el sistema de traducción automática basado en n-gramas. Después de esta descripción, se evalúa el impacto sobre la calidad del alineado de clasificaciones lingüísticas como lematización, stemming o clasificación de verbos. Aunque estas transformaciones tienen un impacto importante sobre el alineado a nivel de palabras, esta mejora no se repercuta a nivel de calidad de traducción. Se examina también el impacto sobre la calidad del alineado y sobre la exactitud de la traducción de agrupar expresiones multi-palabras antes del alineado.
  
  Otro objetivo de esta tesis era la mejora de estrategias de entrenamiento por minimización del error. Dos lineas de investigación se consideraron: la elección de la métrica utilizada como función objetivo y la mejora del propio algoritmo de optimización. En la primera línea de investigación, los parámetros fueron optimizados satisfactoriamente en función del valor de la medida Queen del marco de evaluación Qarla. Este marco combina diferentes métricas con un criterio estable y robusto. En la secunda línea de investigación, el algoritmo SPSA (aproximación estocástica por perturbación simultanea) se comparó al método del simplex.
  
  Por último, se propone un nuevo marco para el entrenamiento discriminativo de modelos de alineado con métricas automáticas de traducción como criterio de maximización.
  
  Para poder evaluar este marco, se ha implementado un sistema de alineado basado en modelos discriminativos adaptados al sistema de traducción por n-gramas, y se pudo observar una mejora de los resultados de métricas automáticas con corpora pequeños. Se ha extendido este marco para corpora grandes, entrenando los parámetros del sistema de alineado con una parte pequeña del corpus y utilizándolos para alinear el corpus entero. Los parámetros obtenidos generaron sistemas de traducción tan buenos como los que se pueden obtener con herramientas estándares de alineado, pero de una manera mucho más flexible y con mucho menos recursos computacionales.