Speech and text translation involving basque language: an application of stochastic finite-state transducers

Alicia Pérez Ramírez

Ayuda

Speech and text translation involving basque language: an application of stochastic finite-state transducers

Autores: Alicia Pérez Ramírez
Directores de la Tesis: Francisco Casacuberta Nolla (dir. tes.) , María Inés Torres Barañano (dir. tes.)
Lectura: En la Universidad del País Vasco - Euskal Herriko Unibertsitatea ( España ) en 2010
Idioma: inglés
Tribunal Calificador de la Tesis: Enrique Vidal Ruiz (presid.) , Ismael García Varea (secret.) , José Bernardo Mariño Acebal (voc.) , Phil Blunsom (voc.) , Isabel Trancoso (voc.)
Enlaces
- Tesis en acceso abierto en: TESEO
Resumen
- El objeto de este trabajo es la traducción automática de texto y de voz tomando el euskera bien como lengua origen, bien como lengua destino, No nos restringimos a la traducción de texto, sino que consideramos también la voz.
  
  Abordamos la traducción automática dentro del marco probabilístico, que durante los últimos años ha despertado un gran interés en la comunidad científica principalmente debido a los algoritmos que permiten inferir automáticamente modelos de traducción a partir de muestras bilingües. En este contexto, hacemos uso del algoritmo giati (definido previamente en la literatura), que da lugar a un transductor estocástico de estados finitos (TEEF).
  
  Como contribución principal de este trabajo se destaca la definición e implementación de una extensión del algoritmo giati que explota secuencias de palabras, o phrases, en lugar de palabras aisladas. Los modelos basados en phrases, sean de naturaleza estadística o lingüística, tienen la ventaja de hacer un mejor uso del contexto dando lugar a traducciones más precisas. Como contrapartida, requieren de tratamientos específicos de suavizado a fin de alcanzar un nivel de generalidad similar al de los modelos basados en palabras. En lo que a modelado de transductores se refiere, también hemos explorado el uso de técnicas de categorización. Se han estudiado dos aproximaciones:
  
  la primera utiliza categorías como lenguaje intermedio entre la lengua origen y la destino a fin de obtener dos traductores más precisos que el traductor directo; la segunda, engasta transductores específicos en un modelo de categorías que será el responsable de guiar la traducción.
  
  En lo que a la traducción de voz respecta, la aproximación clásica implica a un sistema de reconocimiento automático del habla seguido de un sistema de traducción de texto. Esta arquitectura desacoplada ha sido criticada debido a que el sistema de traducción obvia la contribución de la fuente de conocimiento acústico. A este respecto, los modelos de estados finitos ofrecen gran versatilidad. La integración del modelo de traducción con modelos acústicos da lugar a una nueva red de estados finitos que aborda la traducción en un sólo paso explotando conjuntamente conocimiento acústico y de traducción.
  
  Los modelos y las arquitecturas propuestas han sido evaluados en una tarea de dominio restringido en castellano y euskera, las dos lenguas oficiales de la comunidad autónoma vasca. El éxito de los sistemas de traducción depende en gran medida de la calidad de las muestras de entrenamiento, pero también de las propias lenguas involucradas, y como es sabido, el castellano y el euskera difieren notablemente tanto en la sintaxis como en la morfología. A pesar de que los modelos propuestos superan al modelo de referencia, la necesidad de seguir investigando en este campo es manifiesta, particularmente, en lo que a modelado de reordenamiento se refiere.