Ir al contenido

Documat


Uso de información morfológica en el alineamiento español-euskera

  • Autores: Eneko Agirre Bengoa Árbol académico, Arantza Díaz de Ilarraza Sánchez Árbol académico, Gorka Labaka Intxauspe Árbol académico, Kepa Mirena Sarasola Gabiola Árbol académico
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 37, 2006, págs. 257-266
  • Idioma: español
  • Enlaces
  • Resumen
    • español

      En este artículo presentamos un primer estudio para el alineamiento de un corpus español-euskera mediante un alineador token-a-token en el que se consideran diferentes opciones de preprocesamiento morfológico. Usando GIZA++ conseguimos una reducción del error (Alignment Error Rate) de un 12.48% respecto el baseline (carente de preproceso alguno), llegando al 23.76%. Este resultado es comparable al obtenido para otros idiomas aglutinantes como el euskera.

    • English

      In this paper we present a preliminary study for the alignment of a Spanish-Basque parallel corpus using a token-based aligner (GIZA++).We have studied several morphological pre-processing alternatives, and achieved 23.76% Alignment Error Rate, with a reduction of 12.48% over the baseline (no pre-processing). The results are comparable to those obtained for others agglutinative languages.


Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno