Ir al contenido

Documat


Obtaining computational resources for languages with scarce resourcesfrom closely related computationally-developed languages. The Galician and Portuguese case

  • Paulo Malvar Fernández [2] ; José Ramón Pichel Campos [2] ; Óscar Senra Gómez [2] ; Pablo Gamallo Otero [1] Árbol académico ; Alberto García [3]
    1. [1] Universidade de Santiago de Compostela

      Universidade de Santiago de Compostela

      Santiago de Compostela, España

    2. [2] Area of Language Technology, imaxin|software, Santiago de Compostela
    3. [3] Engineering department of Igalia, A Coruña
  • Localización: Language Windowing through Corpora / coord. por Isabel Moskowich, Begoña Crespo, Inés Lareo Martín, Paula Lojo Sandino, Vol. 2, 2010 (Part II, L-Z), ISBN 978-84-9749-401-4, págs. 529-536
  • Idioma: inglés
  • Enlaces
  • Resumen
    • español

      Para desarrollar muchas herramientas estadísticas de Procesamiento del Lenguaje Natural resultaesencial utilizar grandes cantidades de datos. Para salvar la limitación de la escasez de recursoscomputacionales para lenguas, como el gallego, es necesario diseñar nuevas estrategias. En el caso delgallego, importantes romanistas han teorizado que gallego y portugués son dos variantes del portuguéseuropeo. Desde un punto de vista pragmático, esta hipótesis podería abrir una nueva línea deinvestigación para proporcionar al gallego ricos recursos computacionales. Partiendo del corpusparalelo inglés-portugués Europarl, imaxin|software ha compilado un corpus paralelo inglés-gallegoque hemos utilizado para crear un prototipo de traductor automático estadístico inglés-gallego, cuyorendimiento es comparable a Google Translate. Sostenemos que es posible implementar esta estrategiapara desarrollar una gran variedad de herramientas computacionales para lenguas, como el gallego,íntimamente relacionadas con lenguas que ya cuentan con un gran repertorio de recursoscomputacionales

    • English

      In order to build many statistically-driven NLP tools, it is essential to use a significantly large amount ofdata. To overcome the limitation of the scarcity of computational resources for languages such asGalician it is necessary to develop new strategies. In the case of Galician, well-known romanicists havetheorized that Galician and Portuguese are two varieties of European Portuguese. From a pragmaticstandpoint, this assumption could open up a new line of research to supply Galician with richcomputational resources. Drawing from the ENGLISH-Portuguese Europarl parallel corpus,imaxin|software has compiled an English-Galician parallel corpus that we used to build an EnglishGalician Statistical Machine Translation prototype whose performance is comparable to GoogleTranslate. We contend that this strategy can be implemented to develop a great variety of computationaltools for languages like Galician that are closely related to languages for which there already exist greatcomputational resources

  • Referencias bibliográficas
    • Aracil, Ll. et al. (1985). Lingüística e sócio-lingüística galaico-portuguesa: reintegracionismo e conflito lingüístico na Galiza. Ourense:...
    • Cunha, C. & Cintra, L. (2002). Nova Gramática do Português Comtemporâneo. Lisboa: Edições João Sá da Costa.
    • Coseriu, E. (1987). El gallego en la historia y en la actualidad. Actas do II Congresso Internacional da Língua Galego-Portuguesa (pp. 793-800)....
    • Fernández Rei, F. (1991). Dialectoloxía da lingua galega. (2nd ed.). Vigo: Edicións Xerais de Galicia.
    • Gamallo P. & Pichel, J.R. (2007). Un método de extracción de equivalentes de traducción a partir de un corpus comparable castellano-gallego....
    • Gamallo P. & Pichel, J.R. (2008). Learning Spanish-Galician Translation Equivalents Using a Comparable Corpus and a Bilingual Dictionary....
    • Gee, J. P. (1999). An Introduction to Discourse Analysis: Theory and Method. London: Routledge.
    • Koehn, P. (2005). Europarl: A Parallel Corpus for Statistical Machine Translation. Paper presented at the MT Summit 2005. Pukhet, Thailand,...
    • Koehn, P., Hoang, H., Birch, A., Callison-Burch, C., Federico, M., Bertoldi, N., Cowan, B., Shen, W., Moran, M., Zens, R., Dyer, C., Bojar,...
    • Malvar Fernández. P. (2008). Improving Word-to-Word Alignment using Morphological Information (Master Thesis). San Diego State University:...
    • Och, F.J. & Ney, H. (2003). A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics, 29(1): 19-51.
    • Pichel, J.R. (2007). Falta de corpus. Galicia Hoxe. Available at (http://www.galiciahoxe.com/index_2.php?idMenu=153&idNoticia=236722)
    • Pichel, J.R. (2009). “Estrategia google”. Galicia Hoxe. Available at (http://www.galiciahoxe.com/index_2.php?idMenu=149&idEdicion=1211&idNoticia=414218)
    • Popović, M. & Hey, H. Statistical Machine Translation with a Small Amount of Bilingual Training Data. Paper at Language Resources and...

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno