Ir al contenido

Documat


Building the Gold Standard for the Surface Syntax of Basque

  • Autores: Arantza Díaz de Ilarraza Sánchez Árbol académico, Rubén Urízar Enbeitia, Itziar González Dios, Itziar Aduriz Árbol académico, María Jesús Aranzabe Urruzola, José María Arriola Egurrola
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 58, 2017, págs. 125-132
  • Idioma: inglés
  • Títulos paralelos:
    • Construcción de un Gold Standard para la Sintaxis Superficial del Euskera
  • Enlaces
  • Resumen
    • español

      In this paper, we present the process in the construction of SF-EPEC, a 300,000-word corpus syntactically annotated that aims to be a Gold Standard for the surface syntactic processing of Basque. First, the tagset designed for this purpose is described; being Basque an agglutinative language, sometimes complex syntactic tags were needed. We also account for the different phases in the construction of SF-EPEC.

    • English

      En este artículo presentamos el proceso de construcción de SF-EPEC, un corpus de 300.000 palabras, sintácticamente anotado, que pretende ser un Gold Standard para el procesamiento sintáctico superficial del euskera. En primer lugar, describimos el conjunto de etiquetas diseñado para este propósito; siendo el euskera una lengua aglutinante, en ocasiones hemos tenido que crear etiquetas sintácticas compuestas. Asimismo, se detallan las distintas fases en la construcción de SF-EPEC.

  • Referencias bibliográficas
    • Aduriz, I. 2000. EUSMG: Morfologiatik sintaxira Murriztapen Gramatika erabiliz. Ph.D. thesis, University of the Basque Country (UPV/EHU).
    • Aduriz, I., I. Aldezabal, I. Alegria, J. M. Arriola, A. Dı́az de Ilarraza, N. Ezeiza, and K. Gojenola. 2003. Finite State Applications for...
    • Aduriz, I., M. J. Aranzabe, J. M. Arriola, A. Atutxa, A. Dı́az de Ilarraza, N. Ezeiza, K. Gojenola, M. Oronoz, A. Soroa, and R. Urizar....
    • Aduriz, I., M. J. Aranzabe, J. M. Arriola, and A. Dı́az de Ilarraza. 2006b. Sintaxi Partziala. In B. Fernández and I. Laka, editors,...
    • Aduriz, I., J. M. Arriola, I. Gonzalez-Dios, and R. Urizar. 2015. Funtzio Sintaktikoen Gold Estandarra eskuz etiketatzeko gidalerroak. Technical...
    • Aduriz, I. and A. Dı́az de Ilarraza. 2013. Morphosyntactic Disambiguation and Shallow Parsing in Computational Processing of Basque. Anuario...
    • Aldezabal, I., O. Ansa, B. Arrieta, X. Artola, A. Ezeiza, G. Hernández, and M. Lersundi. 2001. EDBL: a General Lexical Basis for the Automatic...
    • Aldezabal, I., K. Ceberio, I. Esparza, A. Estarrona, J. Etxeberria, M. Iruskieta, E. Izagirre, and L. Uria. 2007. EPEC (Euskararen Prozesamendurako...
    • Alegria, I., X. Artola, K. Sarasola, and M. Urkia. 1996. Automatic Morphological Analysis of Basque. Literary and Linguistic Computing, 11(4):193–203.
    • Aranzabe, M. J. and A. Dı́az de Ilarraza. 2009. Análisis sintáctico computacional del euskera mediante una gramática de dependencias....
    • Arriola, J. M. 2015. Different Issues in the Design and Implementation of a Rule Based Grammar for the Surface Syntactic Disambiguation of...
    • Bick, E. 2000. The Parsing System Palavras. Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Ph.D. thesis,...
    • Fleiss, J. L. 1971. Measuring Nominal Scale Agreement among many Raters. Psychological bulletin, 76(5):378–382.
    • Karlsson, F., A. Voutilainen, J. Heikkila, and A. Anttila. 1995. Constraint Grammar, A Language-independent System for Parsing Unrestricted...
    • Marcus, M. P., M. A. Marcinkiewicz, and B. Santorini. 1993. Building a large annotated corpus of English: The Penn Treebank. Computational...
    • Mille, S., A. Burga, V. Vidal, and L. Wanner. 2009. Towards a Rich Dependency Annotation of Spanish Corpora. Procesamiento del Lenguaje Natural,...
    • Nilsson, J. and J. Hall. 2005. Reconstruction of the Swedish Treebank Talbanken. Technical report, Växjö University, Sweden. School of...
    • Sampson, G. 2011. A Two-way Exchange between Syntax and Corpora. In V. Vander, S. Zyngier, and G. Barnbrook, editors, Perspectives on Corpus...
    • Scheible, S., R. J. Whitt, M. Durrell, and P. Bennett. 2011. A Gold Standard Corpus of Early Modern German. In Proceedings of the ACL-HLT...
    • Silveira, N., T. Dozat, M.-C. de Marneffe, S. R. Bowman, M. Connor, J. Bauer, and C. D. Manning. 2014. A Gold Standard Dependency Corpus for...
    • Solberg, P. E., A. Skjærholt, L. Øvrelid, K. Hagen, and J. B. Johannessen. 2014. The norwegian dependency treebank. In Proceedings of LREC’14,...
    • Voutilainen, A., T. Purtonen, and K. Muhonen. 2012. Outsourcing Parsebanking: The FinnTreeBank Project. In Shall We Play the Festschrift Game?...

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno