Creación de un treebank de dependencias universales mediante recursos existentes para lenguas próximas: el caso del gallego
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/57749
Título: | Creación de un treebank de dependencias universales mediante recursos existentes para lenguas próximas: el caso del gallego |
---|---|
Título alternativo: | Building a UD treebank using existing resources from related languages: the case of Galician |
Autor/es: | García González, Marcos | Gómez Rodríguez, Carlos | Alonso Pardo, Miguel Ángel |
Palabras clave: | Análisis sintáctico | Treebank | Dependencias universales | Gallego | Parsing | Universal dependencies | Galician |
Área/s de conocimiento: | Lenguajes y Sistemas Informáticos |
Fecha de publicación: | sep-2016 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | Procesamiento del Lenguaje Natural. 2016, 57: 33-40 |
Resumen: | En este trabajo presentamos una nueva estrategia para crear treebanks de lenguas con pocos recursos para el análisis sintáctico. El método consiste en la adaptación y combinación de diferentes treebanks anotados con dependencias universales de variedades lingüísticas próximas, con el objetivo de entrenar un analizador sintáctico para la lengua elegida, en nuestro caso el gallego. Durante el proceso de selección y adaptación de los treebanks de origen, analizamos el impacto de propiedades de tres niveles diferentes: (i) la distancia entre las lenguas de origen y destino, (ii) la adaptación de características léxico-ortográficas, y (iii) las directrices de anotación entre los treebanks. Usando la estrategia propuesta, entrenamos un analizador sintáctico estadístico para etiquetar, con resultados prometedores y sin datos previos de gallego, un pequeño corpus de esta lengua. La corrección manual de este corpus, usado como gold-standard, nos permitió probar la eficacia del método propuesto. | This paper presents a novel strategy for creating a Universal Dependencies (UD) treebank of a low-resource language. The method consists of adapting and combining different UD treebanks from related varieties in order to train a parser for the target language. More precisely, the paper explores the influence of three different levels for the selection and adaptation of the source treebanks: (i) the relatedness of the linguistic varieties, (ii) the adaptation of features based on lexical and spelling data, and (iii) the agreement in annotation criteria between different treebanks. The proposed strategy allowed us to train a parser for analyzing, with promising results, a small Galician corpus without previous availability of labeled data for this language. After a few bootstrapping iterations, we obtained a UD gold-standard corpus, used for proving the effectiveness of the proposed method. |
Patrocinador/es: | Este trabajo ha sido parcialmente financiado por el MINECO (proyectos FFI2014-51978-C2-1-R y FFI2014-51978-C2-2-R, y un contrato Juan de la Cierva formación: FJCI-2014-22853), y por la Xunta de Galicia (programa Oportunius). |
URI: | http://hdl.handle.net/10045/57749 |
ISSN: | 1135-5948 |
Idioma: | spa |
Tipo: | info:eu-repo/semantics/article |
Derechos: | © Sociedad Española para el Procesamiento del Lenguaje Natural |
Revisión científica: | si |
Versión del editor: | http://journal.sepln.org/sepln/ojs/ojs/index.php/pln |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 57 (2016) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_57_03.pdf | 212,18 kB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.