Creación de un treebank de dependencias universales mediante recursos existentes para lenguas próximas: el caso del gallego

García González, Marcos; Gómez Rodríguez, Carlos; Alonso Pardo, Miguel Ángel

Creación de un treebank de dependencias universales mediante recursos existentes para lenguas próximas: el caso del gallego

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/57749

Información del item - Informació de l'item - Item information
Título:	Creación de un treebank de dependencias universales mediante recursos existentes para lenguas próximas: el caso del gallego
Título alternativo:	Building a UD treebank using existing resources from related languages: the case of Galician
Autor/es:	García González, Marcos \| Gómez Rodríguez, Carlos \| Alonso Pardo, Miguel Ángel
Palabras clave:	Análisis sintáctico \| Treebank \| Dependencias universales \| Gallego \| Parsing \| Universal dependencies \| Galician
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	sep-2016
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2016, 57: 33-40
Resumen:	En este trabajo presentamos una nueva estrategia para crear treebanks de lenguas con pocos recursos para el análisis sintáctico. El método consiste en la adaptación y combinación de diferentes treebanks anotados con dependencias universales de variedades lingüísticas próximas, con el objetivo de entrenar un analizador sintáctico para la lengua elegida, en nuestro caso el gallego. Durante el proceso de selección y adaptación de los treebanks de origen, analizamos el impacto de propiedades de tres niveles diferentes: (i) la distancia entre las lenguas de origen y destino, (ii) la adaptación de características léxico-ortográficas, y (iii) las directrices de anotación entre los treebanks. Usando la estrategia propuesta, entrenamos un analizador sintáctico estadístico para etiquetar, con resultados prometedores y sin datos previos de gallego, un pequeño corpus de esta lengua. La corrección manual de este corpus, usado como gold-standard, nos permitió probar la eficacia del método propuesto. \| This paper presents a novel strategy for creating a Universal Dependencies (UD) treebank of a low-resource language. The method consists of adapting and combining different UD treebanks from related varieties in order to train a parser for the target language. More precisely, the paper explores the influence of three different levels for the selection and adaptation of the source treebanks: (i) the relatedness of the linguistic varieties, (ii) the adaptation of features based on lexical and spelling data, and (iii) the agreement in annotation criteria between different treebanks. The proposed strategy allowed us to train a parser for analyzing, with promising results, a small Galician corpus without previous availability of labeled data for this language. After a few bootstrapping iterations, we obtained a UD gold-standard corpus, used for proving the effectiveness of the proposed method.
Patrocinador/es:	Este trabajo ha sido parcialmente financiado por el MINECO (proyectos FFI2014-51978-C2-1-R y FFI2014-51978-C2-2-R, y un contrato Juan de la Cierva formación: FJCI-2014-22853), y por la Xunta de Galicia (programa Oportunius).
URI:	http://hdl.handle.net/10045/57749
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica:	si
Versión del editor:	http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 57 (2016)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_57_03.pdf		212,18 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo