Lessons from the development of a named entity recognizer for Basque
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/1228
Título: | Lessons from the development of a named entity recognizer for Basque |
---|---|
Autor/es: | Alegría Loinaz, Iñaki | Arregi Uriarte, Olatz | Ezeiza Ramos, Nerea | Fernández de Castro, María Isabel |
Palabras clave: | Reconocimiento de entidades con nombre | Conocimiento lingüístico | Aprendizaje automático | Métodos combinados | Named entity recognition | Linguistic knowlege | Machine learning | Combined methods |
Fecha de publicación: | jun-2006 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | ALEGRÍA LOINAZ, Iñaki, et al. “Lessons from the development of a named entity recognizer for Basque”. Procesamiento del lenguaje natural. Nº 36 (jun. 2006), pp. 25-37 |
Resumen: | En este trabajo se presenta el diseño de un sistema de Reconocimiento de Entidades para textos escritos en vasco. Para el desarrollo de dicho sistema se han probado diferentes técnicas, algunas de ellas basadas en información lingüística y otras en cambio aplicando diversos métodos de aprendizaje automático. Además de presentar cada técnica por separado y sus correspondientes experiementos con diferentes fuentes de información, proponemos también una serie de combinaciones con diferentes metodos para obtener así un sistema más completo y robusto. Para concluir, presentamos las conclusiones y reflexiones concluidas de todos estos experimentos, especialmente válidas para aquellos sistemas que traten el reconocimiento de entidades en textos escritos en otros idiomas que no sea el inglés. | This paper presents the conclusions reached from the development of a system for Named Entity recognition in written Basque. In order to obtain this recognizer we have worked with different types of classifiers, one of them based on linguistic information and others constructed using machine learning methods. Taking these classifiers as starting point, and once we explain the different attempts done with each simple method using different information sources, we present the experiments we did combining those single methods in order to improve the performance and obtain a more robust system. Finally, we explain some conclusions and lessons we have learned from all these experiments, especially useful when dealing with named entity recognition in languages others than English. |
Patrocinador/es: | This research has been partially funded by the European Commision (MEANING IST-2001-34460) and the Basque Government (Saiotek-Ihardetsi and BFI04.432). |
URI: | http://hdl.handle.net/10045/1228 |
ISSN: | 1135-5948 |
Idioma: | eng |
Tipo: | info:eu-repo/semantics/article |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 36 (junio 2006) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_36_03.pdf | 192,16 kB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.