Errores ortográficos y de competencia en textos de la web en euskera
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/14714
Título: | Errores ortográficos y de competencia en textos de la web en euskera |
---|---|
Título alternativo: | Orthographic and competence errors in the Basque Web |
Autor/es: | Alegría Loinaz, Iñaki | Etxeberria Uztarroz, Izaskun | Leturia Azkarate, Igor |
Palabras clave: | Web as a corpus | Errores ortográficos y de competencia | OCR | Lengua vasca | Spelling | Competence errors | Basque language |
Área/s de conocimiento: | Lenguajes y Sistemas Informáticos |
Fecha de publicación: | oct-2010 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | ALEGRÍA LOINAZ, Iñaki; ETXEBERRIA UZTARROZ, Izaskun; LETURIA AZKARATE, Igor. “Errores ortográficos y de competencia en textos de la web en euskera”. Procesamiento del Lenguaje Natural. N. 45 (2010). ISSN 1135-5948 |
Resumen: | En este trabajo se estima la calidad de los corpus en euskera obtenidos de la Web siguiendo una metodología similar a la propuesta por Ringlstetter et al. (2006) para el inglés y el alemán. Sin embargo nuestro trabajo difiere del mencionado en que al tratar un idioma de gran riqueza morfológica hemos optado por reutilizar verificadores ortográficos para reconocer los errores. Esto trae consigo, en nuestra opinión, una cobertura mayor de los errores que se estudian, además de la reutilización de recursos previamente desarrollados, lo que hace el método interesante para aplicarlo, sin prácticamente trabajo manual, a lenguas que tienen disponibles estos recursos. Los resultados van a ser de gran interés para detectar los distintos tipos de textos obtenidos de la Web en euskera según su corrección, y filtrar aquellos que pueden generar problemas o no tienen una calidad mínima. | The objective of the work presented in this paper is to estimate the quality of corpora retrieved from the Basque Web. The methodology followed is similar to that used for English and Germany by Ringlstetter et al. (2006). The main difference lies in the fact that we reuse spelling checkers for detecting errors. We think that by this way we obtain a higher error coverage and that the method can be applied to other languages with practically no manual work provided such tools are available for them. The results obtained can be useful for improving the quality of corpora obtained from the web, eliminating documents containing errors over a given threshold. |
Patrocinador/es: | Proyecto parcialmente subvencionado por los proyectos OpenMT2 (Ministerio de Ciencia e Innovación, TIN2009-14675-C03-01) y Berbatek (Eusko Jaurlaritza, IE09-262). |
URI: | http://hdl.handle.net/10045/14714 |
ISSN: | 1135-5948 |
Idioma: | spa |
Tipo: | info:eu-repo/semantics/article |
Revisión científica: | si |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 45 (2010) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_45_13.pdf | 218,57 kB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.