Errores ortográficos y de competencia en textos de la web en euskera

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/14714
Información del item - Informació de l'item - Item information
Título: Errores ortográficos y de competencia en textos de la web en euskera
Título alternativo: Orthographic and competence errors in the Basque Web
Autor/es: Alegría Loinaz, Iñaki | Etxeberria Uztarroz, Izaskun | Leturia Azkarate, Igor
Palabras clave: Web as a corpus | Errores ortográficos y de competencia | OCR | Lengua vasca | Spelling | Competence errors | Basque language
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: oct-2010
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: ALEGRÍA LOINAZ, Iñaki; ETXEBERRIA UZTARROZ, Izaskun; LETURIA AZKARATE, Igor. “Errores ortográficos y de competencia en textos de la web en euskera”. Procesamiento del Lenguaje Natural. N. 45 (2010). ISSN 1135-5948
Resumen: En este trabajo se estima la calidad de los corpus en euskera obtenidos de la Web siguiendo una metodología similar a la propuesta por Ringlstetter et al. (2006) para el inglés y el alemán. Sin embargo nuestro trabajo difiere del mencionado en que al tratar un idioma de gran riqueza morfológica hemos optado por reutilizar verificadores ortográficos para reconocer los errores. Esto trae consigo, en nuestra opinión, una cobertura mayor de los errores que se estudian, además de la reutilización de recursos previamente desarrollados, lo que hace el método interesante para aplicarlo, sin prácticamente trabajo manual, a lenguas que tienen disponibles estos recursos. Los resultados van a ser de gran interés para detectar los distintos tipos de textos obtenidos de la Web en euskera según su corrección, y filtrar aquellos que pueden generar problemas o no tienen una calidad mínima. | The objective of the work presented in this paper is to estimate the quality of corpora retrieved from the Basque Web. The methodology followed is similar to that used for English and Germany by Ringlstetter et al. (2006). The main difference lies in the fact that we reuse spelling checkers for detecting errors. We think that by this way we obtain a higher error coverage and that the method can be applied to other languages with practically no manual work provided such tools are available for them. The results obtained can be useful for improving the quality of corpora obtained from the web, eliminating documents containing errors over a given threshold.
Patrocinador/es: Proyecto parcialmente subvencionado por los proyectos OpenMT2 (Ministerio de Ciencia e Innovación, TIN2009-14675-C03-01) y Berbatek (Eusko Jaurlaritza, IE09-262).
URI: http://hdl.handle.net/10045/14714
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 45 (2010)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_45_13.pdf218,57 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.