WWW como fuente de recursos lingüíticos para su uso en PLN

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/1796
Información del item - Informació de l'item - Item information
Título: WWW como fuente de recursos lingüíticos para su uso en PLN
Autor/es: Martínez Santiago, Fernando | Ureña López, Luis Alfonso | García Vega, Manuel
Palabras clave: Web | Corpus | Procesamiento del lenguaje natural
Fecha de publicación: sep-2001
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: MARTÍNEZ SANTIAGO, Fernando; UREÑA LÓPEZ, Luis Alfonso; GARCÍA VEGA, Manuel. “WWW como fuente de recursos lingüíticos para su uso en PLN”. Procesamiento del lenguaje natural. Nº 27 (sept. 2001), pp. 141-148
Resumen: Crear un corpus extraído a partir de la Web está lejos de ser una tarea trivial. El elevado grado de heterogeneidad que es usual encontrar en el formato HTML, la gran cantidad de información irrelevante tanto en el sitio Web como dentro de una misma página y otros problemas de diversa índole, dificultan la obtención de un conjunto de documentos de aspecto homogéneo, estructurado y libre de ruido. Es presentada aquí una herramienta que pretende no sólo recuperar y almacenar selectivamente determinados sitios Web, sino dotar a los documentos obtenidos de un formato conveniente y homogéneo para su procesamiento automático, con independencia del origen de cada documento.
URI: http://hdl.handle.net/10045/1796
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 27 (septiembre 2001)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_27_16.pdf38,12 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.