Sistema de recomendación para la recuperación automática de enlaces web rotos

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/8575
Información del item - Informació de l'item - Item information
Título: Sistema de recomendación para la recuperación automática de enlaces web rotos
Título alternativo: Recommendation system for automatic recovering broken Web links
Autor/es: Martínez Romo, Juan | Araujo Serna, Lourdes
Palabras clave: Recuperación de información | World Wide Web | Enlaces rotos | Information retrieval | Broken links | Link integrity
Fecha de publicación: sep-2008
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: MARTÍNEZ ROMO, Juan; ARAUJO SERNA, Lourdes. “Sistema de recomendación para la recuperación automática de enlaces web rotos”. Procesamiento del lenguaje natural. N. 41 (sept. 2008). ISSN 1135-5948, pp. 165-172
Resumen: Tanto en las páginas Web a las que accedemos cuando navegamos por Internet, como en las nuestras propias, a veces encontramos enlaces que han dejado de ser válidos. A menudo la búsqueda de la página que correspondía a dichos enlaces no es sencilla. En este trabajo investigamos distintas formas de recuperar automáticamente dichas páginas, de manera que le podamos ofrecer al usuario una lista de direcciones Web candidatas para sustituir el enlace roto. Concretamente utilizamos de forma alternativa o combinada, dependiendo de las características de la página y del enlace, el texto del ancla e información extraída de la Web en la que se encuentra el enlace roto. La información extraída de estas fuentes se utiliza para realizar una consulta con un motor de búsqueda usual, como Google o Yahoo. El sistema ordena posteriormente las páginas recuperadas en base a su contenido, utilizando técnicas de recuperación de información, y finalmente el resultado es presentado al usuario. Presentamos los resultados del análisis realizado sobre numerosos enlaces seleccionados aleatoriamente, los cuales nos han permitido decidir en qué condiciones es posible hacer una recomendación con un alto grado de fiabilidad. | In the Web pages accessed when navigating through Internet or even in our own Web pages, we sometimes find links which are not valid any more. The search of the right Web pages which correspond to those links is often hard. In this work we have analyzed different sources of information to automatically recover broken Web links so that the user can be offered a list of possible pages to substitute that link. Specifically, we have used either the anchor text or the Web page containing the link, or a combination of both. The information extracted is then used to perform a search with some of the usual search engines, such as Google or Yahoo. The candidate pages are then ranked applying information retrieval techniques on their content. Finally, the user is presented the pages resulting from this process. We report the analysis of a number of issues on a set of links randomly chosen, what has allowed us to decide the conditions under which the system can make a reliable recommendation.
Patrocinador/es: Trabajo financiado por el proyecto TIN2007-67581-C02-01.
URI: http://hdl.handle.net/10045/8575
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 41 (septiembre 2008)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_41_20.pdf218,36 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.