Consultas degradadas en recuperación de información textual

Otero Pombo, Juan; Vilares Ferro, Jesús; Vilares Ferro, Manuel

Consultas degradadas en recuperación de información textual

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/10532

Información del item - Informació de l'item - Item information
Título:	Consultas degradadas en recuperación de información textual
Título alternativo:	Corrupted queries in text retrieval
Autor/es:	Otero Pombo, Juan \| Vilares Ferro, Jesús \| Vilares Ferro, Manuel
Palabras clave:	n-gramas de caracteres \| Consultas degradadas \| Recuperación de información \| Corrección ortográfica \| Character n-grams \| Degraded queries \| Information retrieval \| Spelling correction
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	mar-2009
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	OTERO POMBO, Juan; VILARES FERRO, Jesús; VILARES FERRO, Manuel. “Consultas degradadas en recuperación de información textual”. Procesamiento del lenguaje natural. N. 42 (marzo 2009). ISSN 1135-5948, pp. 9-16
Resumen:	En este artículo proponemos dos alternativas para el tratamiento de consultas degradadas en aplicaciones de Recuperación de Información en español. La primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos lingüísticos disponibles. Como segunda alternativa, proponemos a su vez dos técnicas de corrección ortográfica, integrando una de ellas un modelo estocástico que debe ser entrenado previamente a partir de un texto etiquetado. Con el fin de estudiar su validez, se ha diseñado un marco de pruebas sobre el que se han evaluado ambas aproximaciones. \| In this paper, we propose two different alternatives to deal with degraded queries on Spanish Information Retrieval applications. The first is based on character n-grams, and has no dependence on the linguistic knowledge and resources available. In the second, we propose two spelling correction techniques, one of which has a strong dependence on a stochastic model that must be previously built from a PoStagged corpus. In order to study their validity, a testing framework has been designed and applied on both approaches for evaluation.
Patrocinador/es:	Este trabajo ha sido parcialmente subvencionado por el Ministerio de Educación y Ciencia y FEDER (a través de los proyectos de investigación HUM2007-66607-C04-02 y HUM2007-66607-C04-03), y por la Xunta de Galicia (a través de los proyectos 05PXIC30501PN, 07SIN005206PR, INCITE07PXI104119ES y la ”Red Gallega de PLN y RI”).
URI:	http://hdl.handle.net/10045/10532
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Revisión científica:	si
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 42 (marzo 2009)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_42_01.pdf		824,66 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo