Ir al contenido

Documat


Application of Information Retrieval Techniques to Document Filtered Set Generation for External Plagiarism Detection

  • Autores: Daniel Micol Ponce, Óscar Ferrández Escámez, Rafael Muñoz Guillena Árbol académico
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 45, 2010, págs. 277-280
  • Idioma: inglés
  • Títulos paralelos:
    • Aplicación de Técnicas de Recuperación de Información a la Generación de Conjuntos Filtrados de Documentos para la Detección de Plagios Externos
  • Enlaces
  • Resumen
    • español

      En este artículo presentamos un método para la generación de conjuntos filtrados de documentos empleando técnicas de recuperación de información. Esto se presenta en el contexto de la detección de plagios externos, aunque las técnicas detalladas en este artículo son aplicables a cualquier tipo de documentos o consultas. La producción de conjuntos filtrados, y por ende la limitación del espacio de búsqueda del problema, puede resultar en una gran mejora de rendimiento y es utilizada hoy en día en gran cantidad de aplicaciones reales, como buscadores web. Respecto a la detección de plagios en documentos, la base de datos de textos con los que comparar el candidato sospechoso es potencialmente grande, y por lo tanto es muy recomendable aplicar técnicas de generación de conjuntos filtrados.

    • English

      In this paper we present an approach to generate document filtered sets using information retrieval techniques. This is presented in the context of external document plagiarism detection, although the techniques detailed in this paper are applicable to any sort of documents or queries. Producing filtered sets, and hence limiting the problem's search space, can be a tremendous performance improvement and is used today in many real world applications such as web search engines. With regards to document plagiarism detection, the database of documents to match the suspicious candidate against is potentially fairly large, and hence it becomes very recommendable to apply filtered set generation techniques.

  • Referencias bibliográficas
    • Gospodnetic, Otis, Erik Hatcher, and Michael McCandless. 2009. Lucene in Ac- tion. Manning Publications, 2nd edition.
    • Grozea, Cristian, Christian Gehl, and Marius Popescu. 2009. ENCOPLOT: Pairwise Sequence Matching in Linear Time Applied to Plagiarism Detection....
    • Kasprzak, Jan, Michal Brandejs, and Miroslav Kripac. 2009. Finding Plagiarism by Evaluating Document Similarities. In Proceedings of the SE- PLN'09...
    • Manning, Christopher D., Prabhakar Raghavan, and Hinrich Schutze. 2008. Introduc- tion to Information Retrieval. Cambridge University Press.
    • Potthast, Martin, Benno Stein, Andreas Eiselt, Alberto Barrón Cede~no, and Paolo Rosso. 2009. Overview of the 1st International Competition...
    • Stein, Benno, Sven Meyer zu Eissen, and Martin Potthast. 2007. Strategies for retrieving plagiarized documents. In Proceedings of the 30th...

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno