Ir al contenido

Documat


Análisis de similitud basado en grafos: una nueva aproximación a la detección de plagio translingüe

  • Autores: Marc Franco-Salvador, Parth Gupta, Paolo Rosso Árbol académico
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 50, 2013, págs. 21-28
  • Idioma: español
  • Enlaces
  • Resumen
    • español

      La variante transling¨ue de la detecci´on de plagio autom´atica trata de detectar plagio entre documentos en diferentes idiomas. En los ´ultimos a�nos se han propuesto una serie de aproximaciones que hacen uso de tesauros, modelos de alineamiento o diccionarios estad´ýsticos para lidiar con la similitud a trav´es de idiomas. En este trabajo proponemos una nueva aproximaci´on a la detecci´on de plagio transling¨ue que hace uso de una red sem´antica multiling¨ue para generar grafos de conocimiento, obteniendo un modelo de contexto para cada documento, de lo cual carecen otros m´etodos. Para evaluar nuestra propuesta, utilizamos las particiones espa�nol-ingl´es y alem´an-ingl´es del corpus PAN-PC�11, comparando nuestros resultados con dos de las aproximaciones del estado del arte. Los resultados experimentales indican su potencial como alternativa para el an´alisis de similitud en detecci´on de plagio transling¨ue

    • English

      Cross-language variant of automatic plagiarism detection tries to detect plagiarism among documents across language pairs. In recent years a few approaches are proposed that use thesauri, alignment models or statistical dictionaries to deal with the similarity across languages. We propose a new approach to the crosslanguage plagiarism detection that makes use of a multilingual semantic network to generate knowledge graphs, obtaining a context model for each document which the other methods lack. To evaluate the proposed method, we use the Spanish-English and German-English partitions of the PAN-PC�11 corpus and compare our results with two state-of-the-art approaches. Experimental results indicate its potential to be a new alternative for similarity analysis in cross-language plagiarism detection

  • Referencias bibliográficas
    • Barrón-Cede˜no, Alberto. 2012. On the mono- and cross-language detection of text re-use and plagiarism. Ph.D. thesis, Universitat Politènica...
    • Barrón-Cede˜no, Alberto, Paolo Rosso, David Pinto, y Alfons Juan. 2008. On cross-lingual plagiarism analysis using a statistical model. En...
    • Brown, P. F., S. A. Della Pietra, V. J. Della Pietra, y R. L. Mercer. 1993. The mathematics of statistical machine translation: Parameter...
    • Dumais, S. T., T. A. Letsche, M. L. Littman, y T. K. Landauer. 1997. Automatic cross-language retrieval using latent semantic indexing. En...
    • Franco-Salvador, Marc, Parth Gupta, y Paolo Rosso. 2012. Cross-language plagiarism detection using BabelNet’s statistical dictionary. Computación...
    • Gupta, Parth, Alberto Barrón-Cede˜no, y Paolo Rosso. 2012. Cross-language high similarity search using a conceptual thesaurus. En Proc. 3rd...
    • Mcnamee, Paul y James Mayfield. 2004. Character n-gram tokenization for European language text retrieval. Information Retrieval, 7(1):73–97.
    • Montes y Gómez, Manuel, Alexander F. Gelbukh, Aurelio López-López, y Ricardo A. Baeza-Yates. 2001. Flexible comparison of conceptual graphs....
    • Navigli, Roberto y Simone Paolo Ponzetto. 2010. Babelnet: building a very large multilingual semantic network. En Proc. of the 48th annual...
    • Navigli, Roberto y Simone Paolo Ponzetto. 2012. Multilingual wsd with just a few lines of code: The babelnet api. En Proc. 50th annual meeting...
    • Och, F. J. y H. Ney. 2003. A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1):19–51.
    • Pinto, D., J. Civera, A. Barrón-Cede˜no, A. Juan, y P. Rosso. 2009. A statistical approach to crosslingual natural language tasks. Journal...
    • Potthast, M., A. Barrón-Cede˜no, B. Stein, y P. Rosso. 2010. An evaluation framework for plagiarism detection. En Proc. of the 23rd Int. Conf....
    • Potthast, Martin, Alberto Barrón-Cede˜no, Benno Stein, y Paolo Rosso. 2011a. Cross-language plagiarism detection. Language Resources and Evaluation,...
    • Potthast, Martin, Andreas Eiselt, Alberto Barrón-Cede˜no, Benno Stein, y Paolo Rosso. 2011b. Overview of the 3rd int. competition on plagiarism...
    • Pouliquen, B., R. Steinberger, y C. Ignat. 2003. Automatic linking of similar texts across languages. En Proc. Recent Advances in Natural...
    • Sowa, J. F. 1984. Conceptual structures: information processing in mind and machine. Addison-Wesley Longman.
    • Sowa, J. F. 1999. Knowledge representation: logical, philosophical and computational foundations. Brooks/Cole Publishing Co.
    • Stein, B. y M. Anderka. 2009. Collectionrelative representations: A unifying view to retrieval models. En Proc. 20th Int. Conf. on database...
    • Steinberger, R., B. Pouliquen, y C. Ignat. 2004. Exploiting multilingual nomenclatures and language-independent text features as an interlingua...
    • Steinberger, R., B. Pouliquen, A. Widiger, C. Ignat, T. Erjavec, D. Tufis, y D. Varga. 2006. The jrcacquis: A multilingual aligned parallel...
    • Vinokourov, A., J. Shawe-Taylor, y N. Cristianini. 2003. Inferring a semantic representation of text via cross-language correlation analysis....

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno