Ir al contenido

Documat


Uso de la detección de bigramas para categorización de texto en un dominio científico

  • Autores: Arturo Montejo Ráez Árbol académico, María Teresa Martín Valdivia Árbol académico, José Manuel Perea Ortega Árbol académico, Luis Alfonso Ureña López Árbol académico
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 44, 2010, págs. 91-98
  • Idioma: español
  • Enlaces
  • Resumen
    • español

      En este artículo se presentan una serie de experimentos aplicando la técnica de detección de multi-palabras para categorización de texto en un dominio científico. Para ello, se ha utilizado parte de la colección de artículos científicos de Física de Altas Energías (HEP) proporcionada por el Laboratorio Europeo de Física de Partículas (CERN). Los algoritmos de aprendizaje supervisado empleados para la experimentación han sido Rocchio y PLAUM. La técnica de detección de multi-palabras utilizada se ha limitado a secuencias fijas de dos términos como máximo, es decir, lo que se conoce como bigramas. El objetivo de este trabajo ha sido comprobar si el uso de bigramas frecuentes como términos característicos puede ser una mejora para la tarea de categorización de textos en este dominio específico, llegando a la conclusión de que la detección de multi-palabras no merece la pena ser usada para esta tarea en el dominio HEP.

    • English

      This paper presents some experiments using the technique of multi-words detection for text categorization in scientific domain. We have used part of the collection of scientific papers of High Energy Physics (HEP) provided by the European Laboratory of Particle Physics (CERN). The supervised machine learning algorithms employed have been Rocchio and PLAUM. The technique of multi-words detection used has been limited to fixed sequences of maximum two terms, known as bigrams. The aim of this study is to determine whether the use of frequent bigrams as unique features may be an improvement for text categorization task in this specific domain. Our conclusion is that multi-words detection should not be used for this task in the HEP domain.

  • Referencias bibliográficas
    • Buenaga, M., J.M. Gómez, y B. Díaz. 1997. Using wordnet to complement training information in text categorization. En Proeedings of Se ond...
    • Cavnar, W.B. y J.M. Trenkle. 1994. N-gram- based text categorization. En Symposium On Doument Analysis and Information Retrieval, páginas...
    • Churh, K. W. y P. Hanks. 1990. Word as-so iation norms, mutual information and lexiography. Computational Linguistis, 16(1):22-29.
    • Kilgarriff, A. y D. Tugwell. 2001. WORD SKETCH: Extration and display of significant collocations for lexiography. En Proc. Collocations Workshop,...
    • Lewis, D. D. 1992. Feature Seletion and Feature Extration for Text Categorization. En Proeedings of Speeh and Nat- ural Language Workshop,...
    • Li, Y., H. Zaragoza, R. Herbri h, J. Shawe-Taylor, y J. Kandola. 2002. The per ep-ron algorithm with uneven margins. En Proeedings of the...
    • MacKay, David J. C. 2003. Information theory, inference, and learning algorithms? Cambridge.
    • Peng, F. y D. Schuurmans. 2003. Combining naive bayes and n-gram language models for text classification. En Fabrizio Sebas- tiani, editor,...
    • Sebastiani, F. 2002. Machine learning in au-tomated textcategorization. ACM Com- put. Surv., 34(1):1-47.
    • Vassilevskaya, Lyubov A. 2002. An ap- proach to automatic indexing of sien- tific publications in high energy physis for database spires-hep....

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno