Ir al contenido

Documat


Organización automática de documentos mediante técnicas de análisis de redes

    1. [1] Universidad de Salamanca

      Universidad de Salamanca

      Salamanca, España

  • Localización: Scire: Representación y organización del conocimiento, ISSN 1135-3716, Vol. 23, Nº 2, 2017, págs. 25-36
  • Idioma: español
  • DOI: 10.54886/scire.v1i2.4453
  • Títulos paralelos:
    • Automatic organisation of documents using network analysis techniques
  • Enlaces
  • Resumen
    • español

      La organización automática de documentos permite conocer la estructura temática de grandes colecciones documentales. En este trabajo se plantea modelar la colección de documentos mediante una red o grafo de nodo y enlaces y aplicar técnicas de Análisis de Redes Sociales. Se describe un experimento llevado a cabo con una colección de noticias de prensa, analizando la estructura temática resultante tras aplicar técnicas de detección de comunidades de nodos en dos niveles de agrupamiento. Los resultados parecen bastante prometedores, planteando como trabajo futuro la implementación y comparación de diferentes algoritmos de detección de comunidades.

    • English

      Automatic organization of documents can showthe semantic structure of broad collections of documents. This paper proposes to model a document collection using a graph or network and then applying the so-called Social Networks Analysis techniques. We describe a practical experiment carried outwith a collection of newspaper articles,and then we analyze the topic structure resulting after applying community discovery techniques. Results look enough promising; we envisage as future work the application and comparison of different communities discovery algorithms.

  • Referencias bibliográficas
    • Aggarwal, C. C. y Zhai, C. (2012). A survey of text clustering algorithms. // Aggarwal y Zhai, eds.: Mining Text Data. Springer US: Boston...
    • Ares Brea, M.E.; Parapar López, J.; Barreiro García, A. (2011). Agrupamiento Documental. // Cacheda Seijo, F.; Fernández Luna, J. M.; Huete...
    • Arun, R.; Suresh, V.; Veni Madhavan, C. E.; Narasimha Murthy, M. N.; Zaki, M. J.; Yu, J. X.; Ravindran, B.; Pudi, V. (2010). On Finding the...
    • Blei, D., Ng, A.; Jordan, M. (2003). Latent dirichlet allocation. // The Journal of Machine Learning Research. 3, 9931022.
    • Baharudin, B.; Lee, L. H.; Khan, K. (2010). A review of machine learning algorithms for text-documents classification. // Journal of Advances...
    • Bohlin, L.; Edler, D.; Lancichinetti, A.; Rosvall, M. (2014). Community detection and visualization of networks with the map equation framework....
    • Campos Ibáñez, L. M.; Romero López, A. E. (2011). Clasificación documental. // Cacheda Seijo, F.; Fernández Luna, J.M. ; Huete Guadix, J.F....
    • Edler, D.; Rosvall, M. (2015). The infomap software package. http://www.mapequation.org/code.html (2017-02-16).
    • Eyheramendy, S.; Lewis, D. D.; Madigan, D. (2003). On the naive bayes model for text categorization. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.20.4949...
    • Figuerola, C. G. (2013). Clasificación automática de documentos: Un caso práctico. http://grulla.usal.es/figuerola2013clasificacion.pdf (2017-02-16).
    • Figuerola, C. G.; Quintanilla Fisac, M. A.; et al. (2017): Sistema de Indicadores para el SCSC (Spanish Corpus of Scientific Culture). http://grulla.usal.es/figuerola2017sistema.pdf...
    • Figuerola, G. C.; García Marco, F. J.; Pinto, M. (2017). Mapping the evolution of libray and information science (19782014) using topic modeling...
    • Griffiths, T. L.; Steyvers, M. (2004). Finding scientific topics. // Proceedings of the National Academy of Sciences. 101:1, 5228-5235.
    • Groves, T; Figuerola, C. G.; Quintanilla, M. A (2015). Ten years of science news: a longitudinal analysis of scientific culture in the Spanish...
    • Jain, A. K. (2010). Data clustering: 50 years beyond K-means. // Pattern recognition letters. 31:8, 651-666. http://www.ppgia.pucpr.br/~fabricio/ftp/Roges/JainClustering_PRL10.pdf...
    • Joachims, T. (1998, April). Text categorization with support vector machines: Learning with many relevant features. // European conference...
    • Joachims T. (2002) Learning to Classify Text Using Support Vector Machines – Methods, Theory and Algorithms. Boston, MA: Kluwer Academic Publishers.
    • Kim, S. B., Han, K. S., Rim, H. C., & Myaeng, S. H. (2006). Some effective techniques for naive bayes text classification. // IEEE transactions...
    • Hidayat, E. Y.; Firdausillah, F.; Hastuti, K.; Dewi, I. N.; Azhari, A. (2015). Automatic Text Summarization Using Latent Drichlet Allocation...
    • Lancichinetti, A.; Fortunato, S. (2009). Community detection algorithms: A comparative analysis. // Physical Review E. 80:5. http://arxiv.org/pdf/0908.1062v2.pdf...
    • Langley, P.; Iba, W.; Thompson, K. (1992). An analysis of bayesian classifiers. // Proceedings of National Conference on Artificial Intelligence....
    • Lee, C.; Cunningham, P. (2014) Community detection: Effective on large social networks. // Journal of Complex Networks. 2:1, 19–37. http://comnet.oxfordjournals.org/content/2/1/19.full.pdf+html...
    • Leydesdorff, L. (2008). On the normalization and visualization of author co-citation data: Salton's Cosine versus the Jaccard index. //...
    • Martin, S.; Brown, M.W.; Klavans, R.; Boyack K.W.(2011). OpenOrd: an open-source toolbox for large graph layout. // Proc. SPIE 7868, Visualization...
    • Martin-Pozuelo Campillos, M. P. (1996). La construcción teórica en archivística: el principio de procedencia. Madrid: Universidad Carlos III...
    • McCallum, A.; Nigam, K. (1998) A comparison of event models for naive bayes text classification. // AAAI-98 workshop on learning for text...
    • Otte, E.; Rousseau, R. (2002). Social network analysis: a powerful strategy, also for the information sciences. // Journal of information...
    • Plantié, M. ; Crampes, M. (2013) Survey on social community detection. // Social media retrieval, 65–85. http://hal.archives-ouvertes.fr/docs/00/80/42/34/PDF/Survey-on-SocialCommunity-Detection-V2.pdf...
    • Pons, P.; Latapy, M. (2005). Computing communities in large networks using random walks. // Computer and information sciences (ISCIS) 284–293....
    • Rendón, E.; Abundez, I.; Arizmendi, A.; Quiroz, E. (2011). Internal versus external cluster validation indexes. // International Journal of...
    • Rosvall, M.; Axelsson, D.; Bergstrom, C. (2009). The map equation. // European Physical Journal Special Topics. 178, 13–23.
    • Rousseeuw, P. J. (1987). Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis. Computational and Applied...
    • Salton, G.; McGill, M.J. (1983) Introduction to Modern Information Retrieval. New York, NY: McGraw-Hill.
    • Scott, J. (2013). Social network analysis. Thousand Oaks, CA, US: Sage Publications, Inc
    • Shawn, G.; Milligan, I. (2012).Review of MALLET, produced by Andrew Kachites McCallum. // Journal of Digital Humanities, 2:1. http://journalofdigitalhumanities.org/2-1/review-mallet-by-ian-milligan-and-shawn-graham/...
    • Yang, Y. (1999). An evaluation of statistical approaches to text categorization. // Information retrieval. 1:1-2, 69-90.

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno