Webcrawling clustering en espacio multidimensional basado en distancia y su aplicación a Opinion Mining

Ezequiel Gorbatik; Hugo O. Barrera; E. Schneider Loaiza; Fabián Riaño Santiesteban; M. Daniela López De Luise

Ayuda

Webcrawling clustering en espacio multidimensional basado en distancia y su aplicación a Opinion Mining

Gorbatik, Ezequiel ^[1] ; Barrera, Hugo O. ^[1] ; Schneider Loaiza, E. ^[1] ; Riaño Santiesteban, Fabián ^[1] ; López De Luise, M. Daniela ^[1]
1. [1] Universidad de Palermo
Localización: Ciencia y tecnología, ISSN 1850-0870, ISSN-e 2344-9217, Nº. 12, 2012, págs. 7-25
Idioma: español
DOI: 10.18682/cyt.v1i12.638
Enlaces
- Texto completo
Resumen
- La explosión multimedial y la revolución surgida a partir de la Web 2.0 donde los consumidores de información son a su vez productores de contenido han reflejado un cambio de paradigma en la comunicación. Este cambio vuelve a las herramientas de sondeo de opinión tales como encuestas, focus group y sondeos telefónicos limitadas en su alcance, imprecisas en sus resultados y sesgadas por sus métodos convirtiendo a las mismas en prácticamente obsoletas. Los medios de comunicación se han hecho eco de esto y en los medios más representativos se permite a los lectores participar de las noticias por medio de las redes sociales. Son necesarias para explorar y descubrir de manera continua y sistematizada estos nuevos canales de expresión, analizar los contenidos de las expresiones en los mismos y poder extraer conocimiento de estos flujos de información a escala masiva. En este trabajo se parte de un nuevo concepto de la minería de datos, se analiza una nueva estrategia para descubrir nuevos canales mediante el Webcrawling inteligente, se proponen nuevos formas de modelado de conceptos y opiniones para poder sintetizarlos y cuantificarlos para su posterior análisis, se da a conocer un método para realizar este análisis de las percepciones y finalmente se demuestran las posibilidades de clusterización de la información obtenida.
Referencias bibliográficas
- Susan T. Dumais (2005). “Latent Semantic Analysis”. Annual Review of Information Science and Technology Ke Hu y Wing Shing Wong, “A...
- Vladislav D. Veksler, Ryan Z. Govostes, Wayne D. Gray; “Defining the Dimensions of the Human Semantic Space”
- Rudi Cilibrasi y Paul Vitanyi, “The Google Similarity Distance”, 2004
- G. Jeh y J. Widom. SimRank: a measure of structural-context similarity.
- Gerlof Bouma, Normalized (Pointwise) Mutual Information in Collocation Extraction
- A. Evangelista and B. Kjos-Hanssen, Google Distance Between Words.
- Levenshtein VI (1966). “Binary codes capable of correcting deletions, insertions, and reversals”
- Navarro G (2001). “A guided tour to approximate string matching”
- Lovins, J.B. “Development of a Stemming Algorithm”. Mechanical Translation and computation Linguistics.
- Andrews, K. “The Development of a Fast Conflation Algorithm for English”. University of Cambrigde, 1971
- M.F. Porter, An algorithm for suffix stripping, 1980
- W. J. Frawley, Piatetsky G. Shapiro, C. J. Matheus, Ai Magazine, Vol. 13 (1992), pp. 57-70
- Freddy Y. Y. Choi (2000). “Advances in domain independent linear text segmentation”
- Christopher D. Manning, Hinrich Schütze: Foundations of Statistical Natural Language Processing
- Kirill A. Sorudeykin A Model of Spatial Thinking for Computational Intelligence
- Mihaiela Lupea, Doina Tatar, Zsuzsana Marian “Learning Taxonomy for Text Segmentation by Formal Concept Analysis”
- C. Schommer, “An Unified Definition of Data Mining”, 2008 http://incubator.apache.org/opennlp/
- Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine.
- Debajyoti Mukhopadhyay, Sajal Mukherjee, Soumya Ghosh, Saheli Kar, Young-Chon Kim “Architecture of A Scalable Dynamic Parallel WebCrawler...
- Dimitris Papamichail and Georgios Papamichail “Improved Algorithms for Approximate String Matching”
- Ludwig Bertalanffy “general system theory: foundations, development, applications (revised edition)”, 1969