Ir al contenido

Documat


Explorando Twitter mediante la Integración de Información Estructurada y No Estructurada

  • Autores: Juan Manuel Cotelo, Fermín Cruz Mata Árbol académico, Francisco Javier Ortega Rodríguez Árbol académico, José Antonio Troyano Jiménez Árbol académico
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 55, 2015, págs. 75-82
  • Idioma: español
  • Títulos paralelos:
    • Exploring Twitter by Combining Structured and Unstructured Information
  • Enlaces
  • Resumen
    • español

      En este artículo mostramos cómo es posible sacar partido de la información estructurada que proporciona la red social Twitter. Los textos escritos en Twitter son cortos y de baja calidad, lo que dificulta la aplicación de técnicas y herramientas que tradicionalmente se han venido usando para procesar textos en lenguaje natural. Sin embargo, Twitter ofrece mucho más que los 140 caracteres de sus mensajes para trabajar. En el ecosistema Twitter hay muchos objetos (tweets, hashtags, usuarios, palabras, ...) y relaciones entre ellos (co-ocurrencia, menciones, re-tuiteos, ...) que ofrecen innumerables posiblidades de procesado alternativo a las técnicas clásicas de PLN. En este trabajo hemos puesto nuestra atención en la tarea de clasificación de tweets. Sólo usando la información de la relación Follow hemos conseguido un clasificador que iguala los resultados de un clasificador basado en bolsas de palabras. Cuando usamos las features de los dos modelos, el resultado de la clasificación mejora en más de 13 puntos porcentuales con respecto a los modelos originales lo que demuestra que ambos clasificadores aportan informaciones complementarias. También hemos aplicado la misma filosofía a la tarea de recopilación del corpus con el que hemos trabajado, usando una técnica de recuperación dinámica basada en relaciones entre entidades Twitter que nos ha permitido construir una colección de tweets más representativa.

    • English

      In this paper we show how it is possible to extract useful knowledge from Twitter structured information that can improve the results of a NLP task. Tweets are short and low quality and this makes it difficult to apply classical NLP techniques to this kind of texts. However, Twitter offers more than 140 characters in their messages to work with. In Twitter ecosystem there are many objects (tweets, hashtags, users, words, ...) and relationships between them (co-occurrence, mentions, re-tweets, ...) that allow us to experiment with alternative processing techniques. In this paper we have worked with a tweet classification task. If we only use knowledge extracted from the relationship Follow we achieve similar results to those of a classifier based on bags of words. When we combine the knowledge from both sources we improve the results in more than 13 percentual points with respect to the original models. This shows that structured information is not only a good source of knowledge but is also complementary to the content of the messages. We also have applied the same philosophy to the task of collecting the corpus for our classification task. In this case we have use a dynamic retrieval technique based on relationships between Twitter entities that allows us to build a collection of more representative tweets.

  • Referencias bibliográficas
    • Abel, F., Q. Gao, G.J. Houben, y K. Tao. 2011. Semantic enrichment of twitter posts for user profile construction on the social web. En The...
    • Agarwal, A., B. Xie, I. Vovsha, O. Rambow, y R. Passonneau. 2011. Sentiment analysis of twitter data. En Proceedings of the Workshop on Languages...
    • Ball, B., B. Karrer, y M. Newman. 2011. Efficient and principled method for detecting communities in networks. Physical Review E, 84(3):36–103.
    • Chen, Y., H. Amiri, Z. Li, y T. Chua. 2013. Emerging topic detection for organizations from microblogs. En Proceedings of the 36th international ACM...
    • Fernández, J., Y. Gutiérrez, J.M. Gómez, y P. Martinez-Barco. 2014. Gplsi: Supervised sentiment analysis in twitter using skipgrams. SemEval...
    • Girvan, M. y M. EJ Newman. 2002. Community structure in social and biological networks. Proceedings of the National Academy of Sciences, 99(12):7821– 7826.
    • Han, B. y T. Baldwin. 2011. Lexical normalisation of short text messages: Makn sens a# twitter. En Proceedings of the 49th Annual Meeting...
    • Han, B., P. Cook, y T. Baldwin. 2014. Text-based twitter user geolocation prediction. Journal of Artificial Intelligence Research, páginas...
    • Lau, J.H., N. Collier, y T. Bald-win. 2012. On-line trend analysis with topic models:\# twitter trends detection Explorando Twitter mediante...
    • Mejova, Y., P. Srinivasan, y B. Boynton. 2013. Gop primary season on twitter: popular political sentiment in social media. En Proceedings...
    • Montejo-Ráez, A., E. Martínez-Cámara, M. T. Martín-Valdivia, y L. A. Ureña-López. 2014. Ranked wordnet graph for sentiment polarity classification...
    • Page, L., S. Brin, R. Motwani, y T. Winograd. 1999. The page-rank citation ranking: Bringing order to the web. Pennacchiotti, M. y A.M. Popescu....
    • Pla, F. y L.F. Hurtado. 2014. Sentiment analysis in twitter for spanish. En Natural Language Processing and Information Systems. Springer,...
    • Schulz, A., E. Loza Mencía, T. T. Dang, y B. Schmidt. 2014. Evaluating multi-label classifica-tion of incident-related tweets. Making Sense...
    • Shen, H., X. Cheng, K. Cai, y M. Hu. 2009. Detect overlapping and hierarchical community structure in net-works. Physica A: Statistical Mechanics...
    • Tumasjan, A., T. O Sprenger, P. G Sandner, y I. M. Welpe. 2010. Election forecasts with twitter: How 140 characters reflect the political...
    • Villena R., J., S. L. Serrano, E. Martínez Cámara, y J . C. González Cristóbal. 2013. Tass-workshop on sentiment analysis at sepln. Procesamiento...
    • Vitale, D., P. Ferragina, y U. Scaiella. 2012. Classification of short texts by deploying topical annotations. En Advances in Information...
    • Wolpert, D. H. 1992. Stacked generalization Neural networks, 5(2):241–259.

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno