Resumen de UNED LSI en TASS 2013: Consideraciones acerca de la representación textual para la clasificación de tweets basada en recuperación de Información

Ayuda

Resumen de UNED LSI en TASS 2013: Consideraciones acerca de la representación textual para la clasificación de tweets basada en recuperación de Información

Ángel Castellanos González, Juan Manuel Cigarrán Recuero , Ana M. García Serrano

español
Este artículo resume el trabajo planteado para nuestra participación en el TASS 2013, planteado como una extensión del trabajo realizado para el TASS 2012. El trabajo planteado el año anterior estaba enfocado en la clasificación de tweets basada en un enfoque de Recuperación de Información: las clases son modeladas de acuerdo a la información textual de los tweets pertenecientes a ellas y los tweets a ser clasificados son utilizados como query contra estos modelos. Este año hemos aplicado esta aproximación sobre las tareas de Sentiment Analysis y Topic Classification, pero este año nuestro trabajo está enfocado a analizar el tipo de información de los tweets a utilizar para llevar a cabo la clasificación y qué proceso debe seguirse para tener en cuenta esta información. En este sentido, hemos planteado diferentes tipos de modelado, así como diferente maneras de llevar a cabo el proceso de Recuperación de Información de acuerdo a los diferentes tipos de información. Los resultados obtenidos sugieren que si bien la utilización de este tipo de información es valiosa (especialmente las entidades nombradas), debe hacerse siempre en conjunto con el contenido global de los tweets.
English
This article summarizes the work proposed for our participation at TASS 2013, which is proposed as an extension of work done for TASS 2012. The work carried out the previous year was focused on the tweet classification based on an Information Retrieval (IR) approach: the classes are modeled according to the textual information of the tweets belonging to each class, and the tweets to be classified are used as query. This year we have applied this approach on Sentiment Analysis and Topic Classification tasks, but this year our work is focused on analyzing the type of tweet information to use to carry out the classification and what process should be followed to take this information into account. In this sense, we have proposed different types of modeling as well as different ways of performing the information retrieval process according to the different types of information. The results suggest that although the use of this type of information is valuable (especially named entities), it should always be done in conjunction with the overall content of the tweets.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Mi Documat

Selección

Coordinado por: