Experiments using varying sizes and machine translated data for sentiment analysis in Twitter

Alexandra Balahur Dobrescu; José Manuel Perea Ortega

Ayuda

Experiments using varying sizes and machine translated data for sentiment analysis in Twitter

Autores: Alexandra Balahur Dobrescu , José Manuel Perea Ortega
Localización: XXIX Congreso de la Sociedad Española de Procesamiento de Lenguaje Natural: SEPLN 2013 / coord. por Alberto Díaz Esteban , Iñaki Alegría Loinaz , Julio Villena Román, 2013, ISBN 978-84-695-8349-4, págs. 172-178
Idioma: inglés
Títulos paralelos:
- Experimentos utilizando diferentes tamaños y datos automáticamente traducidos para análisis de sentimientos en Twitter
Texto completo no disponible (Saber más ...)
Resumen
- español
  En este artículo presentamos varios experimentos para la tarea de aná- lisis de sentimientos a nivel global dentro de la campaña de evaluación TASS. El objetivo de esta tarea es evaluar la polaridad global de textos cortos en español extraídos de Twitter. Para abordar esta tarea se ha aplicado un enfoque basado en aprendizaje automático probando diferentes combinaciones de características. Se han empleado varios diccionarios y un corpus traducido automáticamente para entrenamiento, adaptando al español un enfoque inicial diseñado para trabajar con textos en inglés. Además, se probaron en cascada cuatro clasificadores separados para determinar el sentimiento desde clases de polaridad más generales a más precisas. Aunque ésta es nuestra primera participación, los enfoques propuestos se podrían considerar buenas estrategias para generar corpus de entrenamiento para sistemas de clasificación de la polaridad en español
- English
  In this paper we present several experiments for the task entitled sen- timent analysis at global level within the TASS evaluation campaign. The aim of this task is to assess the global polarity of Spanish short texts extracted from Twit- ter. To tackle this task, an approach based on machine learning by trying different feature combinations was applied. Several in-house built dictionaries and machine- translated data for training were employed by adapting an approach designed for English to Spanish. Additionally, four separate classifiers were tested in cascade to determine the sentiment from the general to the finer-grained classes of polarity. Although this is our first participation, the proposed approaches might be conside- red good strategies to generate learning data for polarity classification systems in Spanish