Ir al contenido

Documat


Resumen de EmotiBlog: a fine-grained annotation schema for labelling subjectivity in the new-textual genres born with the Web 2.0

Ester Boldrini, Alexandra Balahur Dobrescu Árbol académico, Patricio Martínez Barco Árbol académico, Andrés Montoyo Guijarro Árbol académico

  • español

    El crecimiento exponencial de la información subjetiva en el marco de la Web 2.0 ha creado la necesidad de producir herramientas de Procesamiento del Lenguaje Natural que sean capaces de analizar y procesar estos datos para aplicaciones concretas. Estas herramientas requieren un entrenamiento con corpus anotados con este tipo de información a nivel muy detallado para poder capturar aquellos fenómenos lingüísticos que contienen una carga emotiva. El presente artículo describe EmotiBlog, un modelo detallado para la anotación de la subjetividad. Presentamos el proceso de creación y demostramos que aporta mejoras a los sistemas de aprendizaje automático. Para ello, empleamos distintos corpus que presentan textos de diversos géneros – una colección de noticias periodísticas en estilo indirecto, la colección de títulos de noticias anotados con la polaridad y emoción del SemEval 2007 (Tarea 14) e ISEAR, un corpus de expresiones reales de emociones. Además, demostramos que otros recursos pueden integrarse con EmotiBlog. Los resultados prueban que gracias a su estructura y parámetros de anotación, el modelo propuesto, EmotiBlog, proporciona ventajas considerables para el entrenamiento de sistemas que trabajan con minería de opiniones y detección de emoción.

  • English

    The exponential growth of the subjective information in the framework of the Web 2.0 has led to the need to create Natural Language Processing tools able to analyse and process such data for multiple practical applications. These applications require training on specifically annotated corpora, whose level of detail must be fine enough to capture the phenomena involved. This paper presents EmotiBlog – a fine-grained annotation scheme for subjectivity. We show the manner in which it is built and demonstrate the benefits it brings to the systems using it for training, through the experiments we carried out on opinion mining and emotion detection. We employ corpora of different textual genres –a set of annotated reported speech extracted from news articles, the set of news titles annotated with polarity and emotion from the SemEval 2007 (Task 14) and ISEAR, a corpus of real-life self-expressed emotion. We also show how the model built from the EmotiBlog annotations can be enhanced with external resources. The results demonstrate that EmotiBlog, through its structure and annotation paradigm, offers high quality training data for systems dealing both with opinion mining, as well as emotion detection.


Fundación Dialnet

Mi Documat