Alexandra Balahur Dobrescu , Andrés Montoyo Guijarro
La gran cantidad de opiniones que los usuarios emiten sobre las características de los productos en blogs, foros y en documentos en internet, son de gran ayuda para los posibles compradores o para las compañías que los producen. Sin embargo, determinar de forma automática si un usuario tiene una opinión positiva o negativa de las características de un producto o del propio producto es un problema complejo que requiere de varios pasos para su resolución. Inicialmente hay que identificar las características del producto, extraer los términos que expresan la opinión del usuario y finalmente clasificar el producto de forma positiva o negativa. Este artículo describe un método para resumir los comentarios positivos o negativos sobre el producto a partir de las opiniones que los usuarios expresan a través de las características de los productos. Este problema se resuelve utilizando varias aproximaciones. Inicialmente se utilizan las palabras que aparecen en WordNet Affect (Strapparava and Valitutti, 2004) que expresan sentimiento. Finalmente se utiliza el método de aprendizaje automático (Support Vector Machines Sequential Minimal Optimization (Platt, 1998)) aplicado a las medidas de similitud denominadas Normalized Google Distance (Cilibrasi and Vitanyi, 2006) y Latent Semantic Analysis (Deerwester et al., 1990). Los resultados obtenidos por estas medidas de similitud se comparan, para posteriormente ser analizados y presentar las ventajas y los inconvenientes cuando se aplican al sistema de minería y resúmenes de opiniones.
The high volume of user feedback on products under the form of reviews and forum or blog posts is helpful both to prospective buyers, as well as to producer companies. However, automatically determining the semantic orientation of the opinions expressed on different products and their features is a complex problem, requiring a series of steps: identifying the product features, extracting the opinion words present in a text and finally classifying them as positive or negative. This article concentrates on three approaches to solving the latter problem. One method employed determines polarity of the opinions expressed on the product features using on the one hand the sentiment bearing words in WordNet Affect (Strapparava and Valitutti, 2004). Two other methods explored involved determining the polarity of opinion holders (feature attributes) using Support Vector Machines Sequential Minimal Optimization (Platt, 1998) machine learning with the Normalized Google Distance (Cilibrasi and Vitanyi, 2006) and, respectively, with Latent Semantic Analysis (Deerwester et al., 1990) on a specialized versus a non-specialized corpus of user reviews. We comparatively analyze the methods, show the advantages and disadvantages resulted from using each of them and the results obtained by performing an evaluation on our opinion mining and summarization system.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados