La explotación de los conceptos de la Entrevista Motivacional para el análisis de texto contribuye a obtener valiosas lecciones sobre las actitudes y perspectivas de los individuos hacia el cambio de comportamiento. La escasez de datos de usuario etiquetados plantea un desafío continuo e impide avances técnicos en la investigación bajo escenarios de idiomas no ingleses. Para abordar las limitaciones del etiquetado manual de datos, proponemos un método de aprendizaje semisupervisado como medio para aumentar un corpus de entrenamiento existente. Nuestro enfoque aprovecha los datos generados por usuarios obtenidos de comunidades en redes sociales y usando traducción automática y emplea técnicas de autoentrenamiento para la asignación de etiquetas. Con este fin, consideramos varias fuentes y llevamos a cabo una evaluación de múltiples clasificadores entrenados en varios conjuntos de datos aumentados. Los resultados indican que este enfoque de etiquetado débil no produce mejoras en las capacidades de clasificación generales de los modelos. Sin embargo, se observaron mejoras notables para las clases minoritarias. Concluimos que varios factores, incluida la calidad de la traducción automática, pueden potencialmente sesgar los modelos de pseudoetiquetado y que la naturaleza desequilibrada de los datos y el impacto de un umbral de pre-filtrado estricto deben tenerse en cuenta como factores inhibidores del rendimiento.
The exploitation of Motivational Interviewing concepts for text analysis contributes to gaining valuable insights into individuals’ perspectives and attitudes towards behaviour change. The scarcity of labelled user data poses a persistent challenge and impedes technical advances in research under non-English language scenarios. To address the limitations of manual data labelling, we propose a semi-supervised learning method as a means to augment an existing training corpus. Our approach leverages machine-translated user-generated data sourced from social media communities and employs self-training techniques for annotation. To that end, we consider various source contexts and conduct an evaluation of multiple classifiers trained on various augmented datasets. The results indicate that this weak labelling approach does not yield improvements in the overall classification capabilities of the models. However, notable enhancements were observed for the minority classes. We conclude that several factors, including the quality of machine translation, can potentially bias the pseudo-labelling models and that the imbalanced nature of the data and the impact of a strict pre-filtering threshold need to be taken into account as inhibiting factors.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados