Ir al contenido

Documat


Análisis de sentimientos en español en tuits relacionados con las enfermedades infecciosas

  • Autores: Óscar Omar Apolinario Arzube
  • Directores de la Tesis: Rafael Valencia García (dir. tes.) Árbol académico
  • Lectura: En la Universidad de Murcia ( España ) en 2021
  • Idioma: español
  • Número de páginas: 192
  • Tribunal Calificador de la Tesis: Juan Miguel Gómez-Berbís (presid.) Árbol académico, Francisco García Sánchez (secret.) Árbol académico, María del Pilar Salas-Zárate (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: DIGITUM
  • Resumen
    • español

      La ingeniería lingüística es la herramienta que, por medio de las computadoras permiten investigar o entender lo expresado en el lenguaje natural sobre las redes sociales. El procesamiento del lenguaje natural es un área de inteligencia artificial enfocada para entender y modelar el cerebro humano. En este entorno, la minería de opiniones o análisis del sentimiento abarca técnicas del procesamiento del lenguaje natural, lingüística computacional y minería de textos que tienen como objetivo la extracción de información subjetiva a partir de contenidos generados en las redes sociales. Del estudio del estado del arte se concluye que, aunque existen estudios relacionados sobre el procesamiento del lenguaje natural en la salud, no son suficientes para verificar las nuevas técnicas de clasificación de información para los corpus propuestos; que permitan maximizar modelos predictivos del análisis de sentimiento tanto por los investigadores como por los profesionales de la salud. La motivación de este estudio es proporcionar nuevos recursos para el análisis de sentimientos en medicina, la creación de dos corpus; uno para las enfermedades infectocontagiosas como el ZIKA y otro para el COVID-19; aplicando así el estudio de distintas tecnologías para ver cómo se pueden clasificar los sentimientos en estos dominios y ampliar el estudio de esas mismas tecnologías para la detección de la SATIRA.

      Objetivos. El objetivo principal de esta tesis doctoral es la aplicación de técnicas para clasificación de sentimientos en modelos predictivos para el procesamiento del lenguaje de corpus en el dominio de enfermedades infectocontagiosas como ZIKA y COVID-19; extendiendo este mismo análisis sobre un corpus del género literario SATIRA para lograr una mejor precisión en la predicción de sentimiento sobre lo expresado en redes sociales y el entendimiento del lenguaje natural. Para conseguir este objetivo se plantearon los siguientes subobjetivos: • Obtención de un corpus sobre el dominio de enfermedades infectocontagiosas Zika, dengue y chikungunya. • Obtención de un corpus sobre el dominio de enfermedades infectocontagiosas Covid-19. • Obtención de un corpus sobre el dominio en el género literario de la sátira. • Obtención de modelos de clasificación para la predicción de sentimientos en cada uno de los corpus. • Obtención del mejor clasificador de precisión en cada uno de los corpus por tipos de clasificadores.

      Metodología. Esta tesis doctoral se desarrolló mediante 3 fases principalmente: la primera fase fue el estudio del estado del arte que se ha mostrado en este capítulo; la segunda fue la elaboración de métodos y artefactos de clasificación y predicción que permitan el tratamiento de los corpus propuestos; y la tercera la validación de la propuesta. • Estudio del estado del arte: Estudio de los conceptos y términos de la inteligencia artificial en el campo del lenguaje natural, técnicas del aprendizaje automático supervisado y no supervisado, modelos para la predicción de sentimiento y herramientas para la clasificación de texto. Además, se analizaron las distintas investigaciones en el ámbito de la minería de opiniones sobre modelos y su aplicabilidad en distintos dominios. • Elaboración de laboratorios para la obtención de modelos que realicen la predicción de sentimientos sobre los corpus en el contexto de esta tesis doctoral; también se desarrollaron las matrices de confusión para evaluar del sentimiento real vs la predicción obtenida en cada uno de los corpus.

      Resultados. Validación de los laboratorios: Con el detalle de los hyper-parámetros utilizados y el resultado obtenido de las predicciones para cada una de las ejecuciones realizadas. Aquí encontraremos los resultados del mejor modelo usado para evaluar la partición de validación y test. Cada una tiene el reporte de clasificación con la accuracy, precision, recall y f1 de cada clase.

    • English

      Linguistic engineering is the tool that, through computers, allows us to investigate or understand what is expressed in natural language on social networks. Natural language processing is an area of artificial intelligence focused on understanding and modeling the human brain. In this environment, opinion mining or sentiment analysis encompasses techniques of natural language processing, computational linguistics and text mining that aim to extract subjective information from content generated on social networks. From the study of the state of the art it is concluded that, although there are related studies on natural language processing in health, they are not enough to verify the new information classification techniques for the proposed corpus; that allow maximizing predictive models of sentiment analysis by both researchers and health professionals. The motivation of this study is to provide new resources for the analysis of feelings in medicine, the creation of two corpus; one for infectious diseases such as ZIKA and another for COVID-19; thus, applying the study of different technologies to see how feelings can be classified in these domains and expand the study of these same technologies for the detection of SATIRA.

      Objectives. The main objective of this doctoral thesis is the application of techniques for the classification of feelings in predictive models for the processing of corpus language in the domain of infectious diseases such as ZIKA and COVID-19; extending this same analysis on a corpus of the literary genre SATIRA to achieve a better precision in the prediction of feelings about what is expressed in social networks and the understanding of natural language. To achieve this objective, the following sub-objectives were proposed: • Obtaining a corpus on the domain of infectious diseases Zika, dengue and chikungunya. • Obtaining a corpus on the domain of Covid-19 infectious diseases. • Obtaining a corpus on the domain in the literary genre of satire. • Obtaining classification models for the prediction of feelings in each of the corpus. • Obtaining the best precision classifier in each of the corpus by type of classifiers. Methodology. This doctoral thesis was developed mainly through 3 phases: the first phase was the study of the state of the art that has been shown in this chapter; the second was the elaboration of classification and prediction methods and artifacts that allow the treatment of the proposed corpus; and the third the validation of the proposal. • Study of the state of the art: Study of the concepts and terms of artificial intelligence in the field of natural language, techniques of supervised and unsupervised machine learning, models for the prediction of sentiment and tools for text classification. In addition, the different investigations in the field of opinion mining on models and their applicability in different domains were analyzed. • Elaboration of laboratories to obtain models that make the prediction of feelings about the corpus in the context of this doctoral thesis; Confusion matrices were also developed to evaluate the real sentiment vs. the prediction obtained in each of the corpus. Results. Validation of the laboratories: With the detail of the hyper-parameters used and the result obtained from the predictions for each one of the executions carried out. Here we will find the results of the best model used to evaluate the validation and test partition. Each one has the classification report with the accuracy, precision, recall and f1 of each class.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno