Ir al contenido

Documat


Selección y ponderación de características para la clasificación de textos y su aplicación en el diagnóstico médico

  • Autores: Fernando Ruiz-Rico
  • Directores de la Tesis: David Tomás Díaz (dir. tes.) Árbol académico, José-Luis Vicedo González (codir. tes.) Árbol académico
  • Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2013
  • Idioma: español
  • Tribunal Calificador de la Tesis: Paloma Martínez Fernández (presid.) Árbol académico, Armando Suárez Cueto (secret.) Árbol académico, Paolo Rosso (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en: RUA
  • Resumen
    • Mediante la clasificación de textos conseguimos agrupar automáticamente documentos en clases predefinidas, consistentes en categorías que nos permiten identificar ciertas propiedades que puedan tener en común las entidades textuales. Nosotros planteamos la construcción de un sistema de clasificación adaptable a diversos dominios y que cumpla con los requisitos básicos para ser utilizado en aplicaciones del mundo real. Dentro de todos los posibles ámbitos, nos hemos decantado por su uso para el desarrollo de asistentes médicos y hemos centrado nuestra investigación dentro del aprendizaje automático supervisado [1], intentando ante todo que el proceso de aprendizaje sea completamente autónomo y que no requiera ajustes manuales ni intervención humana.

      Proponemos una estrategia para escoger, extraer y ponderar las características de cada documento de forma que se obtenga una representación más eficiente que con métodos tradicionales, tales como la bolsa de palabras [2]. Además, el algoritmo planteado es eficiente desde el punto de vista computacional, fácil de implementar, se adapta automáticamente a cada dominio y utiliza aprendizaje incremental.

      Al utilizar información puramente estadística, el sistema se puede utilizar para diferentes idiomas y dominios, con lo que conseguimos independencia respecto al corpus. A más bajo nivel, esto nos permite calcular los pesos de los términos a partir de datos extraídos directamente de los textos sin ningún tipo de conocimiento lingüístico.

      Respecto a la escalabilidad del método propuesto, presentamos una gran ventaja derivada del hecho de que es posible disponer de colecciones que crezcan de manera continua. Se puede actualizar el clasificador mediante nuevas muestras que incrementen su capacidad de clasificación sin tener que volver a procesar todos los documentos de entrenamiento.

      [1] "Machine learning in automated text categorization", 2002, Fabrizio Sebastiani.

      [2] "Hierarchical text classification using methods from machine learning", 2003, Michael Granitzer.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno