Selección y ponderación de características para la clasificación de textos y su aplicación en el diagnóstico médico

Fernando Ruiz-Rico

Ayuda

Selección y ponderación de características para la clasificación de textos y su aplicación en el diagnóstico médico

Autores: Fernando Ruiz-Rico
Directores de la Tesis: David Tomás Díaz (dir. tes.) , José-Luis Vicedo González (codir. tes.)
Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2013
Idioma: español
Tribunal Calificador de la Tesis: Paloma Martínez Fernández (presid.) , Armando Suárez Cueto (secret.) , Paolo Rosso (voc.)
Enlaces
- Tesis en acceso abierto en: RUA
Resumen
- Mediante la clasificación de textos conseguimos agrupar automáticamente documentos en clases predefinidas, consistentes en categorías que nos permiten identificar ciertas propiedades que puedan tener en común las entidades textuales. Nosotros planteamos la construcción de un sistema de clasificación adaptable a diversos dominios y que cumpla con los requisitos básicos para ser utilizado en aplicaciones del mundo real. Dentro de todos los posibles ámbitos, nos hemos decantado por su uso para el desarrollo de asistentes médicos y hemos centrado nuestra investigación dentro del aprendizaje automático supervisado [1], intentando ante todo que el proceso de aprendizaje sea completamente autónomo y que no requiera ajustes manuales ni intervención humana.
  
  Proponemos una estrategia para escoger, extraer y ponderar las características de cada documento de forma que se obtenga una representación más eficiente que con métodos tradicionales, tales como la bolsa de palabras [2]. Además, el algoritmo planteado es eficiente desde el punto de vista computacional, fácil de implementar, se adapta automáticamente a cada dominio y utiliza aprendizaje incremental.
  
  Al utilizar información puramente estadística, el sistema se puede utilizar para diferentes idiomas y dominios, con lo que conseguimos independencia respecto al corpus. A más bajo nivel, esto nos permite calcular los pesos de los términos a partir de datos extraídos directamente de los textos sin ningún tipo de conocimiento lingüístico.
  
  Respecto a la escalabilidad del método propuesto, presentamos una gran ventaja derivada del hecho de que es posible disponer de colecciones que crezcan de manera continua. Se puede actualizar el clasificador mediante nuevas muestras que incrementen su capacidad de clasificación sin tener que volver a procesar todos los documentos de entrenamiento.
  
  [1] "Machine learning in automated text categorization", 2002, Fabrizio Sebastiani.
  
  [2] "Hierarchical text classification using methods from machine learning", 2003, Michael Granitzer.