Ir al contenido

Documat


Distribuciones de clases no balanceadas: métricas, análisis de complejidad y algoritmos de aprendizaje

  • Autores: Vicente García Jiménez Árbol académico
  • Directores de la Tesis: Ramón Alberto Mollineda Cardenas (dir. tes.) Árbol académico, J. S. Sanchez (dir. tes.) Árbol académico
  • Lectura: En la Universitat Jaume I ( España ) en 2010
  • Idioma: español
  • Tribunal Calificador de la Tesis: Francesc Josep Ferri Rabasa (presid.) Árbol académico, Pedro García Sevilla (secret.) Árbol académico, Luisa Micó Andrés (voc.) Árbol académico, Ester Bernadó Mansilla (voc.) Árbol académico, César Ferri Ramírez (voc.) Árbol académico
  • Enlaces
    • Tesis en acceso abierto en:  TESEO  TDX 
  • Resumen
    • El problema de las distribuciones no balanceadas de datos entre clases ha recibido una considerable atención en disciplinas como el Aprendizaje Automático, el Reconocimiento de Formas y la Minería de Datos, Un conjunto de dos clases se dice que es no balanceado si una de las clases (mayoritaria) está significativamente más representada que la otra (minoritaria). Este tipo de complejidad de los datos puede conducir, en métodos tradicionales de clasificación, a aprendizajes sesgados en perjuicio de la clase minoritaria que, usualmente, contiene los casos de mayor interés.

      Actualmente, es posible identificar tres grandes líneas de investigación sobre dicha problemática. En este sentido, la presente tesis doctoral aborda el problema del desbalance desde las perspectivas de evaluación del aprendizaje, solución y análisis de la complejidad de los datos.

      En el caso de las métricas de efectividad, se propone una nueva forma de evaluar los clasificadores que solventa una posible desventaja de las métricas tradicionales, las cuales no consideran la magnitud ni el sentido de la diferencia entre las tasas de aciertos por clase.

      Dentro del campo de las soluciones para tratar el desbalance, se proponen nuevos esquemas para reducir/incrementar la talla de las clases mayoritaria/minoritaria, respectivamente. Asimismo, se presenta una solución algorítmica para la regla del vecino más cercano con el objetivo de favorecer la clasificación de muestras de la clase minoritaria. Este análisis no sólo se centra en el beneficio que podría representar cada una de las soluciones, sino también en cómo estas se ven afectadas por la naturaleza del clasificador, el sesgo de los datos y las métricas de efectividad.

      Finalmente, la tercera línea de investigación abordada en esta tesis se centra en analizar los efectos sobre el aprendizaje que produce la presencia en los datos de complejidades como el desbalance y solapamiento. Los resultados muestran que el desbalance local en la región de solapamiento puede ser más determinante que el desbalance global y que la talla de dicha región


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno