Ir al contenido

Documat


Resumen de Contribuciones al problema de clasificación en machine learning

Yolanda Orenes Casanova

  • El problema de clasificación es un tema muy estudiado en la ciencia de datos, en concreto en el campo del aprendizaje automático o “machine learning”. En la actualidad cada vez hay más información y los agentes económicos y sociales quieren extraer conclusiones relevantes de los datos que les ayuden a tomar mejores decisiones. El problema de clasificación es muy importante en la toma de decisiones en una gran variedad de campos, de hecho, en la literatura se puede encontrar un gran número de métodos que son capaces de realizar las tareas propias de la clasificación. La clasificación es una metodología de aprendizaje supervisado en la ciencia de datos, cuyo propósito es predecir la clase correcta, entre un conjunto de clases conocidas, de una nueva observación dada en base al conocimiento proporcionado por un conjunto de datos previo, también llamado datos de entrenamiento.

    En esta tesis doctoral se trabaja el problema de la clasificación en los aspectos siguientes: Se hace una revisión bibliográfica exhaustiva del problema de clasificación. Se compara el análisis discriminante y el método de selección de características, RBS. Se estudia el desempeño de dos conceptos de la teoría de juegos, como técnicas para la selección de características, comparándolos con distintos métodos de selección de características implementados en Weka. Y se definen tres medidas de desempeño para evaluar el rendimiento de un clasificador. A continuación, se desarrolla cada uno de los aspectos anteriores.

    En esta tesis se realiza una revisión bibliográfica muy amplia, que queda reflejada a lo largo de toda la memoria por estar estrechamente vinculada con la revisión de la literatura relacionada con el problema de clasificación y en particular, con la selección de características. Todo ello ha servido para elaborar un estado del arte del tema que ha sido muy útil como punto de partida para establecer diferentes problemas abiertos pendientes de estudiar.

    Se sabe que una de las dificultades en el análisis de un conjunto de datos es su alta dimensionalidad, lo que puede implicar un peor rendimiento de los clasificadores utilizados. La respuesta más eficaz es reducir la dimensión transformando los datos o la otra alternativa puede ser la selección de características. En esta tesis se lleva a cabo un estudio computacional en el que se comparan los resultados obtenidos mediante un método de reducción de la dimensión como es el análisis discriminante y un método de selección de características, incorporado en RBS. En dicho estudio se obtiene que en tiempo computacional el análisis discriminante es ligeramente mejor que el método RBS. Sin embargo, en términos de precisión para conjuntos de 1,000,000 de registros, el método de selección de características RBS ofrece mejores resultados.

    Además, en esta memoria se lleva a cabo un estudio computacional comparando la selección de características mediante los valores de Shapley y Banzhaf con varios algoritmos de selección de características implementados en Weka. Lo que se hace es definir un juego cooperativo asociado a un problema de clasificación y se calculan los valores de Shapley y Banzhaf asociados a ese juego, seleccionando aquellas características con un mayor valor por considerarse que tienen una mayor influencia en la precisión de la predicción. Finalmente, se compara, para diversos conjuntos de datos, la selección de características obtenidas con los métodos basados en teoría de juegos y los métodos implementados en Weka. Resaltar que, dado el mismo conjunto de datos, no todos los clasificadores son igualmente precisos en sus predicciones. La precisión conseguida por un modelo de clasificación depende de varios factores. Por lo tanto, el análisis del desempeño de los clasificadores es relevante para determinar cuál funciona mejor.

    Asimismo, en esta tesis se definen tres medidas de desempeño para evaluar el rendimiento de un clasificador. Se consideran tres clasificadores de referencia, en concreto, dos intuitivos y uno aleatorio. Para evaluar un clasificador se determina la reducción proporcional del error de clasificación cuando se utiliza el clasificador a evaluar con respecto a emplear uno de referencia. Este también es un enfoque interesante de la evaluación del desempeño de los clasificadores porque se puede medir lo ventajoso que es un nuevo clasificador con respecto a los tres de referencia simples, que pueden verse como las mejores opciones basadas en el sentido común. Además, también se analiza la relación entre los tres clasificadores de referencia y diferentes aspectos de la entropía del conjunto de datos. Se lleva a cabo un experimento intensivo para exponer cómo funcionan las medidas de rendimiento propuestas y cómo la entropía puede afectar el rendimiento de un clasificador. Para validar lo observado en el experimento anterior, se realiza un experimento extensivo utilizando 11 conjuntos de datos y cuatro clasificadores implementados en Weka.


Fundación Dialnet

Mi Documat