Una propuesta determinista para la obtención de reglas en problemas de minería de datos

Juan Luis Dominguez Olmedo

Ayuda

Una propuesta determinista para la obtención de reglas en problemas de minería de datos

Autores: Juan Luis Dominguez Olmedo
Directores de la Tesis: Jacinto Mata Vázquez (dir. tes.)
Lectura: En la Universidad de Huelva ( España ) en 2019
Idioma: español
Número de páginas: 109
Tribunal Calificador de la Tesis: Diego Gachet Paez (presid.) , Pedro José Abad Herrera (secret.) , Víctor Manuel Rivas Santos (voc.)
Enlaces
- Tesis en acceso abierto en: Arias Montano
Resumen
- español
  En esta tesis se describen con detalle los trabajos realizados para afrontar, mediante un nuevo enfoque determinista, la generación de reglas para su aplicación a problemas de minería de datos.
  
  Concretamente, y dado que la discretización previa de los atributos numéricos de un conjunto de datos, conlleva pérdida de información y posible disminución de la calidad de reglas obtenidas, se ha estudiado generar directamente reglas combinando intervalos en las condiciones de los atributos numéricos. Para reducir el tiempo de cómputo que cualquier proceso exhaustivo de búsqueda lleva implícito, se han definido diferentes estructuras de datos y se han desarrollado algoritmos para generar y evaluar, de forma eficiente, las reglas del modelo, así como los parámetros apropiados para conseguir un equilibrio entre el tiempo de cómputo y la calidad de las reglas generadas.
  
  Se ha adoptado el método propuesto a distintas tareas de minería de datos, concretamente, a la obtención de reglas de asociación, el descubrimiento de subgrupos y la clasificación. Los algoritmos desarrollados se han aplicado en diversos conjuntos de datos de prueba, comparando la bondad de las reglas resultantes con la de otros métodos existentes en la literatura. La significancia de los resultados obtenidos se ha evaluado mediante los apropiados test estadísticos.
  
  El método propuesto ha obtenido unos excelentes resultados, igualando o mejorando los de otros métodos de referencia, tanto deterministas como no deterministas. También se ha aplicado a datos reales, como el caso de un conjunto de datos médicos, donde se consiguió obtener un modelo predictivo interpretable y con gran precisión.
- English
  This thesis describes in detail the work done to address, through a new deterministic approach, the generation of rules for its application to data mining problems. Specifically, and given that a previous discretization of the numerical attributes of a dataset, leads to loss of information and possible decrease in the quality of the obtained rules, it has been studied to directly generate rules combining intervals in the conditions of the numerical attributes. In order to reduce the computation time that any exhaustive search process implies, different data structures have been defined and algorithms have been developed to generate and evaluate, in an efficient way, the rules of the model, as well as appropriate parameters to achieve a balance between the computation time and the quality of the rules generated. The proposed method has been adapted to different data mining tasks, specifically, association rules, subgroup discovery, and classification. The developed algorithms have been applied in several test datasets, comparing the quality of the resulting rules with that of other existing methods in the literature. The significance of the results obtained has been evaluated through the appropriate statistical tests. Excellent results were achieved by the proposed method, equaling or improving those of other reference methods, both deterministic and non-deterministic. It has also been applied to real data, such as the case of a medical dataset, where an interpretable predictive model was obtained, also having high accuracy.