On the design of distributed and scalable feature selection algorithms

Raúl José Palma Mendoza

Ayuda

On the design of distributed and scalable feature selection algorithms

Autores: Raúl José Palma Mendoza
Directores de la Tesis: Luis de Marcos Ortega (dir. tes.) , Daniel Rodríguez García (codir. tes.)
Lectura: En la Universidad de Alcalá ( España ) en 2019
Idioma: español
Tribunal Calificador de la Tesis: José Javier Dolado Cosín (presid.) , Ana Castillo Martínez (secret.) , Verónica Bolón-Canedo (voc.)
Enlaces
- Tesis en acceso abierto en: TESEO e_Buah
Resumen
- español
  La selección de atributos es una importante etapa en el preprocesamiento de los datos previo al entrenamiento de un modelo en minería de datos o como parte de cualquier proceso de análisis de datos. El objetivo de la selección de atributos consiste detectar dentro de un grupo de atributos cuáles son los más relevantes y cuáles son redundantes de acuerdo a alguna métrica establecida. Con esto se logra crear modelos de minería de datos de forma más eficiente y fáciles de interpretar, también, al detectar atributos pocos relevantes se puede ahorrar costo en futuras recolecciones de datos. Sin embargo, actualmente, de acuerdo al fenómeno ampliamente conocido como ¿big data¿, los conjuntos de datos que se desea analizar son cada vez mayores. Esto provoca que muchos algoritmos existentes para minería de datos sean incapaces de procesarlos completos e incluso, dependiendo de su tamaño, tampoco puedan ser procesados directamente por los mismos algoritmos de selección de atributos. Considerando que esta tendencia al crecimiento de los conjuntos de datos no se espera cesará, se vuelve necesaria la existencia de algoritmos de selección de atributos escalables que sean capaces de aumentar su capacidad de procesamiento aprovechando los recursos de clúster de computadoras.
  
  La siguiente disertación doctoral presenta el rediseño de dos algoritmos de selección de atributos ampliamente utilizados: ReliefF y CFS, ambos algoritmos fueron rediseñados con el propósito de ser escalables y capaces del procesamiento de grandes volúmenes de datos. Esto queda demostrado mediante una extensiva comparación de ambas propuestas con sus versiones originales así como también con otras versiones escalables diseñadas para propósitos similares. Todas las comparaciones se realizaron usando grandes conjuntos de datos de acceso público. Las implementaciones se realizaron utilizando la herramienta Apache Spark, que actualmente se ha convertido en todo un referente en el área del big data. El código fuente escrito se ha puesto disponible en un repositorio público de GitHub a nombre del autor .
- English
  Feature selection is an important stage in the pre-processing of the data prior to the training of a data mining model or as part of many data analysis processes. The objective of feature selection consists in detecting within a group of features which are the most relevant and which are redundant according to some established metric. With this, it is possible to create more efficient and interpretable data mining models, also, by reducing the number of features, data collection costs can be reduced in future. Currently, according to the phenomenon widely known as “big data”, the datasets available for analyze are growing in size. This causes that many existing algorithms for data mining become unable to process them completely and even, depending on their size, feature selection algorithms themselves, also become unable to process them directly. Considering that this trend towards the growth of datasets is not expected to cease, the existence of scalable feature selection algorithms that are capable of increasing their processing capacity taking advantage of the resources of computer clusters becomes very important.
  
  The following doctoral dissertation presents the redesign of two widely known feature selection algorithms: ReliefF and CFS, both algorithms were designed with the purpose of being scalable and capable of processing large volumes of data. This is demonstrated by an extensive comparison of both proposals with their original versions, as well as with other scalable versions designed for similar purposes. All comparisons were made using large publicly available datasets. The implementations were made using the Apache Spark tool, which has noways become a reference framework in the “big data” field. The source code written has been made available through a GitHub public repository