Leonardo Alejandro Jara Barrales
En las últimas décadas, la sociedad ha sido testigo de una transformación tecnológica sin precedentes. Este período se ha caracterizado por la generalización de Internet, la difusión masiva de dispositivos móviles y un asombroso incremento en la generación de datos. En este marco, el análisis de datos ha surgido como uno de los campos de mayor crecimiento. Específicamente, el análisis de datos masivos, una parte de lo que se conoce como Big Data, se ha convertido en un enfoque fundamental para obtener conocimiento a partir del comportamiento humano y su entorno. Como resultado, muchas organizaciones, tanto empresariales como gubernamentales, han optado por emplear estas tecnologías con el fin de aprovechar al máximo su inmenso potencial de datos y extraer valiosa información de los mismos. Sin embargo, esta abundancia de información plantea un desafío considerable. Aunque esta gran cantidad de datos tiene el potencial de mejorar significativamente la precisión de los algoritmos de minería de datos, los enfoques tradicionales en este campo no están preparados para lidiar con los requisitos de velocidad y volumen que Big Data impone. Por lo tanto, se hace necesario desarrollar nuevas técnicas que aborden estos problemas y permitan un análisis efectivo de estos datos masivos. En este contexto, la presente tesis se enfoca en el desafío de extraer conocimiento significativo de estos vastos volúmenes de datos, con un énfasis principal en el aprendizaje automático. Esta disciplina, que forma parte de la inteligencia artificial, capacita a las máquinas para adquirir conocimientos directamente a partir de los datos y tomar decisiones autónomas sin intervención humana. El aprendizaje automático se basa en técnicas estadísticas y algoritmos diseñados para analizar datos y revelar patrones subyacentes. Sus aplicaciones son diversas y van desde la detección de fraudes hasta el diagnóstico médico. En esta investigación, se pone un énfasis particular en el aprendizaje supervisado para la clasificación, un escenario en el cual se asignan etiquetas a los datos con el fin de categorizarlos de manera precisa y efectiva. Un modelo de aprendizaje basado en reglas y fundamentado en la lógica difusa se erige como el protagonista de esta investigación. Estos modelos se especializan en tratar con la incertidumbre y la ambigüedad inherentes a los datos. Como punto de partida, se selecciona el algoritmo de Wang y Mendel (WM), reconocido por su simplicidad y eficiencia al trabajar con datos masivos, aunque acompañado de ciertas limitaciones en cuanto a precisión e interpretabilidad. El objetivo principal de esta tesis es mejorar sustancialmente el rendimiento del algoritmo WM, especialmente cuando se enfrenta a conjuntos de datos masivos.
In recent decades, society has witnessed an unprecedented technological transformation. This period has been characterized by the widespread adoption of the Internet, the massive proliferation of mobile devices, and an astonishing increase in data generation. In this context, data analysis has emerged as one of the fastest-growing fields. Specifically, the analysis of massive data, part of what is known as Big Data, has become a fundamental approach to extract knowledge from human behavior and their environment. As a result, many organizations, both in the business and government sectors, have opted to employ these technologies to harness the immense potential of their data and extract valuable insights. However, this abundance of information presents a significant challenge. While this vast amount of data has the potential to significantly improve the accuracy of data mining algorithms, traditional approaches in this field are ill-equipped to handle the speed and volume requirements that Big Data demands. Therefore, it is necessary to develop new techniques to address these issues and enable effective analysis of this massive data. In this context, the present thesis focuses on the challenge of extracting meaningful knowledge from these vast volumes of data, with a primary emphasis on machine learning. This discipline, which is part of artificial intelligence, empowers machines to acquire knowledge directly from data and make autonomous decisions without human intervention. Machine learning relies on statistical techniques and algorithms designed to analyze data and reveal underlying patterns. Its applications are diverse, ranging from fraud detection to medical diagnosis. In this research, particular emphasis is placed on supervised learning for classification, a scenario in which labels are assigned to data to categorize them accurately and effectively. A rule-based learning model grounded in fuzzy logic takes center stage in this research. These models specialize in handling the uncertainty and ambiguity inherent in data. As a starting point, the Wang and Mendel algorithm (WM) is selected, recognized for its simplicity and efficiency when dealing with massive data, albeit accompanied by certain limitations in terms of accuracy and interpretability. The primary objective of this thesis is to significantly enhance the performance of the WM algorithm, especially when dealing with massive datasets.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados