Juan Francisco Cabrera Sánchez
En la actualidad, el volumen de información que se transmite cada día crece conforme aumenta el número de dispositivos interconectados. En problemas de distinto ámbito como el Internet de las Cosas, la Visión Artificial o el \textit{Big Data}, la información se utiliza para la toma de decisiones, ya sea en el sector público o privado. Para ello, resulta imprescindible llevar a cabo un preprocesamiento previo de los datos que permita mejorar la calidad de los mismos. Así, se consigue alcanzar unos resultados consistentes, válidos y preparados para un uso posterior, de tal forma que las decisiones estén guiadas por los datos. En el preprocesado se contemplan diversas fases orientadas a la mejora de la calidad de los datos, como la detección y corrección de ruido, anomalías o presencia de datos perdidos. Además, también se contemplan transformaciones sobre los conjuntos de datos con el objetivo de proporcionarlos en un formato idóneo a los modelos de extracción del conocimiento.
La presente tesis doctoral se enfoca al estudio, mejora y propuesta de diferentes técnicas de preprocesamiento de datos, con el objetivo de obtener datos de calidad que permitan alcanzar una mayor precisión de los modelos en tareas de regresión y clasificación. La investigación se centra en dos líneas de trabajo. Por un lado, la resolución del problema de los datos perdidos, desde la generación sintética de la pérdida hasta su resolución mediante la aplicación de métodos de imputación de datos. Al mismo tiempo, se propone un ejemplo real que permite validar las hipótesis planteadas. Y, por otro lado, se aportan técnicas de reducción del tamaño del conjunto de entrenamiento que permiten optimizar otros aspectos, como el tiempo de cómputo, sin que ello conlleve un perjuicio en el rendimiento de los modelos de aprendizaje automático.
Ambas líneas de trabajo han sido avaladas por la publicación de artículos en revistas internacionales, así como en congresos nacionales e internacionales. De este modo, se consideran demostradas las hipótesis planteadas en la presente tesis doctoral basada en la mejora de la calidad de los datos que permita la aplicación de modelos de extracción de conocimiento con la certeza de obtener resultados óptimos que posibilite la toma de decisiones basada en datos.
© 2008-2025 Fundación Dialnet · Todos los derechos reservados