Esta tesis aborda el problema del preprocesamiento de datos escalable y efectivo en bases de datos estáticas y dinámicas grandes, prestando especial atención a las técnicas de reducción de datos.
Los objetivos considerados fueron:
1. Estudio del estado del arte en tecnologías, paradigmas y estrategias para Big Data, proveyendo una introducción a los principales atributos de estas tecnologías/metodologías, así como algunos consejos acerca del diseño de nuevos propuestas escalables.
2. Estudio del estado del arte en preprocesamiento de datos para Big Data con el objetivo de obtener un conocimiento más profundo de las fortalezas y debilidades de los desarrollos actuales. Se propone un estudio experimental para analizar los límites de escalabilidad de dichos desarrollos. 3. Demostrar que los algoritmos de discretización estándar pueden ser rediseñados para aprovechar el potencial del Big Data. En concreto, el objetivo concreto fue paralelizar los métodos de discretización estándar con el objetivo de mejorar la precisión y eficiencia de la fase posterior de aprendizaje.
4. Desarrollo de soluciones de discretización escalables basadas en computación evolutiva. Explotar los beneficios de los discretizadores evolutivos estándar (esquemas más precisos y simples) en problemas de gran escala.
5. Estudio del estado del arte en preprocesamiento de datos para flujos de datos, estableciendo una taxonomia de métodos, problemas abiertos y otras consideraciones relacionadas con el tema. Se propone un estudio experimental analizará de manera empírica los problemas y virtudes de los modelos actuales.
6. Desarrollo de métodos escalables y precisos para el campo de la discretización online. El objetivo se divide en dos: (1) aportar una definición formal para los problemas descubiertos en el anterior estudio, (2) diseñar una solución basada en discretization adaptativa que aborde todos los problemas mencionados anteriormente.
7. Aplicacion de selección de instancias precisa, eficiente y escalable a problemas de flujo de datos de gran velocidad, para así mitigar la constante acumulación de ejemplos “ruidosos” en sistemas continuos con múltiples entradas de datos.
Para cumplir estos objetivos, varias técnicas escalables han sido desarrolladas utilizando una plataforma de alto rendimiento para computación distribuida, llamada Apache Spark. Nuestras propuestas nos han permitido aplicar diversas técnicas de reducción de datos (discretización, selección de instancias y atributos) de manera precisa, escalable y eficiente en entornos complejos. Así mismo hemos contribuido a completar la carencia presente en muchas bibliotecas de software para aprendizaje automático a gran escala, dónde apenas existían soluciones de reducción. Desde el punto de vista del procesamiento de flujo de datos, el problema de la discretización online ha sido abordado con un discretizador auto-adaptativo que reduce considerablemente el impacto del desplazamiento de intervalos, así como aporta soluciones a dos de los problemas más relevantes en la temática. Finalmente, hemos desarrollado un sistema capaz de procesar miles de ejemplos por segundo, a la vez que mejora la precisión base gracias a la aplicación de selección de instancias.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados