Ir al contenido

Documat


Resumen de Arquitectura distribuida de control para sistemas con capacidades de data mining

José María Peña Sánchez Árbol académico

  • Data Mining o KDD son términos que designan las técnicas de análisis de datos para la búsqueda de patrones ocultos en los mismos, Estas técnicas se usan sobre bases de datos con millones de registros y centenares o miles de atributos por registro y consisten en la aplicación de diferentes procesos de preparación de datos, algoritmos de análisis y técnicas de presentación de resultados. Las aplicaciones y sistemas necesarios para la realización de estas tareas en unos plazos razonables requieren de un uso especialmente eficiente de los recursos disponibles (por ejemplo, CPU, memoria o almancenamiento secundario).

    Dentro de este entorno, la computación distribuida posibilita el reparto de carga computacional entre varios nodos, usando los recursos locales (memoria y disco) de forma conjunta. Sobre un escenario de estaciones de trabajo heterogéneas y dando soporte a todas las diferentes técnicas, algoritmos e implementaciones aportadas por los investigadores en Data Mining la complejidad de estas aplicaciones en su principal característica. Este problema se agrava cuando varios usuarios hacen uso del sistema en paralelo, de forma que varias consultas son formuladas simultáneamente.

    Como salida a esta problemática es necesario un control de los recursos de los nodos, una priorización de las tareas del sistema, una distribución inteligente de la carga y, en resumen, un conjunto de decisiones relativas al rendimiento del sistema que se han denominado decisiones de control.

    Esta tesis propone una solución a la problemática de control de los sistemas de distribuidos de Data Mining basándose en dos elementos:

    1,- Por un lado una arquitectura distribuida de control, descrita y formalizada de forma genérica.

    2,- Un diseño de un sistema de Data Mining distribuido sobre dicha arquitectura.


Fundación Dialnet

Mi Documat