Ir al contenido

Documat


Resumen de A generic I/O architecture for data-intensive applications based on in-memory distributed cache

Francisco José Rodrigo Duro

  • La evolución de la computación científica hacia aplicaciones intensivas en datos, junto con el incremento de la heterogeneidad de los recursos de computación utilizados, están revelando nuevos retos en los requisitos de la capa de E/S. La estrecha relación entre los paradigmas de computación científica intensiva en datos y el campo del Big Data permitirá la explotación de nuevas sinergias entre ambos, con el objetivo de lograr avances en la próxima generación de computación científica. Además, para alcanzar el nivel de unificación deseado, las nuevas soluciones deben ser genéricas, portables y extensibles a futuros sistemas de ultra escala (sistemas complejos de gran escala que unen sistemas de computación distribuida y paralela, alcanzando capacidades de dos a tres órdenes de magnitud superiores a los sistemas actuales).

    Las tendencias actuales en la computación científica intensiva en datos están basadas en la explotación de plataformas de computación en la nube (cloud) y la utilización de motores de tareas (workflow). Por un lado, la irrupción del paradigma de computación en la nube permite el despliegue de entornos de ejecución a medida para realizar complejos análisis de datos utilizando recursos virtualmente infinitos mediante el pago por uso. Es considerado por algunos autores como la competencia del paradigma HPC, sin embargo, los sistemas futuros tomarán ideas de ambas tecnologías. Por otro lado, los motores de workflow simplifican el desarrollo de aplicaciones intensivas en datos, así como su despliegue en diferentes infraestructuras.

    Esta tesis presenta una innovadora arquitectura de E/S genérica para aplicaciones intensivas en datos basada en memoria cache distribuida, con el objetivo de mejorar tanto los cuellos de botella relacionados con E/S, como el aprovechamiento de recursos de cómputo heterogéneos. La arquitectura propuesta se centra en cuatro características principales: escalabilidad, flexibilidad, portabilidad y rendimiento.

    Para exponer el potencial incremento de rendimiento aportado por la solución propuesta en un amplio rango de escenarios diferentes y para demostrar la viabilidad del diseño genérico, se ha desplegado la arquitectura en tres escenarios diferentes, empezando por una infraestructura HPC, fuertemente acoplada, y siguiendo con infraestructuras cada vez más desacopladas como plataformas de computación en la nube y entornos cloud para móviles. Cada caso incluye cambios sutiles para aprovechar las características específicas de cada plataforma y una evaluación del rendimiento utilizando aplicaciones y benchmarks.

    La evaluación realizada tanto en sistemas cloud como HPC demuestra que la solución propuesta aprovecha mejor los recursos que las soluciones en el estado del arte, ofreciendo mejor rendimiento y escalabilidad en la mayoría de casos evaluados.


Fundación Dialnet

Mi Documat