Publication:
A generic I/O architecture for data-intensive applications based on in-memory distributed cache

Loading...
Thumbnail Image
Identifiers
Publication date
2016-10
Defense date
2016-10-26
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
The evolution in scientific computing towards data-intensive applications and the increase of heterogeneity in the computing resources are exposing new challenges in the I/O layer requirements. There is a need to recognize the close relationship between data-intensive scientific computing and the Big Data computing field. Exploiting synergies between both paradigms is necessary for achieving next-generation scientific computing breakthroughs. Moreover, to reach the desired unification, the new solutions should also be generic, portable, and extensible to future ultrascale systems. These systems are envisioned as large-scale complex systems that join parallel and distributed computing systems, reaching capacities two to three orders of magnitude larger than today’s systems. Current trends in data-intensive scientific computing are based on the exploitation of cloud platforms and the utilization of workflow engines. On the one hand, the irruption of the cloud computing paradigm allows the deployment of execution environments for complex data reduction and analysis applications that can be fully customized using virtually limit-less resources in a pay-per-use basis. This new paradigm can be considered as the competence of classical HPC systems. However, future approaches will borrow the advantages of both HPC and cloud technologies. On the other hand, workflow engines offer a simplification in the development and deployment of data-intensive applications in different infrastructures. The combination of these novel directions are changing the landscape of scientific computing as a popular way of providing high-throughput reduction and analysis capabilities. This thesis presents a novel generic I/O architecture for data intensive applications based on in-memory distributed cache, targeting both I/O bottlenecks and heterogeneity of computing resources. The proposed architecture targets four main objectives: scalability, flexibility, portability, and performance. In order to expose the potential performance improvements of our proposed solution in a wide range of different scenarios and to demonstrate the feasibility of our generic design, we have deployed our proposed architecture on three different scenarios, starting with a tightly coupled HPC infrastructure, to loosely coupled infrastructures such as cloud platforms and mobile cloud computing environments. Every case includes subtle adaptations to leverage the specific characteristics of each platform and in-depth performance evaluations using benchmarks and applications. This extensive evaluation on multiple systems demonstrates that our solution makes a better use of resources than existing state-of-the-art approaches providing better performance and scalability in most cases.
La evolución de la computación científica hacia aplicaciones intensivas en datos, junto con el incremento de la heterogeneidad de los recursos de computación utilizados, están revelando nuevos retos en los requisitos de la capa de E/S. La estrecha relación entre los paradigmas de computación científica intensiva en datos y el campo del Big Data permitirá la explotación de nuevas sinergias entre ambos, con el objetivo de lograr avances en la próxima generación de computación científica. Además, para alcanzar el nivel de unificación deseado, las nuevas soluciones deben ser genéricas, portables y extensibles a futuros sistemas de ultra escala (sistemas complejos de gran escala que unen sistemas de computación distribuida y paralela, alcanzando capacidades de dos a tres órdenes de magnitud superiores a los sistemas actuales). Las tendencias actuales en la computación científica intensiva en datos están basadas en la explotación de plataformas de computación en la nube (cloud) y la utilización de motores de tareas (workflow). Por un lado, la irrupción del paradigma de computación en la nube permite el despliegue de entornos de ejecución a medida para realizar complejos análisis de datos utilizando recursos virtualmente infinitos mediante el pago por uso. Es considerado por algunos autores como la competencia del paradigma HPC, sin embargo, los sistemas futuros tomarán ideas de ambas tecnologías. Por otro lado, los motores de workflow simplifican el desarrollo de aplicaciones intensivas en datos, así como su despliegue en diferentes infraestructuras. Esta tesis presenta una innovadora arquitectura de E/S genérica para aplicaciones intensivas en datos basada en memoria caché distribuida, con el objetivo de mejorar tanto los cuellos de botella relacionados con E/S, como el aprovechamiento de recursos de cómputo heterogéneos. La arquitectura propuesta se centra en cuatro características principales: escalabilidad, flexibilidad, portabilidad y rendimiento. Para mostrar el potencial incremento de rendimiento aportado por la solución propuesta en un amplio rango de escenarios diferentes y para demostrar la viabilidad del diseño genérico, se ha desplegado la arquitectura en tres escenarios diferentes, empezando por una infraestructura HPC, fuertemente acoplada, y siguiendo con infraestructuras cada vez más desacopladas como plataformas de computación en la nube y entornos cloud para móviles. Cada caso incluye cambios sutiles para aprovechar las características específicas de cada plataforma y una evaluación del rendimiento utilizando aplicaciones y benchmarks. La evaluación realizada tanto en sistemas cloud como HPC demuestra que la solución propuesta aprovecha mejor los recursos que las soluciones en el estado del arte, ofreciendo mejor rendimiento y escalabilidad en la mayoría de casos evaluados.
Description
Mención Internacional en el título de doctor
Keywords
Scientific computing, Data-intensive applications, Big Data, I/O architectures
Bibliographic citation
Collections