Configuración de un cluster confederado para HPC con SLURM
Author
Flores Salgado, Yolanda; Frausto Del Río, Silvia Elizabeth; Ireta Moreno, Joel; Itehua Rico, Leobardo; Oliver Hernández, Héctor Manuel; Ortega Alarcón, Eduardo Iván; Romero Arzate, Eduardoxmlui.dri2xhtml.METS-1.0.item-url:
https://www.ties.unam.mx/num05/configuracion_cluster_confederado_HPC.htmlDate:
2022-06Abstract:
El Laboratorio Nacional de Cómputo de Alto Desempeño (LANCAD) es un consorcio conformado por tres instituciones con amplia experiencia en supercómputo: el Centro de Investigación y Estudios Avanzados del IPN (Cinvestav), la Universidad Autónoma Metropolitana (UAM) y la Universidad Nacional Autónoma de México (UNAM). LANCAD se creó con el objetivo de apoyar la investigación científica nacional proporcionando servicios de cómputo de alto desempeño (CAD). Con la finalidad de explorar la integración de equipos de cómputo instalados en cada uno de los centros, el grupo técnico del LANCAD desarrolló un prototipo de cluster (1) confederado para que los usuarios ejecuten procesos indistintamente en cualquiera de los clusters CAD que lo conforman en un ambiente estandarizado. El presente artículo resume las experiencias que generó la implementación de la federación de clusters mediante el uso de Slurm Federated Scheduling, así como los retos que surgieron para su construcción, validación y pruebas.
Description:
The National High Performance Computing Laboratory (LANCAD from the spanish Laboratorio Nacional de Cómputo de Alto Desempeño) is a consortium of three institutions with large experience in supercomputing: the Center for Research and Advanced Studies of the IPN (Cinvestav from the spanish Centro de Investigaciones y Estudios Avanzados del IPN), the Autonomous Metropolitan University (UAM, from the spanish Universidad Autónoma Metropolitana) and the National Autonomous University of Mexico (UNAM, from the spanish Universidad Nacional Autónoma de México). LANCAD was created with the aim for supporting national scientific research in need of high-performance computing (HPC) services. In order to explore the integration of computer hardware installed at each of the centers, the LANCAD technical group developed a prototype of a cluster confederation so that their users can execute processes indistinctly in any of the HPC clusters of LANCAD in a standardized environment. This article summarizes the experiences on the implementation of such prototype using Slurm Federated Scheduling, as well as the challenges that have arisen in its construction, validation and testing.
Files in this item
COMPARTE
BÚSQUEDA
Escriba el texto a buscar en DSpace
CONTACTO
El Repositorio Universitario de la DGTIC se edita en la Dirección General de Cómputo y
de Tecnologías de Información y Comunicación (DGTIC), de la Universidad Nacional Autónoma de México (UNAM)
Circuito Exterior s/n, Ciudad Universitaria, Coyoacán, C.P. 04510, México, D.F
Tel: +(52) (55) 56228166 Email: rutic@unam.mx