Los Investigadores de HPC Sembraron el Futuro de la Computación en Red con las DPU NVIDIA BlueField

Los centros de supercomputación en Asia, Europa y los Estados Unidos están llevando la computación acelerada al siguiente nivel con las DPU NVIDIA BlueField en las redes NVIDIA Quantum InfiniBand.
por Gilad Shainer

En toda Europa y Estados Unidos, los desarrolladores de HPC están cargando los superordenadores con la potencia de los núcleos y aceleradores Arm dentro de las DPU NVIDIA BlueField-2.

En el Laboratorio Nacional de Los Álamos (LANL), este trabajo forma parte de una extensa colaboración de varios años con NVIDIA cuyo objetivo es multiplicar por 30 la velocidad de las aplicaciones de cálculo multifísico.

Los investigadores del LANL prevén un importante aumento del rendimiento al utilizar las unidades de procesamiento de datos (DPU) que se ejecutan en las redes NVIDIA Quantum InfiniBand. Serán pioneros en técnicas de almacenamiento computacional, concordancia de patrones y otras más utilizando BlueField y su framework de software NVIDIA DOCA.

Una API Abierta para las DPU

Los esfuerzos también ayudarán a definir aún más OpenSNAPI, una interfaz de aplicaciones que cualquiera puede usar para aprovechar las DPU. Poole preside el proyecto OpenSNAPIen el Unified Computing Framework, un consorcio cuyos miembros incluyen Arm, IBM, NVIDIA, laboratorios nacionales de EE. UU. y universidades de EE. UU.

LANL ya está sintiendo el poder de la computación en red, gracias a un sistema de almacenamiento impulsado por DPU que creó el equipo de Poole.

La Caja Acelerada de Flash (ABoF, que se muestra a continuación) combina el almacenamiento de estado sólido con los aceleradores DPU e InfiniBand para acelerar las partes críticas del rendimiento de un sistema de archivos Linux. Es hasta 30 veces más rápida que los sistemas de almacenamiento similares y se convertirá en un componente clave en la infraestructura de LANL.

ABoF pone la computación cerca del almacenamiento minimizando el movimiento de datos y mejorando la eficiencia tanto de los procesos de simulación como del análisis de datos», Dijo un investigador en un reciente blog del LANL.

Texas Aprovecha una Supercomputadora Nativa de Cloud

El Centro de Computación Avanzada de Texas (TACC) es el centro más reciente en adoptar BlueField-2. Usará las DPU en una red InfiniBand para hacer que su sistema Lonestar6 sea una plataforma de desarrollo para la supercomputación nativa de cloud.

Lonestar6 de TACC está disponible para una amplia variedad de desarrolladores de HPC en la Universidad A&M de Texas, la Universidad Tecnológica de Texas y la Universidad del Norte de Texas, así como una serie de centros de investigación y profesores.

MPI Se Acelera

Unos 12,000 km al noreste, investigadores de la Universidad Estatal de Ohio demostraron cómo las DPU pueden hacer que uno de los modelos de programación más populares de HPC se ejecute hasta un 26 por ciento más rápido.

Al descargar partes críticas de la interfaz de paso de mensajes (MPI), lograron acelerar P3DFFT, una biblioteca utilizada en muchas simulaciones de HPC a gran escala.

«Las DPU son como asistentes que manejan el trabajo para ejecutivos ocupados. Su uso se ha extendido porque pueden hacer que todas las cargas de trabajo se ejecuten más rápido», dijo Dhabaleswar K. (DK) Panda, profesor de Ciencias de la Computación e Ingeniería en Ohio State, quien dirigió el trabajo de la DPU utilizando el software de código abierto  MVAPICH de su equipo.

DPU en Centros de HPC y Clouds

Los aumentos de dos dígitos son enormes para las supercomputadoras que ejecutan simulaciones de HPC, como el descubrimiento de fármacos o el diseño de aviones. Además, los servicios de cloud pueden usar tales ganancias para aumentar la productividad de sus clientes, dijo Panda, quien ha recibido solicitudes de varios centros de HPC para su código.

Las redes Quantum InfiniBand con funciones como NVIDIA SHARP ayudan a hacer posible su trabajo.

«Otros proveedores mencionan la computación en red, pero InfiniBand ya ofrece la compatibilidad», dijo.

Durham Equilibra las Cargas

Varios equipos de investigación en Europa están acelerando MPI y otras cargas de trabajo de HPC con las DPU BlueField.

Por ejemplo, la Universidad de Durham, en el norte de Inglaterra, está desarrollando software para equilibrar cargas de trabajo de MPI utilizando las DPU BlueField en un servidor Dell EMC de 16 nodos. Su trabajo allanará el camino para un procesamiento más eficiente de mejores algoritmos para instalaciones de HPC de todo el mundo, dijo Tobias Weinzierl, investigador principal del proyecto.

DPU en Cambridge, Múnich

Los investigadores de Cambridge, Londres y Múnich también están utilizando las DPU.

Por su parte, el University College de Londres está explorando cómo programar tareas para un sistema host en las DPU BlueField-2. Es una capacidad que se puede usar, por ejemplo, para mover datos entre los procesadores de host para que estén ahí cuando los necesiten.

Las DPU BlueField en el Servicio de Cambridge para el Descubrimiento Impulsado por Datos descargan las políticas de seguridad, los frameworks de almacenamiento y otros trabajos de las CPU de host, para maximizar el rendimiento del sistema.

Mientras tanto, investigadores de la Universidad Técnica de Múnich están buscando formas de descargar las tareas de MPI y del sistema operativo con las DPU como parte de un proyecto de EuroHPC.

De vuelta en los Estados Unidos, los investigadores de Georgia Tech están colaborando con los Laboratorios Nacionales Sandia para acelerar el trabajo en dinámica molecular utilizando las DPU BlueField-2. Un documento que describe su trabajo hasta el momento muestra que los algoritmos se pueden acelerar hasta en un 20 por ciento sin pérdida en la precisión de las simulaciones.

Una Red en Expansión

A principios de este mes, los investigadores en Japón anunciaron un sistema que usa las GPU NVIDIA H100 Tensor Core más recientes para impulsar nuestra red más rápida e inteligente de la historia, la plataforma NVIDIA Quantum-2 InfiniBand.

NEC construirá la supercomputadora con H100 de 6.14 PFLOPS para el Centro de Ciencias Computacionales de la Universidad de Tsukuba. Los investigadores lo usarán para el pronóstico del clima y el tiempo, así como para la astrofísica.

Mientras tanto, investigadores como Panda ya están pensando en cómo usarán los núcleos de las DPU BlueField-3.

«Será como contratar asistentes ejecutivos con títulos universitarios en lugar de diplomas de escuelas secundarias, así que espero que se logren más descargas», bromeó.