¿Qué es una Supercomputadora Nativa de Cloud?

La supercomputación nativa de cloud es el próximo gran avance en supercomputación, y está disponible hoy, lista para abordar las cargas de trabajo de IA y HPC más difíciles.

La Universidad de Cambridge está construyendo una supercomputadora nativa de cloud en el Reino Unido. Dos equipos de investigadores en los EE. UU. están desarrollando por separado elementos de software clave para la supercomputación nativa de cloud.

El Laboratorio Nacional de Los Alamos, como parte de su colaboración continua con el Consorcio UCF, está ayudando a ofrecer capacidades que aceleran los algoritmos de datos. La Universidad Estatal de Ohio está actualizando el software Message Passing Interface para mejorar las simulaciones científicas.

NVIDIA pone a disposición de los usuarios de todo el mundo supercomputadoras nativas de cloud mediante de su último DGX SuperPOD. Contiene ingredientes clave como la unidad de procesamiento de datos (DPU) NVIDIA BlueField-2 ahora en producción.

Entonces, ¿Qué Es la Supercomputación Nativa de Cloud?

Al igual que las golosinas de Reese que envuelven mantequilla de maní en chocolate, la supercomputación nativa de cloud combina lo mejor de dos mundos.

La supercomputación nativa de cloud de NVIDIA combina el poder de la computación de alto rendimiento con la seguridad y la facilidad de uso de los servicios de computación de cloud.

Dicho de otra manera, la supercomputación nativa de cloud proporciona un cloud de HPC con un sistema tan potente como una supercomputadora TOP500, que varios usuarios pueden compartir de forma segura, sin sacrificar el rendimiento de sus aplicaciones.

Una DPU BlueField admite la descarga de tareas de seguridad, comunicaciones y administración para crear una supercomputadora nativa de cloud eficiente.

¿Qué Pueden Hacer las Supercomputadoras Nativas de Cloud?

Las supercomputadoras nativas de cloud incluyen dos características clave.

Primero, permiten que varios usuarios compartan una supercomputadora al tiempo que garantizan que la carga de trabajo de cada usuario se mantenga segura y privada. Es una capacidad conocida como “aislamiento de clientes múltiples” que está disponible hoy en día en los servicios comerciales de computación de cloud. Pero, por lo general, no se encuentra en los sistemas de HPC utilizados para cargas de trabajo técnicas y científicas donde el rendimiento bruto es la máxima prioridad y los servicios de seguridad ralentizan las operaciones.

En segundo lugar, las supercomputadoras nativas de cloud usan las DPU para manejar tareas como almacenamiento, seguridad para el aislamiento de clientes y administración de sistemas. Esto descarga la CPU para concentrarse en las tareas de procesamiento, lo que maximiza el rendimiento general del sistema.

El resultado es una supercomputadora que habilita servicios nativos de cloud sin pérdida de rendimiento. De cara al futuro, las DPU pueden manejar tareas de descarga adicionales, por lo que los sistemas mantienen la máxima eficiencia al ejecutar cargas de trabajo de HPC e IA.

¿Cómo Funcionan las Supercomputadoras Nativa de Cloud?

Bajo el capó, las supercomputadoras de hoy combinan dos tipos de cerebros: CPU y aceleradores, por lo general, GPU.

Los aceleradores incluyen miles de núcleos de procesamiento para acelerar las operaciones paralelas en el corazón de muchas cargas de trabajo de IA y HPC. Las CPU están diseñadas para las partes de algoritmos que requieren un procesamiento en serie rápido. Pero con el tiempo se han visto agobiados por capas crecientes de tareas de comunicación necesarias para administrar sistemas cada vez más grandes y complejos.

Las supercomputadoras nativas de cloud incluyen un tercer cerebro para desarrollar sistemas más rápidos y eficientes. Agregan DPU que descargan la seguridad, las comunicaciones, el almacenamiento y otros trabajos que los sistemas modernos necesitan administrar.

Un Carril de Viajes Cotidianos para Supercomputadoras

En las supercomputadoras tradicionales, un trabajo de computación a veces tiene que esperar mientras la CPU maneja una tarea de comunicaciones. Es un problema familiar que genera lo que se llama ruido del sistema.

En las supercomputadoras nativas de cloud, la computación y las comunicaciones fluyen en paralelo. Es como abrir un tercer carril en una autopista para ayudar a que todo el tráfico fluya sin problemas.

Las primeras pruebas demostraron que las supercomputadoras nativas de cloud pueden completar tareas de HPC 1.4 veces más rápido que las tradicionales, según el trabajo en el laboratorio MVAPICH de la Universidad Estatal de Ohio, que se especializa en comunicaciones de HPC. El laboratorio también mostró que las supercomputadoras nativas de cloud logran una superposición del 100 por ciento de las funciones de computación y comunicaciones, un 99 por ciento más que los sistemas HPC existentes.

Los Expertos Hablan sobre la Supercomputación Nativa de Cloud

Es por eso que, en todo el mundo, la supercomputación nativa de cloud se está conectando.

“Estamos construyendo la primera supercomputadora académica nativa de cloud en Europa que ofrece un rendimiento completo con servicios InfiniBand nativos de cloud”, dijo Paul Calleja, director de computación de la Universidad de Cambridge.

“Este sistema, que se ubicaría entre los 100 primeros de la lista TOP500 de noviembre de 2020, permitirá a nuestros investigadores optimizar sus aplicaciones utilizando los últimos avances en arquitectura de supercomputación”, agregó.

Los especialistas en HPC están allanando el camino para lograr nuevos avances con las supercomputadoras nativas de cloud.

“El consorcio de UCF de líderes académicos y de la industria está creando los frameworks de comunicación de grado de producción y los estándares abiertos necesarios para permitir el futuro de la supercomputación nativa de cloud”, dijo Steve Poole, hablando en su rol de director del Framework de Comunicaciones Unificadas, cuyos miembros incluyen representantes de Arm, IBM, NVIDIA, universidades y laboratorios nacionales de EE. UU.

“Nuestras pruebas muestran que las supercomputadoras nativas de cloud tienen las eficiencias arquitectónicas para llevar las supercomputadoras al siguiente nivel de rendimiento de HPC al tiempo que habilitan nuevas funciones de seguridad”, dijo Dhabaleswar K. (DK) Panda, profesor de Ciencias de la Computación e Ingeniería en la Universidad Estatal de Ohio y líder de su Laboratorio de Computación en Red.