¡Luz Verde! Las Empresas de la Lista TOP500 Aceleran su Rendimiento y Ahorran Energía con NVIDIA

NVIDIA acelera ocho de las 10 supercomputadoras más rápidas. NVIDIA Selene se presenta como el sistema industrial más rápido de los EE. UU. con eficiencia energética líder.
por Dion Harris

La nueva clasificación de las supercomputadoras en la lista TOP500 ofrece un panorama del procesamiento científico moderno, ampliado con inteligencia artificial y análisis de datos, y acelerado con las tecnologías de NVIDIA.

Ocho de las 10 mejores supercomputadoras del mundo ahora usan las GPU de NVIDIA, redes InfiniBand o ambas. Esto incluye a los sistemas más potentes de los Estados Unidos, Europa y China.

NVIDIA, ahora combinado con Mellanox, potencia a dos tercios (333) de los sistemas generales en la lista TOP500 más reciente, un aumento increíble de menos de la mitad (203) para las dos compañías  combinadas, con respecto a la lista de junio de 2017.

Casi las tres cuartas partes (73 %) de los nuevos sistemas InfiniBand de la lista adoptaron NVIDIA Mellanox HDR 200G InfiniBand, lo que demuestra la rápida aceptación de las últimas velocidades de datos para las interconexiones inteligentes.

La cantidad de sistemas de la lista TOP500 que utilizan HDR InfiniBand casi se duplicó con respecto a la lista de noviembre de 2019. En general, InfiniBand aparece en 141 supercomputadoras en la lista, un 12 % más que en junio de 2019.

Un número creciente de sistemas de la lista TOP500 está adoptando las GPU de NVIDIA, su red Mellanox o ambas

Las redes NVIDIA Mellanox InfiniBand y Ethernet conectan 305 sistemas (61 %) de las supercomputadoras de la lista TOP500, incluidos todos los 141 sistemas InfiniBand, y 164 (63 %) de los sistemas que utilizan Ethernet.

En cuanto a la eficiencia energética, los sistemas que usan las GPU de NVIDIA se destacan del resto. En promedio, ahora son 2,8 veces más eficientes que los sistemas sin una GPU de NVIDIA, medidos en gigaflops/watt.

Esa es una de las razones por las cuales las GPU de NVIDIA ahora son utilizadas por 20 de las 25 principales supercomputadoras en la lista Green500.

El mejor ejemplo de esta eficiencia energética es Selene (en la foto de arriba), la última incorporación al grupo de investigación interno de NVIDIA. El sistema ocupa el puesto n.º 2 en la última lista Green500 y el puesto n.º 7 en la lista TOP500 general, gracias a una marca de 27,5 petaflops en la evaluación Linpack.

Con 20,5 gigaflops/watt, Selene está a una fracción de un punto del primer lugar en la lista Green500, otorgado a un sistema mucho más pequeño que ocupa el puesto n.º 394 en cuanto a rendimiento.

Selene es el único sistema de la lista Top100 que rompe la barrera de 20 gigaflops / watt. También es la segunda supercomputadora industrial más poderosa del mundo detrás del sistema del gigante energético Eni SpA de Italia, que ocupa el puesto n.º 6 y también utiliza las GPU de NVIDIA.

Las GPU de NVIDIA aumentan la eficiencia energética de las supercomputadoras de la lista TOP500

En el uso de energía, Selene es 6,8 veces más eficiente que el sistema promedio de la lista TOP500 que no usa las GPU de NVIDIA. El rendimiento y la eficiencia energética de Selene se deben a tercera generación de Tensor Cores de las GPU NVIDIA A100, que aceleran los cálculos tradicionales de 64 bits para las simulaciones y el trabajo de precisión más baja para IA.

Las clasificaciones de Selene son una hazaña impresionante para un sistema que tardó menos de cuatro semanas en construirse. Los ingenieros pudieron ensamblar Selene rápidamente porque usaron la arquitectura de referencia modular de NVIDIA.

La guía define lo que NVIDIA llama un DGX SuperPOD. Se basa en un componente básico potente pero flexible para los data centers modernos: el sistema NVIDIA DGX A100.

El DGX A100 es un sistema ágil, que ya está disponible y que incluye ocho GPU A100 en un servidor de 6U con redes NVIDIA Mellanox HDR InfiniBand. Se creó para acelerar una rica combinación de procesamiento de alto rendimiento, análisis de datos y trabajos de IA, incluidos el entrenamiento y la inferencia, y para implementarse rápidamente.

Escalamiento de Sistemas a SuperPOD

Con el diseño de referencia, cualquier organización puede configurar rápidamente un clúster de procesamiento de clase mundial. Muestra cómo 20 sistemas DGX A100 se pueden vincular de forma similar a Lego utilizando switches NVIDIA Mellanox InfiniBand de alto rendimiento.

InfiniBand ahora acelera siete de las 10 supercomputadoras principales, incluidos los sistemas más potentes de China, Europa y EE. UU.

Cuatro operadores pueden instalar un clúster DGX A100 de 20 sistemas en tan solo una hora, para crear un sistema de 2 petaflops lo suficientemente potente como para aparecer en la lista TOP500. Estos sistemas se diseñaron para funcionar cómodamente dentro de las capacidades térmicas y de potencia de los data centers estándar.

Después de agregar una capa adicional de switches NVIDIA Mellanox InfiniBand, los ingenieros vincularon 14 de estas unidades de 20 sistemas para crear Selene, que incluye lo siguiente:

  • 280 sistemas DGX A100
  • 2240 GPU NVIDIA A100
  • 494 switches NVIDIA Mellanox Quantum 200G InfiniBand
  • Tecnología de redes de 56 TB/s
  • 7 PB de almacenamiento flash de alto rendimiento

Una de las especificaciones más importantes de Selene es que puede ofrecer más de 1 exaflops de rendimiento de IA. Otro beneficio es que Selene estableció un nuevo récord utilizando solo 16 de sus sistemas DGX A100, un punto de referencia de análisis de datos clave, llamado TPCx-BB, que ofrece un rendimiento 20 veces mayor que cualquier otro sistema.

Estos resultados son fundamentales en un momento en que la inteligencia artificial y el análisis se están convirtiendo en parte de los nuevos requisitos para el procesamiento científico.

En todo el mundo, los investigadores están utilizando el deep learning y el análisis de datos para predecir las áreas más fructíferas en las que conviene realizar experimentos. El enfoque reduce la cantidad de experimentos costosos y largos que requieren los investigadores, lo que acelera la obtención de resultados científicos.

Por ejemplo, seis sistemas que aún no están en la lista TOP500 se están construyendo hoy con las GPU A100 NVIDIA lanzadas el mes pasado. Acelerarán una combinación de HPC e IA que está definiendo una nueva era en la ciencia.

La Lista TOP500 Expande las Posibilidades del Procesamiento Científico

Uno de esos sistemas está en el Laboratorio Nacional Argonne, donde los investigadores utilizarán un grupo de 24 sistemas NVIDIA DGX A100 para analizar miles de millones de medicamentos en la búsqueda de tratamientos para COVID-19.

“Gran parte de este trabajo es difícil de simular en una computadora, por lo que usamos la IA para guiar de manera inteligente dónde y cuándo vamos a tomar muestras a continuación”, dijo Arvind Ramanathan, biólogo computacional de Argonne, en un informe sobre los primeros usuarios de GPU A100.

La inteligencia artificial, el análisis de datos y la transmisión por secuencias están redefiniendo el procesamiento científico

Por su parte, NERSC (el Centro Nacional de Procesamiento Científico de Investigación Energética de EE. UU.), está adoptando la inteligencia artificial para varios proyectos dirigidos a Perlmutter, su sistema previo a la exescala que contiene 6200 GPU A100.

Por ejemplo, un proyecto utilizará el aprendizaje por refuerzo para controlar los experimentos con fuentes de luz, y otro aplicará modelos generativos para reproducir simulaciones costosas en detectores de física de alta energía.

Los investigadores en Munich están entrenando modelos de lenguaje natural en 6000 GPU de la supercomputadora Summit para acelerar el análisis de las proteínas del coronavirus. Es otra señal de que los principales sistemas de la lista TOP500 se extienden más allá de las simulaciones tradicionales ejecutadas con cálculos de doble precisión.

A medida que los científicos se expanden en deep learning y el análisis, también están aprovechando los servicios de procesamiento en cloud e incluso transmitiendo datos desde instrumentos remotos en el edge de la red. Juntos, estos elementos forman los cuatro pilares del procesamiento científico moderno que NVIDIA acelera:

  • Simulación: En la lucha contra COVID-19, los investigadores del Laboratorio Nacional de Oak Ridge están simulando más de 2 000 millones de compuestos en 24 horas, ejecutando AutoDock en GPU en la supercomputadora Summit.
  • IA y análisis de datos: La aceleración de GPU para Spark 3.0 ahora ofrece aceleraciones para el front-end crítico y lento del proceso de machine learning.
  • Transmisión científica en el edge: El CERN anunció recientemente que las GPU de NVIDIA permitirán reducir 500 veces las enormes cantidades de datos producidos por los eventos de colisión de partículas dentro de su Gran Colisionador de Hadrones.
  • Visualización: El software IndeX y Magnum IO de NVIDIA ayudan a potenciar una visualización de Mars Lander, la visualización volumétrica interactiva en tiempo real más grande del mundo.

Es parte de una tendencia más amplia en la que tanto los investigadores como las empresas buscan la aceleración de la inteligencia artificial y el análisis desde el cloud hasta el edge de la red. Es por eso que los proveedores de servicios en cloud más grandes del mundo junto con los principales OEM del mundo están adoptando las GPU de NVIDIA.

De esta manera, la última lista TOP500 refleja los esfuerzos de NVIDIA para democratizar la IA y el HPC. Cualquier empresa que quiera desarrollar capacidades de procesamiento líderes puede acceder a las tecnologías NVIDIA, como los sistemas DGX que alimentan los sistemas más potentes del mundo.

Finalmente, NVIDIA felicita a los ingenieros detrás de la supercomputadora Fugaku de Japón por alcanzar el puesto n.º 1, ya que demuestra que Arm es una realidad y una opción viable para el procesamiento de alto rendimiento. Esa es una razón por la que NVIDIA anunció hace un año que su software de procesamiento acelerado CUDA está disponible en la arquitectura de procesadores Arm.