Los Centros HPC en Todo el Mundo se Suman a la Aceleración de la Supercomputación de IA de NVIDIA

Cómo la arquitectura NVIDIA Ampere y las redes Mellanox InfiniBand están impulsando las ganancias de la supercomputación de IA en todo el mundo.
por Dion Harris

Los centros de supercomputación de todo el mundo están incorporando la arquitectura Ampere de las GPU de NVIDIA para satisfacer las crecientes demandas de modelos de IA más pesados en todo tipo de aplicaciones, desde el descubrimiento de fármacos hasta la investigación energética.

Fujitsu se unió a este movimiento y presentó un nuevo sistema de exaescala para AI Bridging Cloud Infrastructure (ABCI) con sede en Japón, que ofrece 600 petaflops de rendimiento en el Instituto Nacional de Ciencia y Tecnología Industrial Avanzada.

El debut se produce cuando la complejidad del modelo se ha multiplicado 30,000 veces en los últimos cinco años, debido al creciente uso de la IA en la investigación. Con aplicaciones científicas, estos enormes conjuntos de datos se pueden guardar en la memoria, lo que ayuda a minimizar el procesamiento por lotes y a lograr un mayor rendimiento.

Para impulsar este próximo viaje de investigación, NVIDIA presentó el lunes la GPU NVIDIA A100 de 80GB con tecnología HBM2e. Duplica la memoria de alto ancho de banda de la GPU A100 de 40 GB a 80 GB y ofrece más de 2 terabytes por segundo de ancho de banda de memoria.

Las nuevas GPU NVIDIA A100 de 80 GB permiten que los modelos y conjuntos de datos más grandes se ejecuten en la memoria con un ancho de banda de memoria más rápido, lo que permite una mayor computación y resultados más rápidos en las cargas de trabajo. La reducción de la comunicación entre los internodos puede aumentar el rendimiento del entrenamiento de IA 1.4 veces con la mitad de las GPU.

NVIDIA también presentó la nueva arquitectura NVIDIA Mellanox 400G InfiniBand, que duplica el rendimiento de datos y ofrece nuevos motores de computación en red para lograr una mayor aceleración.

Europa Toma el Camino de la Supercomputación

Europa está entrando en acción. El consorcio interuniversitario italiano CINECA presentó el sistema Leonardo, la supercomputadora de IA más rápida del mundo. Utiliza 14,000 GPU de arquitectura NVIDIA Ampere y redes NVIDIA Mellanox InfiniBand para lograr 10 exaflops de IA. La empresa francesa Atos estará a cargo de la construcción.

Leonardo se une a un conjunto cada vez mayor de sistemas europeos que usan las plataformas de IA de NVIDIA respaldadas por la iniciativa EuroHPC. Su vecino alemán, el Jülich Supercomputing Center, presentó recientemente el primer sistema de exaescala de IA con tecnología de las GPU de NVIDIA que se lanzó en línea en Europa, para ofrecer la plataforma de IA más poderosa de la región. El nuevo sistema Jülich diseñado por Atos, denominado JUWELS, es una supercomputadora de inteligencia artificial de 2.5 exaflops que se encuentra en el puesto número 7 de la última lista TOP500.

Entre los sistemas que también se incorporaron se encuentran la supercomputadora MeluXina de Luxemburgo; IT4Innovations National Supercomputing Center, la supercomputadora más poderosa de la República Checa; y la supercomputadora Vega del Instituto de Ciencias de la Información en Maribor, Eslovenia.

La Universidad de Linköping planea construir la supercomputadora de IA más rápida de Suecia, denominada BerzeLiUs, basada en la infraestructura NVIDIA DGX SuperPOD. Se espera que proporcione 300 petaflops de rendimiento de IA para realizar investigaciones de vanguardia.

NVIDIA está construyendo Cambridge-1, un DGX SuperPOD de 80 nodos con 400 petaflops de rendimiento de IA. Será la supercomputadora de IA más rápida del Reino Unido. Está previsto que se utilice en la investigación colaborativa dentro de la comunidad de IA y de atención de la salud del país en el ámbito académico, la industria y las startups.

A Toda Máquina en América del Norte

América del Norte se está sumando al viaje de la supercomputación de IA a exaescala. NERSC (el Centro Nacional de Computación Científica de Investigación de Energía de EE. UU.) está adoptando la IA de NVIDIA para proyectos en Perlmutter, su sistema que incluye 6,200 GPU A100. NERSC ahora logra 3.9 exaflops de rendimiento de IA.

NVIDIA Selene, un clúster basado en DGX SuperPOD, proporciona una arquitectura de referencia pública para clústeres de GPU a gran escala que se pueden implementar en semanas. El sistema NVIDIA DGX SuperPOD obtuvo el primer lugar en la lista Green500 de las supercomputadoras más eficientes, ya que logró un nuevo récord mundial en eficiencia energética de 26,2 gigaflops por vatio y ha establecido ocho nuevos hitos de rendimiento para la inferencia MLPerf.

La Universidad de Florida y NVIDIA están construyendo la supercomputadora de IA más rápida del mundo en el ámbito académico, con el objetivo de ofrecer 700 petaflops de rendimiento de IA. La sociedad coloca a UF entre las principales universidades de IA de EE. UU., fomenta la investigación académica y ayuda a abordar algunos de los desafíos más complejos de Florida.

En el Laboratorio Nacional de Argonne, los investigadores utilizarán un grupo de 24 sistemas NVIDIA DGX A100 para analizar miles de millones de fármacos en la búsqueda de tratamientos para el COVID-19.

El Laboratorio Nacional de Los Alamos, Hewlett Packard Enterprise y NVIDIA se unen para ofrecer tecnologías de próxima generación que acelerarán la computación científica.

Todos a Bordo en APAC

Las supercomputadoras en APAC también serán impulsadas por la arquitectura NVIDIA Ampere. El motor de búsqueda coreano NAVER y el servicio de mensajería japonés LINE están utilizando un DGX SuperPOD construido con 140 sistemas DGX A100 con 700 petaflops de rendimiento máximo de IA para escalar la investigación y el desarrollo de modelos de procesamiento de idiomas naturales y servicios de IA conversacional.

La Agencia Japonesa de Ciencia y Tecnología Marina-Terrestre, o JAMSTEC, está actualizando su Simulador de Tierra con GPU NVIDIA A100 y NVIDIA InfiniBand. Se espera que la supercomputadora tenga 39 petaflops de rendimiento máximo de IA con 1,2 petaflops de rendimiento teórico máximo de HPC, que hoy ocuparía un lugar destacado entre las supercomputadoras TOP500.

El Centro para el Desarrollo de la Computación Avanzada de la India, o C-DAC, está encargando la supercomputadora de IA más grande y rápida del país, llamada PARAM Siddhi – AI. Se construyó con 42 sistemas DGX A100 y ofrece 200 exaflops de rendimiento de IA. Se utilizará para resolver desafíos en la industria automotriz, espacial, de salud, educación, energía, ciberseguridad y agricultura.

Abróchense los cinturones. La investigación científica en todo el mundo nunca ha disfrutado de un viaje igual.