Las Universidades Amplían los Horizontes de Investigación con los Sistemas y las Redes de NVIDIA

La Universidad Metodista del Sur impulsa el norte de Texas hacia la era de la IA con una NVIDIA DGX SuperPOD mientras que la Universidad Estatal de Mississippi y Texas A&m se preparan para usar las redes NVIDIA Quantum-2 y una universidad del Reino Unido actualiza su red InfiniBand.
por Gilad Shainer

Así como el aeropuerto de Dallas/Fort Worth se convirtió en un centro para los viajeros que atraviesan Estados Unidos, la región norte de Texas será una puerta de entrada a la IA si la gente de la Universidad Metodista del Sur tiene su camino.

SMU está instalando una NVIDIA DGX SuperPOD, una supercomputadora acelerada que se espera impulsará proyectos en machine learning para su comunidad urbana en expansión con más de 12,000 estudiantes y 2,400 profesores y personal no docente.

Es una de las tres universidades del centro-sur de EE. UU. que anuncia planes para usar las tecnologías de NVIDIA para llevar la investigación a un nuevo nivel.

Texas A&M y la Universidad Estatal de Mississippi están adoptando NVIDIA Quantum-2, nuestra plataforma de red InfiniBand de 400 Gbits/segundo, como la base para sus últimas computadoras de alto rendimiento. Además, una supercomputadora del Reino Unido ha actualizado su red InfiniBand.

Texas Lassos un SuperPOD

«Somos la segunda universidad de Estados Unidos en obtener una DGX SuperPOD y eso le brindará a esta comunidad una ventaja en cuanto a las capacidades de IA para impulsar nuestros programas de grado y asociaciones corporativas», dijo Michael Hites, director de información de SMU, en referencia a un sistema instalado a principios de este año en la Universidad de Florida.

Un informe de septiembre calificó al área de Dallas como «limitada» por la falta de una investigación importante de inteligencia artificial. Irónicamente, la historia llegó al periódico local justo cuando SMU estaba cerrando sus planes para DGX SuperPOD.

Al previsualizar su iniciativa, en marzo, un informe de SMU dijo que la IA está «en el corazón de la transformación digital… y ningún sector de la sociedad permanecerá «sin afectar» por la tecnología. «El potencial de mejoras drásticas en la educación primaria y el desarrollo de la fuerza laboral es enorme y contribuirá al crecimiento económico sostenido de la región», agregó.

SMU Ignite, una campaña de recaudación de fondos por 1500 millones de dólares que comenzó en septiembre, impulsará la iniciativa de IA, que ayudará a impulsar a Southern Methodist a las primeras filas de la investigación universitaria a nivel nacional. La universidad está contratando a un director de innovación para ayudar a guiar el esfuerzo.

Creación de un Crisol Computacional

Todo se trata de las personas, dice Jason Warner, quien administra los equipos de TI que apoyan a los investigadores de SMU. Por lo tanto, contrató a un grupo seminal de especialistas en ciencia de datos para personalizar un nuevo centro en el Ford Hall de SMU para investigación e innovación, un centro que Warner llama «un crisol computacional» de SMU.

Eric Godat lidera ese equipo. Obtuvo su doctorado en Física de Partículas en la SMU que modela la estructura nuclear utilizando datos del Gran Colisionador de Hadrones.

Ahora, está ayudando a los estudiantes de SMU a hablar sobre las oportunidades de DGX SuperPOD. Como primer paso, pidió a dos estudiantes de SMU que construyeran un modelo en miniatura de un DGX SuperPOD utilizando módulos de NVIDIA Jetson.

«Queríamos darle a las personas, especialmente a aquellas personas en campos no técnicos que no han trabajado con IA, un sentido de lo que está por venir», dijo Godat.

SMU's Jetson SuperPOD
Connor Ozenne, un estudiante de grado de SMU, ayudó a construir una versión en miniatura de DGX SuperPOD que se presentó en el informe anual de SMU. Utiliza 16 módulos Jetson en un clúster que los estudiantes valorarán como si fuera un sistema TOP500.

La supercomputadora de tamaño completo, compuesta por 20 sistemas NVIDIA DGX A100 en una red NVIDIA Quantum InfiniBand, podría estar en funcionamiento desde enero gracias a su arquitectura modular similar a los bloques Lego. Ofrecerá 100 petaflops de potencia de computación suficiente para darle un lugar respetable en la lista TOP500 de las supercomputadoras más rápidas del mundo.

Aggies Aprovecha NVIDIA Quantum-2 InfiniBand para ACES

A unas 200 millas al sur, el centro de computación de alto rendimiento de Texas A&m será uno de los primeros en conectarse a la plataforma NVIDIA Quantum-2 InfiniBand. Su supercomputadora ACES, desarrollada por Dell Technologies, utilizará la red InfiniBand 400G para conectar a los investigadores a una combinación de cinco aceleradores de cuatro proveedores.

NVIDIA Quantum 2 garantiza «que un solo trabajo en ACES pueda escalar utilizando todos los núcleos de computación y aceleradores.  Además del salto obvio de 2 veces en el rendimiento de NVIDIA Quantum-1 InfiniBand a 200 G, proporcionará un mejor costo total de propiedad, funciones mejoradas de computación en la red y una mayor escalabilidad», dijo Honggao Liu, investigador principal y director de proyecto de ACES.

Texas A&M ya les brinda a los investigadores acceso a la computación acelerada en cuatro sistemas que incluyen más de 600 NVIDIA A100 Tensor Core y GPU de la generación anterior. Dos de los cuatro sistemas utilizan una versión anterior de la tecnología InfiniBand de NVIDIA.

MSU Viaja en el Tren de 400G

La Universidad Estatal de Mississippi también aprovechará la plataforma NVIDIA Quantum-2 InfiniBand. Es la red elegida para un nuevo sistema que complementa a Orion, el mayor de los cuatro clústeres que administra la MSU, todo utilizando versiones anteriores de InfiniBand.

Tanto Orion como el nuevo sistema están financiados por la Administración Nacional Oceánica y Atmosférica de EE. UU. (NOAA) y construidos por Dell. Llevan a cabo el trabajo para las misiones de NOAA, así como la investigación para la MSU.

Orion fue catalogada como la cuarta supercomputadora académica más grande de Estados Unidos cuando debutó en la lista TOP500 en junio de 2019.

«Usamos InfiniBand en cuatro generaciones de supercomputadoras aquí en MSU para saber que es potente y maduro ejecutar nuestros grandes trabajos de manera confiable», dijo Trey Breckenridge, director de computación de alto rendimiento de MSU.

«Estamos agregando un nuevo sistema con NVIDIA Quantum-2 para seguir a la vanguardia en HPC», agregó.

Las Redes de Quantum Cubren el Reino Unido

Al otro lado del charco en el Reino Unido, la supercomputadora de datos intensivos de la Universidad de Leicester, conocida como el sistema DIaL, se ha actualizado con NVIDIA Quantum, la versión 200G de InfiniBand.

«DIaL se diseñó específicamente para abordar las preguntas complejas e intensivas en datos que deben ser respondidas para evolucionar nuestra comprensión del universo que nos rodea», dijo Mark Wilkinson, profesor de Astrofísica Teórica en la Universidad de Leicester y director de su centro de HPC.

«Los intensos requisitos de estas cargas de trabajo especializadas se basan en la latencia y el ancho de banda sin precedentes que solo InfiniBand puede proporcionar para hacer posible esta investigación», dijo.

DIaL es una de las cuatro supercomputadoras en la instalación DiRAC del Reino Unido que utiliza InfiniBand, incluido el sistema Tursa de la Universidad de Edimburgo.

InfiniBand Se Destaca en la Evaluación

En una evaluación técnica, los investigadores descubrieron que Tursa con los aceleradores de GPU de NVIDIA en una red Quantum proporcionaba un rendimiento 5 veces mayor que su sistema Tesseract solo de CPU utilizando una interconexión alternativa.

Las evaluaciones de la aplicación muestran que 16 nodos de Tursa tienen el doble de rendimiento que 512 nodos de Tesseract. Tursa ofrece 10 teraflops/nodo utilizando el 90 por ciento del ancho de banda de la red, con una mejora significativa en el rendimiento por kilowatt en comparación con Tesseract.

Es otro ejemplo de por qué la mayoría de los sistemas en la lista TOP500 del mundo usan las tecnologías de NVIDIA.