NVIDIA Acelera la Ciencia y la Ingeniería con Bibliotecas CUDA-X con Superchips GH200 y GB200

Las bibliotecas en arquitecturas de superchips aceleran las herramientas de ingeniería computacional hasta 11 veces y realizan cálculos hasta 5 veces más grandes.
por Timothy Costa

Científicos e ingenieros de todo tipo están equipados para resolver problemas difíciles mucho más rápido con las bibliotecas NVIDIA CUDA-X impulsadas por los superchips NVIDIA GB200 y GH200.

Anunciado hoy en la  conferencia global de IA NVIDIA GTC, los desarrolladores ahora pueden aprovechar la integración y coordinación automática más estricta entre los recursos de CPU y GPU, habilitada por CUDA-X que trabaja con estas últimas arquitecturas de superchips, lo que resulta en aceleraciones de hasta 11 veces para las herramientas de ingeniería computacional y cálculos 5 veces más grandes en comparación con el uso de arquitecturas de computación acelerada tradicionales.

Esto acelera y mejora en gran medida los workflows en la simulación de ingeniería, la optimización del diseño y más, lo que ayuda a los científicos e investigadores a alcanzar resultados innovadores más rápido.

NVIDIA lanzó CUDA en 2006, abriendo un mundo de aplicaciones al poder de la computación acelerada. Desde entonces, NVIDIA ha creado más de 900 bibliotecas NVIDIA CUDA-X y modelos de IA específicos de dominio, lo que facilita la adopción de la computación acelerada e impulsa increíbles avances científicos. Ahora, CUDA-X lleva la computación acelerada a un nuevo y amplio conjunto de disciplinas de ingeniería, como la astronomía, la física de partículas, la física cuántica, la automoción, la aeroespacial y el diseño de semiconductores.

La  arquitectura de CPU NVIDIA Grace ofrece un aumento significativo del ancho de banda de la memoria al tiempo que reduce el consumo de energía. Y las interconexiones NVIDIA NVLink-C2C proporcionan un ancho de banda tan alto que la GPU y la CPU pueden compartir memoria, lo que permite a los desarrolladores escribir código menos especializado, ejecutar problemas más grandes y mejorar el rendimiento de las aplicaciones.

Aceleración de los Solucionadores de Ingeniería con NVIDIA cuDSS

Las arquitecturas superchip de NVIDIA permiten a los usuarios extraer un mayor rendimiento de la misma GPU subyacente al hacer un uso más eficiente de las capacidades de procesamiento de la CPU y la GPU.

La  biblioteca NVIDIA cuDSS se utiliza para resolver grandes problemas de simulación de ingeniería que involucran matrices dispersas para aplicaciones como optimización de diseño, workflows de simulación electromagnética y más. cuDSS utiliza la memoria de GPU Grace y la interconexión NVLink-C2C de alto ancho de banda para factorizar y resolver matrices grandes que normalmente no cabrían en la memoria del dispositivo. Esto permite a los usuarios resolver problemas extremadamente grandes en una fracción del tiempo.

La memoria compartida coherente entre la GPU y la CPU Grace minimiza el movimiento de datos, lo que reduce significativamente la sobrecarga de los sistemas grandes. Para una variedad de grandes problemas de ingeniería computacional, aprovechar la memoria de CPU Grace y la arquitectura superchip aceleró los pasos de la solución más pesada hasta 4 veces con la misma GPU, con memoria híbrida cuDSS.

Ansys ha integrado cuDSS en su solucionador HFSS, lo que ofrece importantes mejoras de rendimiento para las simulaciones electromagnéticas. Con cuDSS, el software HFSS logra una mejora de velocidad de hasta 11 veces para el solucionador de matrices.

Altair OptiStruct también ha adoptado la biblioteca cuDSS Direct Sparse Solver, acelerando sustancialmente sus cargas de trabajo de análisis de elementos finitos.

Estas ganancias de rendimiento se logran optimizando las operaciones clave en la GPU mientras se usan de manera inteligente las CPU para la memoria compartida y la ejecución heterogénea de CPU y GPU. cuDSS detecta automáticamente las áreas en las que la utilización de la CPU proporciona beneficios adicionales, mejorando aún más la eficiencia.

Escalado a la Velocidad de la Luz con la Memoria Superchip

El escalado de aplicaciones de memoria limitada en una sola GPU es posible con las interconexiones NVLink-CNC de las arquitecturas GB200 y GH200 que proporcionan coherencia de memoria de CPU y GPU.

Muchas simulaciones de ingeniería están limitadas por la escala y requieren simulaciones masivas para producir la resolución necesaria para diseñar equipos con componentes intrincados, como los motores de los aviones. Al aprovechar la capacidad de leer y escribir sin problemas entre las memorias de la CPU y la GPU, los ingenieros pueden implementar fácilmente solucionadores fuera del núcleo para procesar datos más grandes.

Por ejemplo, con NVIDIA Warp, un framework basado en Python para acelerar la generación de datos y las aplicaciones de computación espacial, Autodesk realizó simulaciones de hasta 48 mil millones de celdas utilizando ocho nodos GH200. Esto es más de 5 veces más grande que las simulaciones posibles con ocho nodos NVIDIA H100.

Impulsando la Investigación de Computación Cuántica con NVIDIA cuQuantum

Las computadoras cuánticas prometen acelerar problemas que son fundamentales para muchas disciplinas científicas e industriales. Acortar el tiempo para una computación cuántica útil depende en gran medida de la capacidad de simular sistemas cuánticos extremadamente complejos.

Las simulaciones permiten a los investigadores desarrollar nuevos algoritmos hoy que se ejecutarán a escalas adecuadas para las computadoras cuánticas del mañana. También desempeñan un papel clave en la mejora de los procesadores cuánticos, ejecutando simulaciones complejas de las características de rendimiento y ruido de los nuevos diseños de qubits.

Las llamadas simulaciones vectoriales de estado de los algoritmos cuánticos requieren que se realicen operaciones de matriz en objetos vectoriales exponencialmente grandes que deben almacenarse en la memoria. Las simulaciones de redes tensoriales, por otro lado, simulan algoritmos cuánticos a través de contracciones tensoriales y pueden permitir simular cientos o miles de qubits para ciertas clases importantes de aplicaciones.

La  biblioteca NVIDIA cuQuantum acelera estas cargas de trabajo. cuQuantum está integrado con todos los principales frameworks de computación cuántica, por lo que todos los investigadores cuánticos pueden aprovechar el rendimiento de la simulación sin cambios en el código.

Las simulaciones de algoritmos cuánticos suelen estar limitadas en escala por los requisitos de memoria. Las arquitecturas GB200 y GH200 proporcionan una plataforma ideal para ampliar las simulaciones cuánticas, ya que permiten utilizar una gran cantidad de memoria de CPU sin cuellos de botella en el rendimiento. Un sistema GH200 es hasta 3 veces más rápido que un sistema H100 con x86 en las pruebas de computación cuántica.

Obtenga más información sobre las bibliotecas CUDA-X, asista a la sesión de GTC sobre cómo las bibliotecas matemáticas pueden ayudar a acelerar las aplicaciones en las GPU NVIDIA Blackwell y vea el keynote de GTC del fundador y CEO de NVIDIA, Jensen Huang.