Dos meses después de su asombroso debut en las evaluaciones de inferencia MLPerf, las GPU NVIDIA H100 Tensor Core establecieron récords mundiales en todas las cargas de trabajo de IA empresarial en las últimas pruebas de entrenamiento de IA del grupo de la industria.
Juntos, los resultados muestran que H100 es la mejor opción para los usuarios que exigen el máximo rendimiento al crear e implementar modelos avanzados de IA.
MLPerf es el estándar de la industria para medir el rendimiento de la IA. Está respaldado por un amplio grupo que incluye Amazon, Arm, Baidu, Google, la Universidad de Harvard, Intel, Meta, Microsoft, la Universidad de Stanford y la Universidad de Toronto.
En una evaluación MLPerf relacionada que también se presentó hoy, las GPU NVIDIA A100 Tensor Core elevaron el nivel que establecieron el año pasado para la computación de alto rendimiento (HPC).
Las GPU H100 (también conocidas como Hopper) elevaron el nivel de rendimiento por acelerador en la evaluación MLPerf Training. Lograron hasta 6.7 veces más rendimiento que las GPU de la generación anterior cuando se enviaron por primera vez a la evaluación MLPerf Training. En la misma comparación, las GPU A100 actuales ofrecen 2.5 veces más potencia, gracias a los avances en el software.
Debido en parte a su Motor Transformer, Hopper se destacó en el entrenamiento del popular modelo BERT para el procesamiento de idiomas naturales. Es uno de los modelos de IA MLPerf más grandes y exigentes en cuanto a rendimiento.
Las evaluaciones MLPerf les brindan a los usuarios la confianza para tomar decisiones de compra informadas, ya que abarcan las cargas de trabajo de IA más populares de la actualidad: la visión de computación, el procesamiento de idiomas naturales, los sistemas de recomendación, el aprendizaje por refuerzo y más. Las pruebas se revisan por pares, para que los usuarios puedan confiar en sus resultados.
Las GPU A100 Alcanzaron un Nuevo Pico en HPC
En el conjunto separado de evaluaciones MLPerf HPC, las GPU A100 arrasaron con todas las pruebas de entrenamiento de modelos de IA en cargas de trabajo científicas exigentes que se ejecutan en supercomputadoras. Los resultados muestran la capacidad de la plataforma de IA de NVIDIA para escalar a los desafíos técnicos más difíciles del mundo.
Por ejemplo, las GPU A100 entrenaron modelos de IA en la prueba CosmoFlow de astrofísica 9 veces más rápido que los mejores resultados de hace dos años en la primera ronda de MLPerf HPC. En esa misma carga de trabajo, la A100 también entregó un rendimiento por chip hasta 66 veces más alto que una oferta alternativa.
Las evaluaciones HPC entrenan modelos para trabajar en astrofísica, pronóstico del tiempo y dinámica molecular. Se encuentran en muchos campos técnicos, como el descubrimiento de fármacos, ya que adoptan la IA para avanzar en la ciencia.
Los centros de supercomputadoras en Asia, Europa y los EE. UU. participaron en la última ronda de las evaluaciones MLPerf HPC. En su debut en las evaluaciones DeepCAM, Dell Technologies logró excelentes resultados utilizando las GPU NVIDIA A100.
Un Ecosistema Incomparable
En las evaluaciones de entrenamiento de IA empresarial, un total de 11 empresas, incluido el servicio de cloud de Microsoft Azure, realizaron presentaciones utilizando las GPU NVIDIA A100, A30 y A40. Los fabricantes de sistemas como ASUS, Dell Technologies, Fujitsu, GIGABYTE, Hewlett Packard Enterprise, Lenovo y Supermicro utilizaron un total de nueve Sistemas Certificados por NVIDIA para sus presentaciones.
En la última ronda, al menos tres empresas se unieron a NVIDIA para enviar resultados en las ocho cargas de trabajo de entrenamiento de MLPerf. Esa versatilidad es importante porque las aplicaciones del mundo real a menudo requieren un conjunto de diversos modelos de IA.
Los socios de NVIDIA participan en MLPerf porque saben que es una herramienta valiosa para que los clientes evalúen plataformas y proveedores de IA.
En la Sala de Máquinas
La plataforma de IA de NVIDIA proporciona una pila completa de chips a sistemas, software y servicios. Esto permite mejoras de rendimiento continuas a lo largo del tiempo.
Por ejemplo, las presentaciones en las últimas pruebas de HPC aplicaron un conjunto de optimizaciones y técnicas de software descritas en un artículo técnico. En conjunto, redujeron el tiempo de ejecución en una evaluación 5 veces, de 101 minutos a solo 22 minutos.
Un segundo artículo describe cómo NVIDIA optimizó su plataforma para las evaluaciones de IA empresarial. Por ejemplo, usamos NVIDIA DALI para cargar y preprocesar datos de manera eficiente para una evaluación de visión artificial.
Todo el software que usamos en las evaluaciones está disponible en el repositorio de MLPerf, para que todo el mundo pueda obtener estos resultados de clase mundial. NVIDIA incorpora continuamente estas optimizaciones en contenedores disponibles en NGC, un centro de software para aplicaciones de GPU.