Nuevo Software de NVIDIA para la Infraestructura de Blackwell Ejecuta Fábricas de IA a la Velocidad de la Luz

El software NVIDIA Mission Control, ahora disponible para los sistemas NVIDIA DGX y próximamente de los principales proveedores de sistemas, aumenta la utilización de la GPU 5 veces y mejora la eficiencia del entrenamiento y la inferencia a cualquier escala.
por Charlie Boyle

La era industrial fue impulsada por el vapor. La era digital trajo un cambio a través del software. Ahora, la era de la IA está marcada por el desarrollo de la IA generativa, la IA basada en agentes y el razonamiento de la IA, que permite a los modelos procesar más datos para aprender y razonar para resolver problemas complejos.

Al igual que las fábricas industriales transforman las materias primas en bienes, las empresas modernas requieren fábricas de IA para transformar rápidamente los datos en información escalable, precisa y fiable.

Orquestar esta nueva infraestructura es mucho más complejo que construir fábricas impulsadas por vapor. Los modelos de última generación exigen recursos a escala de supercomputación. Cualquier tiempo de inactividad corre el riesgo de descarrilar semanas de progreso y reducir la utilización de la GPU.

Para permitir que las empresas y los desarrolladores administren y ejecuten fábricas de IA a la velocidad de la luz, NVIDIA anunció hoy en la conferencia global NVIDIA GTC de IA NVIDIA Mission Control, la única plataforma de software de operaciones y orquestación unificada que automatiza la gestión compleja de los data centers y las cargas de trabajo de IA.

NVIDIA Mission Control mejora todos los aspectos de las operaciones de fábrica de IA. Desde la configuración de implementaciones hasta la validación de la infraestructura y la operación de las cargas de trabajo de los desarrolladores, sus capacidades ayudan a las empresas a poner en marcha modelos de frontera más rápido.

Está diseñado para facilitar la transición de los sistemas basados en NVIDIA Blackwell desde el preentrenamiento hasta el post-entrenamiento, y ahora el escalado en tiempo de prueba, con velocidad y eficiencia. El software permite a las empresas cambiar fácilmente entre las cargas de trabajo de entrenamiento e inferencia en sus sistemas NVIDIA DGX basados en Blackwell y sistemas NVIDIA Grace Blackwell, reasignando dinámicamente los recursos del clúster para que coincidan con las prioridades cambiantes.

Además, Mission Control incluye  la tecnología NVIDIA Run:ai para optimizar las operaciones y la orquestación de trabajos para el desarrollo, la capacitación y la inferencia, lo que aumenta la utilización de la infraestructura hasta 5 veces.

Las capacidades de recuperación autónoma de Mission Control, respaldadas por puntos de control rápidos y funciones de reinicio automatizado por niveles, pueden ofrecer una recuperación de trabajos hasta 10 veces más rápida en comparación con los métodos tradicionales que se basan en la intervención manual, lo que aumenta el entrenamiento de IA y la eficiencia de la inferencia para mantener las aplicaciones de IA en funcionamiento.

Basado en décadas de experiencia en supercomputación de NVIDIA, Mission Control permite a las empresas simplemente ejecutar modelos minimizando el tiempo dedicado a administrar la infraestructura de IA. Automatiza el ciclo de vida de la infraestructura de fábrica de IA para todos los sistemas NVIDIA DGX basados en NVIDIA Blackwell y los sistemas NVIDIA Grace Blackwell de Dell Technologies, Hewlett Packard Enterprise (HPE), Lenovo y Supermicro para hacer que la infraestructura de IA avanzada sea más accesible para las industrias del mundo.

Las empresas pueden simplificar y acelerar aún más las implementaciones de los sistemas NVIDIA DGX GB300 y DGX B300 mediante el uso de Mission Control con el servicio NVIDIA Instant AI Factory preconfigurado en los data centers listos para IA de Equinix en 45 mercados de todo el mundo.

El Software Avanzado Proporciona a las Empresas Una Supervisión Ininterrumpida de la Infraestructura

Mission Control automatiza la gestión de la infraestructura de extremo a extremo, incluido el aprovisionamiento, la supervisión y el diagnóstico de errores, para ofrecer operaciones ininterrumpidas. Además, supervisa continuamente cada capa de la pila de aplicaciones e infraestructura para predecir e identificar las fuentes de tiempo de inactividad e ineficiencia, lo que ahorra tiempo, energía y costes.

Los beneficios adicionales del software NVIDIA Mission Control incluyen:

  • Configuración y aprovisionamiento de clústeres simplificados con nueva automatización e interfaces de programación de aplicaciones estandarizadas para acelerar el tiempo de implementación con visualización y gestión de inventario integradas.
  • Orquestación de cargas de trabajo sin interrupciones para workflows simplificados de Slurm y Kubernetes.
  • Perfiles de energía optimizados para equilibrar los requisitos de energía y ajustar el rendimiento de la GPU para varios tipos de cargas de trabajo con controles seleccionables por el desarrollador.
  • Recuperación autónoma de trabajos para identificar, aislar y recuperarse de las ineficiencias sin intervención manual para maximizar la productividad de los desarrolladores y la resiliencia de la infraestructura.
  • Paneles personalizables que realizan un seguimiento de los indicadores clave de rendimiento con acceso a datos de telemetría críticos sobre los clústeres.
  • Comprobaciones de estado bajo demanda para validar el rendimiento del hardware y del clúster a lo largo del ciclo de vida de la infraestructura.
  • Integración de la gestión de edificios para mejorar la coordinación con los sistemas de gestión de edificios para proporcionar más control de los eventos de energía y refrigeración, incluida la detección rápida de fugas.

Los Principales Fabricantes de Sistemas Llevan NVIDIA Mission Control a los Servidores Grace Blackwell

Los principales fabricantes de sistemas planean ofrecer los sistemas NVIDIA GB200 NVL72 y GB300 NVL72 con NVIDIA Mission Control.

Dell planea ofrecer el software NVIDIA Mission Control como parte de Dell AI Factory with NVIDIA.

«La revolución industrial de la IA exige una infraestructura eficiente que se adapte tan rápido como evoluciona el negocio, y Dell AI Factory con NVIDIA ofrece computación, redes, almacenamiento y soporte integrales», dijo Ihab Tarazi, director de tecnología y vicepresidente senior de Dell Technologies. «El emparejamiento del software NVIDIA Mission Control y los servidores Dell PowerEdge XE9712 y XE9680 ayuda a las empresas a escalar modelos sin esfuerzo para satisfacer las demandas de capacitación e inferencia, convirtiendo los datos en información procesable más rápido que nunca».

HPE ofrecerá los sistemas NVIDIA GB200 NVL72 de HPE y GB300 NVL72 de HPE con el software NVIDIA Mission Control.

«Estamos ayudando a los proveedores de servicios y a las empresas de vanguardia a desplegar, escalar y optimizar rápidamente clústeres complejos de IA capaces de entrenar billones de modelos de parámetros», dijo Trish Damkroger, vicepresidenta senior y gerente general de HPC & AI Infrastructure Solutions en HPE. «Como parte de nuestra colaboración con NVIDIA, ofreceremos sistemas de escala de rack NVIDIA Grace Blackwell y software Mission Control con los servicios globales de HPE y la experiencia directa en refrigeración líquida para impulsar la nueva era de IA».

Lenovo planea actualizar su Lenovo Hybrid AI Advantage con los sistemas NVIDIA para incluir el software NVIDIA Mission Control.

«Llevar el software NVIDIA Mission Control a Lenovo Hybrid AI Advantage con sistemas NVIDIA permite a las empresas navegar por las demandas de las cargas de trabajo de IA generativa y agentiva con una agilidad inigualable», dijo Brian Connors, vicepresidente mundial y gerente general del segmento empresarial y de pymes e IA, grupo de soluciones de infraestructura, en Lenovo. «Al automatizar la orquestación de la infraestructura y permitir transiciones fluidas entre las cargas de trabajo de entrenamiento e inferencia, Lenovo y NVIDIA están ayudando a los clientes a escalar la innovación en IA a la velocidad de los negocios».

Supermicro planea incorporar el software NVIDIA Mission Control en sus sistemas Supercluster.

«Supermicro se enorgullece de asociarse con NVIDIA en un sistema NVL72 de Grace Blackwell que es totalmente compatible con el software NVIDIA Mission Control», dijo Cenly Chen, director de crecimiento de Supermicro. «Al ejecutarse en los sistemas AI SuperCluster de Supermicro con NVIDIA Grace Blackwell, el software NVIDIA Mission Control proporciona a los clientes un paquete de software de gestión sin interrupciones para maximizar el rendimiento tanto en los sistemas NVIDIA GB200 NVL72 actuales como en plataformas futuras como NVIDIA GB300 NVL72».

Base Command Manager Ofrece Un Kickstart Gratuito para la Gestión de Clústeres de IA

Para ayudar a las empresas con la gestión de la infraestructura, se espera que el software NVIDIA Base Command Manager pronto esté disponible de forma gratuita para hasta ocho aceleradores por sistema, para cualquier tamaño de clúster, con la opción de comprar NVIDIA Enterprise Support por separado.

Disponibilidad

NVIDIA Mission Control para los sistemas NVIDIA DGX GB200 y DGX B200 ya está disponible. Se espera que los sistemas NVIDIA GB200 NVL72 con Mission Control estén pronto disponibles en Dell, HPE, LeNewfonovo y Supermicro.

Se espera que NVIDIA Mission Control esté disponible para los últimos sistemas NVIDIA DGX GB300 y DGX B300, así como para los sistemas GB300 NVL72 de los principales proveedores mundiales, a finales de este año.

Consulte el aviso sobre la información del producto de software.