La IA es ahora la corriente principal e impulsa una demanda sin precedentes de fábricas de IA (infraestructura especialmente diseñada dedicada al entrenamiento y la inferencia de IA) y a la producción de inteligencia.
Muchas de estas fábricas de IA serán a escala de gigavatios. Construir una fábrica de IA de un solo gigavatio es un acto extraordinario de ingeniería y logística, que requiere decenas de miles de trabajadores entre proveedores, arquitectos, contratistas e ingenieros para construir, enviar y ensamblar casi 5 mil millones de componentes y más de 210,000 millas de cable de fibra.
Para ayudar a diseñar y optimizar estas fábricas de IA, NVIDIA presentó hoy el NVIDIA Omniverse Blueprint para el diseño y las operaciones de fábricas de IA en GTC.
Durante su discurso de apertura de GTC, el fundador y CEO de NVIDIA, Jensen Huang, mostró cómo el equipo de ingeniería del data center de NVIDIA desarrolló una aplicación en Omniverse Blueprint para planificar, optimizar y simular una fábrica de IA de 1 gigavatio. Conectados a las principales herramientas de simulación, como la plataforma de gemelos digitales Cadence Reality y ETAP, los equipos de ingeniería pueden probar y optimizar la energía, la refrigeración y las redes mucho antes de que comience la construcción.
Ingeniería de Fábricas de IA: Un Enfoque Que Prioriza la Simulación
El NVIDIA Omniverse Blueprint para el diseño y las operaciones de fábrica de IA utiliza bibliotecas OpenUSD que permiten a los desarrolladores agregar datos 3D de fuentes dispares, como el propio edificio, los sistemas de computación acelerada de NVIDIA y las unidades de alimentación o refrigeración de proveedores como Schneider Electric y Vertiv.
Al unificar el diseño y la simulación de miles de millones de componentes, el proyecto ayuda a los ingenieros a abordar desafíos complejos como:
- Integración de componentes y optimización del espacio: unificación del diseño y la simulación de NVIDIA DGX SuperPODs, sistemas GB300 NVL72 y sus 5 mil millones de componentes.
- Rendimiento y eficiencia del sistema de refrigeración: uso de la plataforma de gemelos digitales Cadence Reality, acelerada por las bibliotecas NVIDIA CUDA y Omniverse, para simular y evaluar soluciones híbridas de refrigeración por aire y líquido de Vertiv y Schneider Electric.
- Distribución de energía y confiabilidad: diseño de sistemas eléctricos escalables y redundantes con ETAP para simular la eficiencia y confiabilidad del bloque de energía.
- Topología y lógica de red: ajuste de la infraestructura de gran ancho de banda con las redes NVIDIA Spectrum-X y la plataforma NVIDIA Air.
Rompiendo los Silos de Ingeniería con Omniverse
Uno de los mayores desafíos en la construcción de fábricas de IA es que los diferentes equipos (energía, refrigeración y redes) operan en silos, lo que genera ineficiencias y posibles fallas.
Con el anteproyecto, los ingenieros ahora pueden:
- Colabore en contexto completo: varias disciplinas pueden iterar en paralelo, compartiendo simulaciones en vivo que revelan cómo los cambios en un dominio afectan a otro.
- Optimice el uso de energía: las actualizaciones de simulación en tiempo real permiten a los equipos encontrar los diseños más eficientes para las cargas de trabajo de IA.
- Elimine los puntos de falla: al validar las configuraciones de redundancia antes de la implementación, las organizaciones reducen el riesgo de costosos tiempos de inactividad.
- Modele las condiciones del mundo real: prediga y pruebe cómo las diferentes cargas de trabajo de IA afectarán la refrigeración, la estabilidad de la energía y la congestión de la red.
Al integrar la simulación en tiempo real en todas las disciplinas, el proyecto permite a los equipos de ingeniería explorar varias configuraciones para modelar el costo de propiedad y optimizar la utilización de la energía.
Simulaciones en Tiempo Real Para Una Toma de Decisiones Más Rápida
En la demostración de Huang, los ingenieros ajustan las configuraciones de fábrica de IA en tiempo real y ven al instante el impacto.
Por ejemplo, un pequeño ajuste en el diseño de enfriamiento mejoró significativamente la eficiencia, un detalle que podría haberse pasado por alto en el papel. Y en lugar de esperar horas para obtener los resultados de la simulación, los equipos podían probar y perfeccionar las estrategias en cuestión de segundos.
Una vez que se finalizó un diseño óptimo, Omniverse agilizó la comunicación con los proveedores y los equipos de construcción, asegurándose de que lo que se construyera coincida con el modelo, hasta el último detalle.
Fábricas de IA Preparadas para el Futuro
Las cargas de trabajo de IA no son estáticas. La próxima ola de aplicaciones de IA impulsará aún más las demandas de energía, refrigeración y redes. El plan de Omniverse para el diseño y las operaciones de las fábricas de IA ayuda a garantizar que las fábricas de IA estén listas al ofrecer:
- Simulación consciente de la carga de trabajo: prediga cómo los cambios en las cargas de trabajo de IA afectarán a la energía y la refrigeración a escala del data center.
- Pruebas de escenarios de fallas: modele las fallas de la red, las fugas de refrigeración y los picos de energía para garantizar la resistencia.
- Actualizaciones escalables: planifique expansiones de fábricas de IA y calcule las necesidades de infraestructura con años de anticipación.
Y al planificar actualizaciones y modernizaciones, los usuarios pueden probar y simular fácilmente los costos y el tiempo de inactividad, lo que brinda una fábrica de IA preparada para el futuro.
Para los operadores de fábricas de IA, mantenerse a la vanguardia no se trata solo de eficiencia, sino de prevenir fallas de infraestructura que podrían costar millones de dólares por día.
Para una fábrica de IA de 1 gigavatio, cada día de inactividad puede costar más de 100 millones de dólares. Al resolver los desafíos de infraestructura con anticipación, el plan reduce tanto el riesgo como el tiempo de implementación.
El Camino Hacia la IA Basada en Agente para la Operación de Fábricas de IA
NVIDIA está trabajando en la próxima evolución del plan para expandirse a operaciones habilitadas para IA, trabajando con empresas clave como Vertech y Phaidra.
Vertech está colaborando con el equipo de ingeniería del data center de NVIDIA en el avanzado sistema de control de fábrica de IA de NVIDIA, que integra datos de tecnología operativa y de TI para mejorar la resiliencia y la visibilidad operativa.
Phaidra está trabajando con NVIDIA para integrar agentes de IA de aprendizaje por refuerzo en Omniverse. Estos agentes optimizan la estabilidad térmica y la eficiencia energética a través de la simulación de escenarios en tiempo real, creando gemelos digitales que se adaptan continuamente a las condiciones cambiantes del hardware y del entorno.
El Auge de los Data Centers de IA
La IA está remodelando el panorama global de los data centers. Con 1 billón de dólares proyectado para actualizaciones de data centers impulsadas por IA, la tecnología de gemelos digitales ya no es opcional, es esencial.
El NVIDIA Omniverse Blueprint para el diseño y las operaciones de fábrica de IA está preparado para ayudar a NVIDIA y a su ecosistema de socios a liderar esta transformación, ayudando a los operadores de fábricas de IA a mantenerse a la vanguardia de las cargas de trabajo de IA en constante evolución, minimizar el tiempo de inactividad y maximizar la eficiencia.
Obtén más información sobre NVIDIA Omniverse, mira el keynote de GTC, regístrate en la sesión de GTC de Cadence para ver el Omniverse Blueprint en acción y lee más sobre las fábricas de IA.
Consulte el aviso sobre la información del producto de software.