Los modelos de razonamiento están creciendo rápidamente en tamaño y se están integrando cada vez más en los flujos de trabajo de IA agéntica que interactúan con otros modelos y herramientas externas. La implementación de estos modelos y flujos de trabajo en entornos de producción requiere su distribución en múltiples nodos de GPU, lo que exige una orquestación y coordinación cuidadosas entre las GPU.

NVIDIA Dynamo 1.0, disponible ahora, aborda estos problemas al acelerar los modelos de IA generativa y razonamiento en entornos distribuidos a gran escala. El framework de IA ofrece inferencia distribuida de baja latencia y alto rendimiento para implementaciones de IA de múltiples nodos a nivel de producción.

Dynamo admite motores de inferencia de código abierto líderes, como SGLang, NVIDIA TensorRT LLM y vLLM. También ha ofrecido resultados sólidos en análisis de referencia confiables de terceros, como MLPerf y SemiAnalysis InferenceX, lo que refuerza su posición como plataforma de inferencia de nivel de producción. Dynamo puede aumentar la cantidad de solicitudes atendidas hasta 7 veces en NVIDIA Blackwell, como se demostró en el reciente análisis de referencia de SemiAnalysis InferenceX.

Un gráfico de barras que muestra cómo Dynamo aumenta el desempeño de inferencia con servicio desagregado — Figura 1. NVIDIA Dynamo aumenta 7 veces el desempeño con el servicio desagregado cuando se combina con un amplio paralelismo de expertos en NVIDIA GB200 NVL72.

SemiAnalysis InferenceX, actualizado el 3 de marzo de 2026. Resultados para DeepSeek R1-0528, FP4, 1k/1k, interactividad: ~50 tok/seg/usuario

Este blog detalla cómo los primeros usuarios han integrado Dynamo en los flujos de trabajo de inferencia del mundo real, las mejoras en el desempeño a nivel de sistema logradas y las últimas funciones y optimizaciones agregadas al framework.

Adoptantes tempranos e impacto en el mundo real

En el evento de GTC del año pasado, NVIDIA presentó NVIDIA Dynamo, un framework de inferencia distribuido de baja latencia y alto rendimiento diseñado para implementaciones de IA de múltiples nodos. Desde entonces, NVIDIA ha trabajado en colaboración con el ecosistema de código abierto para fortalecer Dynamo para el desempeño de nivel de producción y las cargas de trabajo a gran escala. Durante este período, Dynamo ha logrado hitos significativos:

Implementación exitosa en los flujos de trabajo de producción: Amazon, AstraZeneca, Baseten, ByteDance, CoreWeave, Crusoe, DigitalOcean, Gcore, GMI Cloud, Nebius, Meituan, Pinterest, Prime Intellect, Rednote, SoftBank Corp., Tencent Cloud, Together IA, Vultr y muchos más han implementado Dynamo en la producción para escalar la inferencia de múltiples nodos, optimizar el rendimiento y mejorar la latencia. Vea las grabaciones de Dynamo Day para escuchar directamente a las organizaciones que implementan Dynamo.
Integración en entornos administrados de Kubernetes: Alibaba Cloud, Amazon Web Services (AWS), Google Cloud, Microsoft Azure y Oracle Cloud Infrastructure (OCI) han desarrollado integraciones que muestran cómo Dynamo se puede implementar de forma fluida en sus entornos administrados de Kubernetes, escalando la inferencia para cumplir con la creciente demanda de IA.
Adopción por parte de los principales frameworks de código abierto: Los componentes modulares de Dynamo, como NIXL, han sido ampliamente adoptados por motores de inferencia como llm-d, NVIDIA TensorRT L LM, SGLang y vLLM para acelerar las transferencias de caché de KV entre las GPU. LMCache ha integrado su caché de KV directamente en las soluciones de almacenamiento en Dynamo, SGLang ha integrado su solución HiCache en el enrutador de Dynamo, y LangChain ha desarrollado una integración que inyecta pistas agénticas para el enrutador de Dynamo, lo que valida su arquitectura componible.
Contribuciones inspiradas en todo el ecosistema de IA: Los desarrolladores de toda la comunidad de IA han contribuido a Dynamo y ampliado sus capacidades. Mooncake y Alibaba extendieron el Dynamo AIConfigurator con compatibilidad con SGLang; Microsoft probó y reforzó Dynamo en Azure Kubernetes Service (AKS), contribuyendo con correcciones, guías de implementación, demostraciones públicas y mejoras en Planner/AIConfigurator; Prime Intellect codiseñó e integró la compatibilidad con adaptadores de LoRA; y Baseten validó las primeras funciones de Dynamo en entornos similares a la producción, y luego envió a la rama principal (upstream) correcciones de errores y parches de refuerzo.
Integración habilitada con soluciones de almacenamiento: Cloudian, DDN, Dell, Everpure (anteriormente Pure Storage), HPE, IBM, NetApp, VAST y WEKA han integrado Dynamo en sus soluciones de IA. Esto permite a las cargas de trabajo de inferencia escalar más allá de las restricciones de memoria de GPU para admitir longitudes de contexto muy grandes con almacenamiento.

Dynamo 1.0 se basa en estos hitos, a la vez que marca la madurez y la preparación para la producción del framework. Siga leyendo para ver más aspectos destacados sobre la actualización.

Aceleración de la inferencia agéntica en 4 veces con Dynamo y el Kit de Herramientas NVIDIA NeMo Agent

Los entornos de ejecución de inferencia actuales tratan cada solicitud y bloque de caché de KV de la misma manera: un mensaje del sistema reutilizado en muchos turnos tiene la misma prioridad de desalojo que una cadena de pensamiento única. Sin embargo, los agentes de múltiples turnos reutilizan prefijos y siguen patrones predecibles. Un bloque de KV de múltiples turnos desalojado deberá ser recalculado, lo que dará como resultado computación desperdiciada y mayores costos de inferencia. Dynamo aborda esta brecha con nuevas optimizaciones de inferencia agéntica:

API de frontend de Dynamo: Acepta sugerencias de agentes (metadatos por solicitud, como la latencia, la longitud de salida esperada y el control de caché) y las pasa al enrutador y al administrador de caché de KV.
Enrutador de Dynamo sensible a KV: Usa sugerencias de agentes de prioridad y latencia para controlar el orden de las colas, de modo tal que los turnos orientados al usuario se ejecuten antes que el trabajo en segundo plano. Puede recibir la longitud de secuencia de salida esperada (OSL) para mejorar la precisión del equilibrio de carga.
Administrador de caché de Dynamo KV: Admite la fijación de caché experimental. Los nodos fijados resisten el desalojo durante la duración especificada y se mueven a la memoria de host en lugar de ser eliminados.

La comunidad ha aprovechado estas optimizaciones para crear un enrutamiento personalizado e integrar sugerencias de agentes en frameworks populares como ChatNVIDIADynamo de LangChain y el Kit de Herramientas NVIDIA NeMo Agent.

La ejecución de Dynamo y el Kit de Herramientas NeMo Agent demostró un TTFT hasta 4 veces menor y un rendimiento 1.5 veces mayor al ejecutar el modelo Llama 3.1 en NVIDIA Hopper.

Un diagrama sobre cómo las sugerencias de agentes y los metadatos predictivos impulsan el enrutamiento y el almacenamiento en caché — Figura 2. Cómo las sugerencias de agentes y los metadatos predictivos impulsan el enrutamiento y el almacenamiento en caché.

Avance de la optimización de inferencia multimodal

Dynamo 1.0 presenta tres funciones nuevas diseñadas para acelerar la inferencia multimodal en cargas de trabajo con muchas imágenes, donde la codificación de imágenes puede ser un cuello de botella:

Codificación/prellenado/decodificación desagregada (C/P/D): En lugar de ejecutar C/P/D en la misma GPU, Dynamo los separa en etapas distintas con escalado independiente. La ejecución de la fase de codificación en trabajadores dedicados permite el escalado independiente, lo que mejora el procesamiento por lotes, la eficiencia de memoria y el rendimiento general.
Caché de incrustación multimodal: Una caché de uso menos reciente (LRU) respaldada por CPU almacena incrustaciones de imágenes computadas fuera de la GPU, para que las imágenes repetidas omitan por completo la codificación. Esto se aplica a las configuraciones desagregadas y agregadas.
Enrutamiento KV multimodal: El enrutamiento KV multimodal extiende el enrutador sensible a KV de Dynamo para tener en cuenta el contenido de imágenes. Un enrutador multimodal dedicado descarga imágenes y luego selecciona el trabajador de backend con la mayor superposición de caché, incluida la superposición en bloques que contienen imágenes.

Al ejecutar el modelo multimodal Qwen3-VL-30B-A3B-Instruct-FP8 en NVIDIA GB200, la caché de incrustación de Dynamo aceleró el tiempo al primer token (TTFT) hasta en un 30 % y el rendimiento hasta en un 25 % en las solicitudes de imágenes.

Un diagrama que muestra cómo una caché de CPU reutiliza incrustaciones de imágenes previamente computadas para que las imágenes repetidas omitan la codificación de GPU y reduzcan la computación y la latencia. — Figura 3. Una caché de CPU reutiliza incrustaciones de imágenes computadas previamente para que las imágenes repetidas omitan la codificación de GPU, reduciendo la computación y la latencia.

Adición de compatibilidad nativa para la generación de video

Los nuevos modelos de generación de video están estableciendo un nuevo estándar para la calidad cinematográfica y el realismo de movimiento. Pero servirlos de manera eficiente no es sencillo: sus cargas de trabajo de inferencia hacen uso intensivo de computación y memoria, especialmente a altas resoluciones.

Dynamo 1.0 agrega compatibilidad nativa para modelos de generación de video, con integraciones para los principales frameworks de inferencia de código abierto, como FastVideo, SGLang Diffusion, TensorRT LLM Diffusion y vLLM-Omni. Esto lleva la pila modular de Dynamo, incluido su front-end de baja sobrecarga, sus capacidades de streaming y su motor de programación de alta eficiencia, a las cargas de trabajo de video modernas.

Esta integración demuestra que la generación de video de vanguardia se puede ofrecer de manera eficiente en Dynamo.

Para un tutorial paso a paso sobre cómo implementar modelos de generación de video con Dynamo, consulte esta guía práctica.

Video 1. Generación de un video de 5 segundos en aprox. 40 segundos en una sola GPU NVIDIA Hopper mediante Wan2.1 y SGLang Diffusion ejecutados en NVIDIA Dynamo.

Aceleración de 7 veces en el inicio de inferencia con Dynamo ModelExpress

Los clústeres de inferencia modernos están activando y desactivando constantemente nuevas réplicas en respuesta al tráfico. Cada nuevo proceso tiene que repetir el mismo pipeline de inicio pesado:

Descarga de puntos de verificación de modelos
Carga de pesos desde almacenamiento remoto o compartido
Aplicación de optimizaciones de modelos
Compilación de núcleos
Construcción de gráficos NVIDIA CUDA

Para resolver ese desafío, Dynamo garantiza que las partes costosas del inicio de los trabajadores se hagan una vez y se reutilicen muchas veces a través de dos nuevas capacidades de ModelExpress:

Restauración de puntos de verificación: En lugar de tratar cada réplica como un nuevo arranque, Dynamo ejecuta la secuencia de inicialización completa una sola vez, captura el estado «listo para servir» al almacenamiento persistente y, luego, lleva nuevas réplicas en línea mediante la restauración desde ese punto de verificación, en lugar de reconstruir todo desde cero.

Streaming de peso de modelos: En lugar de hacer que cada trabajador nuevo descargue de forma independiente los pesos de modelos, los escriba en el almacenamiento local o compartido y, luego, los cargue en la memoria de la GPU, ModelExpress carga el modelo una vez en un trabajador inicial y transmite los pesos a trabajadores adicionales a través de interconexiones de alto ancho de banda mediante la biblioteca NVIDIA Inference Xfer (NIXL) y NVLink de NVIDIA, lo que elimina la dependencia del ancho de banda de almacenamiento.

Diagrama que muestra antes y después para el streaming de peso de modelos de NVIDIA Dynamo — Figura 4. Un trabajador descarga los pesos de modelos una vez y los transmite directamente a otras GPU a través de enlaces de alto ancho de banda, lo que evita descargas repetidas de discos.

Para grandes modelos, especialmente en flotas que escalan de forma agresiva, el streaming de peso de modelos puede acelerar el tiempo de carga de modelos hasta en 7 veces para grandes modelos MoE como DeepSeek v3 en NVIDIA H200.

Escalado de Kubernetes en NVIDIA GB300 NVL72

NVIDIA Grove, una API de código abierto que es parte de Dynamo, simplifica la implementación de cargas de trabajo de IA jerárquicas programadas por bandas y sensibles a la topología en Kubernetes. En Dynamo 1.0, Grove agrega automatización de la configuración para la estructura NVIDIA NVLinken sistemas a escala de bastidor como NVIDIA GB300 NVL72. Eso permite a los usuarios definir políticas de colocación en cada capa de la infraestructura, desde regiones de nube y zonas de disponibilidad hasta centros de datos, bloques de red, bastidores, hosts e incluso nodos de acceso a memoria no uniforme (NUMA).

Diagrama que muestra cómo Grove orquesta componentes de inferencia desagregados junto con planificadores de IA avanzados en NVIDIA GB300 NVL72 y clústeres de GPU de escalado horizontal — Figura 5. Grove orquesta componentes de inferencia desagregados junto con programadores de IA avanzados en NVIDIA GB300 NVL72 y clústeres de GPU escalables

Tradicionalmente, el uso de la estructura NVLink de NVIDIA GB300 NVL72 requería que los usuarios definieran y administraran manualmente los dominios de computación. Este lanzamiento presenta una API de topología unificada que permite a los desarrolladores colocar precargado y decodificación de forma fluida en el mismo bastidor NVIDIA NVL72 para optimizar las transferencias de caché de KV, confinar una pila de inferencia a un solo centro de datos para las necesidades de latencia y colocar servicios de frontend en nodos cercanos de solo CPU para un manejo eficiente de solicitudes. Grove se integra con planificadores de IA avanzados, como el planificador KAI, para garantizar que estas restricciones se apliquen.

Integración con el Gateway de Inferencia de Kubernetes

Una versión anterior de Dynamo introdujo un complemento que permite a los usuarios combinar el enrutamiento de la extensión Inference Gateway nativa de Kubernetes y el enrutador sensible a KV de Dynamo.

El Inference Gateway extiende el enrutador de Dynamo sensible a KV de NVIDIA para enrutar de forma inteligente las solicitudes a través de un grupo de inferencia compartido de servidores Dynamo — Figura 6. El complemento del enrutador sensible a KV de NVIDIA Dynamo, integrado en el selector de puntos finales del Inference Gateway, enruta de forma inteligente las solicitudes a través del grupo de inferencia de servidores Dynamo.

En una configuración típica de Dynamo, el enrutamiento es manejado por el enrutador sensible a KV de Dynamo. El enrutador evalúa la profundidad de la cola de trabajadores y la información relevante de caché de KV en cada trabajador y, luego, toma una decisión probabilística mediante una combinación ponderada de estos factores.

El enrutador sensible a KV de Dynamo puede ejecutarse dentro del Gateway de Inferencia para beneficiarse de la integración con complementos de enrutamiento, filtros y otras capacidades de gateway en entornos basados en Kubernetes.

Implementación de inferencia rápida y consciente de la latencia con configuraciones cero

La implementación de grandes modelos requiere una profunda experiencia que equilibre la latencia, el rendimiento y los objetivos de costo a través de pasos complejos de escalado y configuración. La nueva solicitud de implementación de Dynamo Graph (DGDR) de Dynamo elimina esa fricción al proporcionar una ruta simple de un paso desde los objetivos de nivel de servicio (SLO) a implementaciones de inferencia optimizadas.

DGDR combina la inteligencia del planificador y AIConfigurator en un flujo de implementación unificado y nativo de Kubernetes. En lugar de navegar por múltiples herramientas, scripts y conjeturas, los desarrolladores ahora pueden especificar un modelo, hardware objetivo y objetivos de tráfico en un YAML con rapidez a través de una interfaz de usuario web intuitiva, y Dynamo maneja el resto.

Detrás de escena, AIConfigurator ejecuta recomendaciones rápidas basadas en simulación para una iteración rápida, mientras que el planificador participa en una creación de perfiles más profunda en el clúster para una optimización precisa y a nivel de producción. Ambas rutas ofrecen una implementación de Dynamo Graph (DGD) autoimplementable que cumple con el equilibrio entre costo, desempeño y escalabilidad deseado por el usuario, sin tener que configurar manualmente una configuración de implementación.

Video 2. Vea cómo Zero Config implementa, genera y lanza un clúster de inferencia optimizado desde las entradas de SLO, automatizando el escalado, la creación de perfiles y la configuración.

Aumento de la resiliencia con detección de fallas y migración de solicitudes

Un principio de diseño clave en Dynamo es ser resiliente por defecto, para que las aplicaciones sigan funcionando incluso cuando los trabajadores individuales fallan o se desconectan. La tolerancia a fallas de Dynamo actualizada combina dos pilares:

Detección temprana de fallas: Dynamo agrega una «verificación de estado canary» independiente del framework que sondea a los trabajadores en un cronograma configurable. Si estas verificaciones no reciben una respuesta válida, el trabajador se marca como en mal estado y se elimina del enrutamiento. Además, el frontend de Dynamo también realiza la detección activa mediante señales a nivel de red. Si falla el establecimiento de un nuevo flujo a un trabajador, o si un flujo existente termina inesperadamente en medio de la solicitud, ese trabajador se elimina inmediatamente del conjunto de trabajadores activos (durante unos cinco segundos) para que no se le envíen nuevas solicitudes.

Cancelación y migración de solicitudes: La compatibilidad con la cancelación de solicitudes está habilitada desde el principio, lo que permite finalizar el trabajo en vuelo cuando ya no tenga sentido continuar. Cuando un trabajador no está disponible, Dynamo puede migrar las solicitudes afectadas a otro trabajador y reanudar el procesamiento, lo que preserva la solicitud en sí, en lugar de obligar al cliente a volver a enviar desde cero. Esto garantiza que las fallas no se traduzcan automáticamente en errores visibles para el usuario.

Con la nueva detección de estado por capas de Dynamo, combinada con la cancelación y la migración, Dynamo tiene como objetivo mantener la capacidad de respuesta de las aplicaciones de LLM, incluso cuando los trabajadores individuales fallan.

Diagrama del enrutamiento de solicitudes de NVIDIA Dynamo a través de los trabajadores con verificaciones de estado de la red y tipo canary que detectan fallas, cancelan trabajo en curso y migran las solicitudes a trabajadores en buen estado. — Figura 7. Detección temprana de fallas y migración de solicitudes en NVIDIA Dynamo, que muestra las verificaciones de estado de la red y tipo canary y que marcan a los trabajadores que no tienen buen estado, cancelan el trabajo en curso y redirigen de forma transparente las solicitudes a trabajadores en buen estado.

Avance de la caché de KV al almacenamiento

En Dynamo 1.0, el Administrador de Bloques KV (KVBM) presenta varias funciones que mejoran la flexibilidad, la visibilidad y las opciones de implementación:

Compatibilidad con almacenamiento de objetos: KVBM ahora trabaja con Amazon Simple Storage Service (S3) y las API de blob al estilo Azure utilizadas por los principales proveedores de almacenamiento y de nube. Esto permite a los operadores de modelos integrar KVBM con sistemas de archivos existentes, S3 u otros almacenes de objetos en la nube sin desarrollar pipelines de descarga de KV separados para cada backend.
Emisión global de eventos de KV: KVBM emite eventos cada vez que los bloques de KV se mueven entre capas de almacenamiento (memoria de GPU, memoria de CPU, SSD local y almacenamiento remoto) o son desalojados. El indexador del enrutador KV consume estos eventos para mantener una vista consistente en todo el clúster de las ubicaciones de bloques de KV, lo que permite un enrutamiento más inteligente y una reutilización de caché mejorada en múltiples réplicas de modelos y motores de inferencia.
Módulo instalable por Pip: KVBM ahora se puede instalar directamente en motores de inferencia como vLLM o TensorRT LLM, sin requerir la pila Dynamo completa. Los equipos que usan diferentes frameworks de inferencia pueden compartir una herramienta común de descarga de KV en lugar de reimplementar políticas de desalojo e integraciones de almacenamiento.

Diagrama que muestra cómo NVIDIA Dynamo administra de forma inteligente los bloques de caché de KV en los diferentes niveles de memoria para evitar la recomputación de caché de KV — Figura 8. NVIDIA Dynamo administra de forma inteligente los bloques de caché de KV en los diferentes niveles de memoria para evitar la recomputación de caché de KV y acelerar la inferencia de contexto largo

Mirando al Futuro

De cara al futuro, la hoja de ruta de los productos Dynamo se centrará en la expansión de las capacidades multimodales para admitir interacciones más ricas y sensibles al contexto, el avance de modelos basados en difusión para habilitar capacidades de generación de video de mayor calidad en tiempo real, el escalado de las cargas de trabajo de agentes y el aprendizaje por refuerzo.

Dynamo se está desarrollando de forma abierta con la comunidad. Para involucrarse, explore el código y las incidencias en el repositorio NVIDIA GitHub, visite los Office Hours quincenales de Dynamo y consulte los blogs técnicos existentes.

Agradecimientos

Akshatha Kamath, Anish Maddipoti, Anna Tchernych, Ben Hamm, Biswa Ranjan Panda, Dhruv Nandakumar, Ekin Karabulut, Ganesh Kudleppanavar, Hannah Simmons, Hannah Zhang, Harry Kim, Hongkuan Zhou, Hyunjae Woo, Ishan Dhanani, Itay Neeman, Jacky Hui, Jakub Kosek, John Kim, Kavin Krishnan, Kyle Kranen, Maksim Khadkevich, Michael Demoret, Moein Khazraee, Neal Vaidya, Neelay Shah, Qi Wang, Ryan McCormick, Sanjay Chatterjee, Schwinn Saereesitthipitak, Suman Tatiraju, Vikram Sharma Mailthody, Vishwanath Venkatesan y muchos otros contribuyeron a esta publicación.