NVIDIA Acelera DiffusionGemma de Google DeepMind para la IA Local

El nuevo modelo abierto DiffusionGemma genera texto en paralelo no un token cada vez y está optimizado para ejecutarse en la plataforma NVIDIA RTX PRO, los sistemas NVIDIA DGX Spark y las GPUs GeForce RTX.
por

Hoy, Google DeepMind ha lanzado DiffusionGemma, un modelo abierto experimental diseñado para la generación de texto excepcionalmente rápida. NVIDIA ha optimizado DiffusionGemma para que funcione aún más rápido en las GPUs NVIDIA GeForce RTX, la plataforma NVIDIA RTX PRO y los sistemas NVIDIA DGX Spark, desde PCs locales hasta la nube.

En lugar de generar texto palabra a palabra, DiffusionGemma genera varias palabras en paralelo para producir bloques completos de texto, lo que abre una nueva frontera de baja latencia para el tipo de cargas de trabajo de un solo usuario que los desarrolladores, investigadores y entusiastas de la IA ejecutan a diario.

Las características del nuevo modelo incluyen:

  • Generación en paralelo: DiffusionGemma elimina el ruido de hasta 256 tokens por paso en lugar de predecir uno a uno.
  • Basado en Gemma 4: DiffusionGemma se basa en Gemma 4, un modelo de combinación de expertos con 26,000 millones de parámetros que activa solo 3,800 millones de parámetros por paso, y que combina un núcleo de difusión con la arquitectura Gemma 4 de Google.
  • Rendimiento hasta cuatro veces más rápido: Esta mejora permite generar texto rápidamente, algo que suele bloquearse cuando lo hace un solo usuario, en el hardware local.
  • Abierto y local: DiffusionGemma tiene los pesos abiertos bajo una licencia Apache 2.0 permisiva y se ejecuta íntegramente en RTX y DGX Spark sin nube, sin costo por token con soporte desde el primer día en Hugging Face Transformers, vLLM y Unsloth.

Una forma diferente de generar texto

Casi todos los modelos de lenguaje a gran escala (LLM) de uso generalizado hoy en día son autorregresivos, lo que significa que generan texto token a token, y cada nueva palabra depende de la anterior. Ese proceso secuencial es lo que hace que la IA interactiva parezca que está escribiendo.

DiffusionGemma toma un camino diferente. Basado en la arquitectura de mezcla de expertos de Gemma 4 26B, genera texto de la misma manera que los modelos de difusión generan imágenes: partiendo del ruido y refinando un bloque completo de texto de una sola vez. Cada paso elimina el ruido de hasta 256 tokens en paralelo, en lugar de emitir un solo token y esperar a calcular el siguiente.

El resultado es un modelo que piensa en bloques en lugar de hacerlo de forma secuencial. Para tareas de un solo usuario en las que la latencia es un factor crítico como el chat interactivo, los circuitos de agentes o los asistentes integrados en el dispositivo que planifican y actúan, ese paralelo se traduce en respuestas lo suficientemente rápidas como para seguir el ritmo del pensamiento y las interacciones de los desarrolladores.

DiffusionGemma funciona en las GPUs de NVIDIA

La generación de un token a la vez es, en esencia, un problema limitado por la memoria: un modelo de lenguaje grande (LLM) tradicional dedica la mayor parte de su tiempo a esperar a que la memoria le proporcione ancho de banda, en lugar de realizar cálculos, lo que deja mucho potencial computacional sin aprovechar.

Diffusion da la vuelta a la ecuación. Procesar un bloque completo de 256 tokens a través del transformer en paralelo es una carga de trabajo limitada por la computación, exactamente para lo que están diseñadas las GPUs de NVIDIA. Los Tensor Cores de NVIDIA aceleran las operaciones matemáticas paralelas densas, y la pila de software CUDA permite que el modelo funcione de manera eficiente desde el primer día sin necesidad de ajustes personalizados. En resumen, el diseño del modelo aprovecha directamente los puntos fuertes de la GPU.

Esto se refleja en las cifras. DiffusionGemma ofrece 1000 tokens/segundo en una sola GPU NVIDIA H100 con Tensor Cores, 150 tokens/segundo en NVIDIA DGX Spark y la inferencia local más rápida en NVIDIA DGX Station aproximadamente cuatro veces más rápido que un modelo autorregresivo equivalente ejecutado en el mismo régimen de usuario único.

  • Esa ventaja se mantiene en toda línea completa de productos de NVIDIA, que ejecuta:
  • Localmente en el superordenador de IA personal de sobremesa NVIDIA DGX Spark —equipado con el superchip NVIDIA GB10 Grace Blackwell con 128 GB de memoria unificada con la pila de software de IA de NVIDIA preinstalada, lista para la creación de prototipos, el ajuste fino y los flujos de trabajo de agentes totalmente locales.
  • En estaciones de trabajo NVIDIA RTX PRO 6000, que proporcionan a desarrolladores, investigadores y profesionales de la IA el margen necesario para ejecutar generación local de baja latencia y bucles de agentes como parte de un flujo de trabajo profesional.
  • En DGX Station, ofrece la mejor inferencia de alta velocidad de su clase, con hasta 800 tokens/segundo para la generación de texto de baja latencia y bucles de agentes con 748 GB de memoria coherente.
  • En las GPU GeForce RTX, con compatibilidad con llama.cpp próximamente.

Empieza a trabajar localmente

La forma más rápida de empezar a probar y crear prototipos del modelo es a través de Hugging Face Transformers, que ejecuta DiffusionGemma en una GeForce RTX 5090 o DGX Spark sin necesidad de configuración. Para una inferencia de mayor rendimiento, vLLM ofrece soporte de servicio desde el primer día.

Para adaptar el modelo a una tarea o dominio específico, se puede realizar un ajuste fino a través de Unsloth y el marco NVIDIA NeMo, con guías de DGX Spark ya preparadas para poner en marcha rápidamente un entorno local. Echa un vistazo a las guías de vLLM para DGX Spark, RTX PRO y DGX Station.

Prueba Diffusion Gemma en Hugging Face o pruébalo gratis utilizando las interfaces de programación de aplicaciones host de NVIDIA en build.nvidia.com.

Profundiza en la arquitectura y la implementación local leyendo el blog técnico de NVIDIA y el anuncio de Google DeepMind.

#ICYMI: Lo último de RTX AI Garage

Los investigadores de NVIDIA han lanzado SANA-WM, un modelo de mundo de código abierto que convierte una sola imagen y una trayectoria de cámara en un video de un minuto de duración y 720p con un control preciso de 6 grados de libertad (6-DoF). Con solo 2,600 millones de parámetros, su versión optimizada genera un clip completo de 60 segundos en 34 segundos en una sola GPU NVIDIA GeForce RTX 5090 utilizando el formato NVFP4, lo que ofrece un rendimiento hasta 36 veces superior al de modelos abiertos comparables mientras se ejecuta en una sola GPU. Lee el artículo.

La creación de agentes de Windows cuenta ahora con un conjunto completo de herramientas: NVIDIA y Microsoft han lanzado un entorno de sandboxing para agentes listo para usar en Windows nativo —Microsoft eXecution Containers más el tiempo de ejecución de NVIDIA OpenShell—, junto con una inferencia de agentes hasta dos veces más rápida y compatibilidad nativa con Windows para Hermes Agent.

DGX Spark pasa de estar sin abrir a tener un agente en funcionamiento en cuestión de minutos: una instalación optimizada de NVIDIA NemoClaw permite a los desarrolladores disponer rápidamente de un agente local operativo, con Qwen3.6-35B ejecutándose hasta 2.6 veces más rápido en vLLM. El nuevo asistente de clúster de NVIDIA Sync conecta hasta cuatro unidades DGX Spark en un único grupo de 512 GB, suficiente para modelos de unos 400,000 millones de parámetros.

Conéctate a RTX Spark en Facebook, Instagram, TikTok y X, y mantente informado suscribiéndote al boletín de RTX Spark.

Consulte el aviso sobre la información de los productos de software.