Los modelos abiertos están impulsando una nueva ola de IA en los dispositivos, extendiendo la innovación más allá de la nube hacia los dispositivos cotidianos. A medida que estos modelos avanzan, su valor depende cada vez más del acceso a contexto local en tiempo real capaz de convertir información valiosa en acción.
Diseñadas para este cambio, las últimas incorporaciones de Google a la familia Gemma 4 presentan una clase de modelos compactos, rápidos y omni-capaces, creados para una ejecución local eficiente en una amplia variedad de dispositivos.
Google y NVIDIA han colaborado para optimizar Gemma 4 para GPUs NVIDIA, logrando un rendimiento eficiente en una variedad de sistemas — desde implementaciones en centros de datos hasta PCs y estaciones de trabajo con NVIDIA RTX, la supercomputadora personal de IA NVIDIA DGX Spark y los módulos de IA de borde NVIDIA Jetson Orin Nano.
Gemma 4: Modelos Compactos Optimizados para GPUs NVIDIA
Las últimas incorporaciones a la familia de modelos abiertos Gemma 4 — que abarca variantes E2B, E4B, 26B y 31B — están diseñadas para una implementación eficiente, desde dispositivos de borde hasta GPUs de alto rendimiento.
Todas las configuraciones se midieron usando cuantizaciones Q4_K_M BS = 1, ISL = 4096 y OSL = 128 en GPUs NVIDIA GeForce RTX 5090 y Mac M3 Ultra. El rendimiento de generación de tokens se midió con llama.cpp b7789, usando la herramienta llama-bench.
Esta nueva generación de modelos compactos admite una variedad de tareas, que incluyen:
- Razonamiento: Alto rendimiento en tareas complejas de resolución de problemas.
- Programación: Generación de código y depuración para flujos de trabajo de desarrolladores.
- Agentes: Soporte nativo para el uso estructurado de herramientas (llamadas a funciones).
- Capacidades de Visión, Video y Audio: Permite interacciones multimodales enriquecidas para el reconocimiento de objetos, reconocimiento automático de voz e inteligencia de documentos o videos.
- Entrada Multimodal Intercalada: Combina texto e imágenes en cualquier orden dentro de un mismo prompt.
- Multilingüe: Compatibilidad inmediata con más de 35 idiomas, preentrenado en más de 140 idiomas.
Los modelos E2B y E4B están diseñados para inferencia ultraeficiente y de baja latencia en el borde, funcionando completamente sin conexión con latencia casi nula en muchos dispositivos, incluidos los módulos Jetson Nano.
Los modelos 26B y 31B están diseñados para razonamiento de alto rendimiento y flujos de trabajo orientados a desarrolladores, lo que los hace muy adecuados para la IA agéntica. Optimizados para ofrecer razonamiento accesible y de vanguardia, estos modelos se ejecutan de manera eficiente en GPUs NVIDIA RTX y en el DGX Spark, impulsando entornos de desarrollo, asistentes de programación y flujos de trabajo gestionados por agentes.
A medida que la IA agéntica local sigue ganando impulso, aplicaciones como OpenClaw están habilitando asistentes de IA siempre activos en PCs RTX, estaciones de trabajo y DGX Spark. Los modelos Gemma 4 más recientes son compatibles con OpenClaw, lo que permite a los usuarios crear agentes locales capaces que obtienen contexto de archivos personales, aplicaciones y flujos de trabajo para automatizar tareas. Aprende cómo ejecutar OpenClaw gratis en GPUs RTX y DGX Spark o usando el manual de OpenClaw para DGX Spark.
Consulta el blog de anuncio de Google DeepMind para conocer más sobre las últimas incorporaciones a la familia Gemma 4.
Cómo Empezar: Gemma 4 en GPUs RTX y DGX Spark
NVIDIA ha colaborado con Ollama y llama.cpp para ofrecer la mejor experiencia de implementación local para cada uno de los modelos Gemma 4.
Para usar Gemma 4 localmente, los usuarios pueden descargar Ollama para ejecutar los modelos Gemma 4 o instalar llama.cpp y combinarlo con el checkpoint GGUF de Gemma 4 en Hugging Face. Además, Unsloth ofrece compatibilidad desde el primer día con modelos optimizados y cuantizados para un ajuste fino local eficiente e implementación a través de Unsloth Studio. Empieza a ejecutar y ajustar Gemma 4 en Unsloth Studio hoy mismo.
Ejecutar modelos abiertos como la familia Gemma 4 en GPUs NVIDIA logra un rendimiento óptimo gracias a que los Tensor Cores de NVIDIA aceleran las cargas de trabajo de inferencia de IA para ofrecer mayor rendimiento y menor latencia en la ejecución local. Además, el stack de software CUDA garantiza una amplia compatibilidad con los principales marcos y herramientas, lo que permite que los nuevos modelos funcionen eficientemente desde el primer día.
Esta combinación permite que modelos abiertos como Gemma 4 escalen en una amplia variedad de sistemas — desde el Jetson Orin Nano en el borde hasta PCs RTX, estaciones de trabajo y DGX Spark — sin requerir una optimización exhaustiva.
Consulta el blog técnico de NVIDIA para obtener más detalles sobre cómo empezar con Gemma 4 en GPUs NVIDIA y conoce más sobre el trabajo de NVIDIA con modelos abiertos.
#ICYMI: Las Últimas Novedades para PCs con IA RTX
✨ Ponte al día con los blogs de RTX AI Garage con una serie de anuncios de IA agéntica de NVIDIA GTC, como nuevos modelos abiertos para agentes locales. Estos modelos incluyen NVIDIA Nemotron 3 Nano 4B y Nemotron 3 Super 120B, además de optimizaciones para Qwen 3.5 y Mistral Small 4.
NVIDIA presentó recientemente NVIDIA NemoClaw, una plataforma de código abierto que optimiza las experiencias de OpenClaw en dispositivos NVIDIA al aumentar la seguridad y ofrecer compatibilidad con modelos locales.
🚀 Accomplish.ai anunció Accomplish FREE, una versión gratuita de su agente de IA de escritorio de código abierto con modelos integrados. Utiliza GPUs NVIDIA para ejecutar modelos de pesos abiertos localmente, mientras que un enrutador híbrido equilibra dinámicamente las cargas de trabajo entre el hardware RTX local y la nube, lo que permite una ejecución rápida, privada y sin configuración sin necesidad de una clave de API.
Conéctate con NVIDIA AI PC en Facebook, Instagram, TikTok y X — y mantente informado suscribiéndote al boletín RTX AI PC.

