NVIDIA Lanza el Modelo Nemotron 3 Nano Omni, Unificando Visión, Audio e Idioma para Agentes de IA hasta 9 Veces Más Eficientes

en resumen

Qué es

Un modelo de razonamiento omni-modal abierto, el modelo multimodal abierto de mayor eficiencia de su tipo, con alta precisión

Qué procesa

Texto, imágenes, audio, video, documentos, gráficos e interfaces gráficas (entrada); texto (salida)

Para quién es

Empresas y desarrolladores que construyen sistemas agénticos rápidos y fiables con necesidad de un subagente de percepción multimodal

Cómo funciona

Actúa como los «ojos y oídos» en un sistema de agentes, trabajando junto a modelos como Nemotron 3 Super y Ultra, u otros modelos propietarios

Por qué importa

Alta precisión multimodal y rendimiento 9x mayor que otros modelos omni abiertos con la misma interactividad, lo que se traduce en menor costo y mejor escalabilidad sin sacrificar la capacidad de respuesta

Arquitectura

MoE híbrido 30B-A3B con Conv3D, EVS, contexto de 256K

Disponibilidad

28 de abril de 2026 en Hugging Face, OpenRouter, build.nvidia.com y más de 25 plataformas asociadas

Los sistemas de agentes de IA actuales manejan modelos separados para visión, habla e idioma, perdiendo tiempo y contexto al pasar datos de un modelo a otro.

Presentado hoy, NVIDIA Nemotron 3 Nano Omni es un modelo multimodal abierto que reúne estas capacidades en un solo sistema, lo que permite a los agentes ofrecer respuestas más rápidas e inteligentes con razonamiento avanzado sobre video, audio, imagen y texto. Este modelo de categoría superior ofrece a las empresas y desarrolladores un camino de producción para agentes de IA multimodales más eficientes y precisos, con total flexibilidad y control de despliegue.

Nemotron 3 Nano Omni establece una nueva frontera de eficiencia para los modelos multimodales abiertos con alta precisión y bajo costo, liderando seis rankings en inteligencia documental compleja y comprensión de video y audio.

Las empresas de IA y software que ya han adoptado Nemotron 3 Nano Omni incluyen Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company, Palantir y Pyler, con Dell Technologies, Docusign, Infosys, K-Dense, Lila, Oracle y Zefr evaluando el modelo.

«Para construir agentes útiles, no puedes esperar segundos a que un modelo interprete una pantalla», dijo Gautier Cloix, CEO de H Company. «Al desarrollar sobre Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla en Full HD, algo que antes no era práctico. Esto no es solo un aumento de velocidad: es un cambio fundamental en cómo nuestros agentes perciben e interactúan con los entornos digitales en tiempo real.»

Nemotron 3 Nano Omni Permite Agentes Multimodales Más Rápidos y Eficientes

Imagine un agente de IA para atención al cliente que procesa una grabación de pantalla mientras analiza el audio de una llamada cargada y verifica registros de datos, o un agente para finanzas encargado de analizar PDFs, hojas de cálculo, gráficos y notas de voz. Hoy en día, la mayoría de los sistemas agénticos realizan estas tareas con modelos separados para visión, habla e idioma.

Este enfoque aumenta la latencia a través de pasadas de inferencia repetidas, fragmenta el contexto entre modalidades y agrega costos e imprecisiones con el tiempo.

Al combinar codificadores de visión y audio dentro de su arquitectura mixture-of-experts híbrida 30B-A3B, Nemotron 3 Nano Omni elimina la necesidad de modelos de percepción separados, impulsando la eficiencia de inferencia a escala. Combina esta eficiencia con una sólida precisión de percepción multimodal, lo que permite a los sistemas de IA lograr un rendimiento 9x mayor que otros modelos omni abiertos con la misma interactividad. El resultado es un menor costo y una mejor escalabilidad sin sacrificar la capacidad de respuesta ni la calidad.

En los sistemas agénticos, Nemotron 3 Nano Omni puede trabajar junto a modelos de nube propietarios u otros modelos abiertos NVIDIA Nemotron, como Nemotron 3 Super para ejecución de alta frecuencia o Nemotron 3 Ultra para planificación compleja, así como modelos propietarios de otros proveedores, para impulsar subagentes en flujos de trabajo agénticos como el uso de computadoras, la inteligencia documental y el razonamiento sobre audio y video.

Agentes para uso de computadora — Nemotron 3 Nano Omni impulsa el bucle de percepción para agentes que navegan por interfaces gráficas de usuario, razonan sobre el contenido en pantalla y comprenden el estado de la interfaz de usuario a lo largo del tiempo. El último agente de uso de computadora de H Company, impulsado por Nemotron 3 Nano Omni, utiliza una resolución de entrada nativa de 1920×1080 píxeles para lograr un razonamiento visual de alta fidelidad. En evaluaciones preliminares del benchmark OSWorld, esta integración mostró un salto significativo en la navegación de interfaces gráficas complejas y aprovechó la capacidad de Nemotron 3 Nano Omni para procesar imágenes de muy alta resolución.
Inteligencia documental — Interpreta documentos, gráficos, tablas, capturas de pantalla y entradas multimedia, lo que permite a los agentes razonar de manera coherente sobre la estructura visual y el contenido de texto. Fundamental para el análisis empresarial y los flujos de trabajo de cumplimiento normativo.
Comprensión de audio y video — Para los flujos de trabajo de atención al cliente, investigación y monitoreo, Nemotron 3 Nano Omni mantiene el contexto de audio y video, vinculando lo que se dijo, mostró y documentó en un único flujo de razonamiento en lugar de resúmenes desconectados.

Abierto y Personalizable, Desplegable en Cualquier Lugar

Nemotron 3 Nano Omni se lanza con pesos, conjuntos de datos y técnicas de entrenamiento abiertos, lo que ofrece a las organizaciones total transparencia y control sobre cómo se personaliza y despliega el modelo.

Los desarrolladores pueden usar herramientas como NVIDIA NeMo para la personalización, evaluación y optimización para casos de uso específicos del dominio. Como la familia de modelos Nemotron es abierta, las organizaciones pueden desplegarlos en entornos que cumplan con los requisitos regulatorios, de soberanía de datos o de localización de datos.

La familia Nemotron 3, que incluye los modelos Nano, Super y Ultra, ha registrado más de 50 millones de descargas en el último año. Omni extiende las capacidades de la familia a los dominios multimodal y agéntico.

El modelo está disponible en Hugging Face, en OpenRouter y en build.nvidia.com como microservicio NVIDIA NIM, y a través de un amplio ecosistema de Socios de Nube de NVIDIA, plataformas de inferencia y proveedores de servicios en la nube.

Su arquitectura abierta y ligera admite un despliegue consistente desde sistemas locales como el hardware NVIDIA Jetson, NVIDIA DGX Spark y DGX Station hasta centros de datos y entornos en la nube.

Visite el blog técnico de NVIDIA para obtener tutoriales, cookbooks y guías de despliegue de los casos de uso de Nemotron 3 Nano Omni. Manténgase al día sobre la IA agéntica, NVIDIA Nemotron y más suscribiéndose a las noticias de NVIDIA, uniéndose a la comunidad y siguiendo a NVIDIA AI en LinkedIn, Instagram, X y Facebook.

Explore tutoriales en video a su propio ritmo y transmisiones en vivo.