Las nuevas optimizaciones de rendimiento potencian las PCs NVIDIA RTX AI para jugadores, creadores y desarrolladores

NVIDIA acaba de anunciar en Microsoft Build nuevas optimizaciones e integraciones de rendimiento de IA para Windows que ayudan a ofrecer el máximo rendimiento en las PCs NVIDIA GeForce RTX AI y las workstations NVIDIA RTX.

Los modelos de lenguaje de gran tamaño (LLMs) impulsan algunos de los casos de uso más interesantes de la IA generativa y ahora se pueden ejecutar hasta 3 veces más rápido con ONNX Runtime (ORT) y DirectML utilizando el nuevo driver NVIDIA R555 Game Ready Driver. ORT y DirectML son herramientas de alto rendimiento que se utilizan para reproducir modelos de IA localmente en PCs con Windows.

WebNN, una interfaz de programación de aplicaciones para que los desarrolladores web desplieguen modelos de IA, se acelera ahora con RTX a través de DirectML, lo que permite a las aplicaciones web incorporar funciones rápidas basadas en IA. Y PyTorch será compatible con los módulos de ejecución de DirectML, lo que permitirá a los desarrolladores de Windows entrenar e inferir modelos de IA complejos en Windows de forma nativa. NVIDIA y Microsoft están colaborando para aumentar el rendimiento de las GPUs RTX.

Estos avances se basan en la plataforma de IA de NVIDIA, que acelera más de 500 aplicaciones y juegos en más de 100 millones de PCs y workstations RTX AI en todo el mundo.

RTX AI PCs – IA mejorada para jugadores, creadores y desarrolladores

NVIDIA presentó las primeras GPUs para PCs con aceleración dedicada de IA, la serie GeForce RTX 20 con Núcleos Tensor, junto con el primer modelo de IA ampliamente utilizado para ejecutarse en Windows, NVIDIA DLSS, en 2018. Sus últimas GPU ofrecen hasta 1.300 billones de operaciones por segundo de rendimiento dedicado a la IA.

En los próximos meses, saldrán a la venta PCs Copilot+ equipados con nuevos sistemas en un chip de bajo consumo y GPUs RTX, que ofrecerán a jugadores, creadores, entusiastas y desarrolladores un mayor rendimiento para hacer frente a las exigentes cargas de trabajo de IA local, junto con las nuevas funciones Copilot+ de Microsoft.

Para los jugadores con PCs RTX AI, NVIDIA DLSS aumenta la velocidad de fotogramas hasta 4 veces, mientras que NVIDIA ACE da vida a los personajes de los juegos con diálogos controlados por IA.

Para los creadores de contenidos, RTX potencia los workflows de producción asistidos por IA en aplicaciones como Adobe Premiere, Blackmagic Design DaVinci Resolve y Blender para automatizar tareas tediosas y agilizar los workflows. Desde la eliminación de ruido 3D y el renderizado acelerado hasta la conversión de texto en imagen y la generación de video, estas herramientas permiten a los artistas dar vida a sus visiones.

NVIDIA RTX Remix, basada en la plataforma NVIDIA Omniverse, proporciona herramientas aceleradas por IA para crear remasterizaciones RTX de juegos clásicos de PC. Facilita más que nunca la captura de activos de juego, la mejora de materiales con herramientas de IA generativa y la incorporación de ray tracing completo.

Para las retransmisiones en directo, la aplicación NVIDIA Broadcast ofrece supresión de ruido y eliminación de fondo con IA de alta calidad, mientras que NVIDIA RTX Video proporciona escalado de video con IA y alto rango dinámico automático para mejorar la calidad del video transmitido.

Para mejorar la productividad, los LLM equipados con GPUs RTX ejecutan los asistentes y copilotos de IA con mayor velocidad y permiten procesar varias peticiones simultáneamente.

Las PCs RTX AI permiten a los desarrolladores crear y perfeccionar modelos de IA directamente en sus dispositivos utilizando las herramientas de desarrollo de IA de NVIDIA, que incluyen NVIDIA AI Workbench, NVIDIA cuDNN y CUDA en el subsistema Windows para Linux. Los desarrolladores también tienen acceso a marcos de IA acelerada por RTX y kits de desarrollo de software como NVIDIA TensorRT, NVIDIA Maxiney RTX Video.

La combinación de funciones de inteligencia artificial y rendimiento ofrece experiencias mejoradas a jugadores, creadores y desarrolladores.

LLM más rápidos y nuevas funciones para desarrolladores web

Microsoft acaba de lanzar la extensión de IA generativa para ORT, una biblioteca de multiplataforma para la inferencia de IA. La extensión incorpora técnicas de optimización como la cuantificación para LLM como Phi-3, Llama 3, Gemma y Mistral. ORT admite distintos proveedores de ejecución para la inferencia a través de varias series de software y hardware, incluido DirectML.

ORT con el backend DirectML ofrece a los desarrolladores de IA para Windows una vía rápida para desarrollar capacidades de IA, con estabilidad y soporte de nivel de producción para el amplio ecosistema de PC Windows. La optimización de NVIDIA para la extensión de IA generativa para ORT, disponible en R555 Game Ready, Studio y NVIDIA RTX Enterprise Drivers, ayuda a los desarrolladores a obtener hasta 3 veces más rendimiento en RTX en comparación con los drivers anteriores.

Rendimiento de inferencia para tres LLM utilizando ONNX Runtime y el proveedor de ejecución DirectML con el último driver GeForce R555 en comparación con el anterior driver R550. INSEQ=2000 muestra cargas de trabajo de síntesis de documentos. Todos los datos capturados con la GPU GeForce RTX 4090 utilizando el tamaño de grupo 1. El soporte de la extensión de IA generativa para la cuantización int4, más las optimizaciones de NVIDIA, dan como resultado un rendimiento hasta 3 veces más rápido para los LLM.

Los desarrolladores pueden desbloquear todas las capacidades del hardware RTX con el nuevo R555 driver, llevando mejores experiencias de IA a los consumidores, más rápido. Incluye:

Compatibilidad con el metacomando DQ-GEMM para gestionar la cuantificación de sólo peso INT4 para LLM.
Nuevos métodos de normalización RMSNorm para los modelos Llama 2, Llama 3, Mistral y Phi-3.
Mecanismos de atención a grupos y consultas múltiples, y atención a ventanas deslizantes para Mistral.
Actualizaciones KV in situ para mejorar el rendimiento de la atención.
Compatibilidad con GEMM de tensores no múltiples de 8 para mejorar el rendimiento de la fase de contexto.

Además, NVIDIA ha optimizado los workflows de IA dentro de WebNN para ofrecer el potente rendimiento de las GPUs RTX directamente en los navegadores. El estándar WebNN ayuda a los desarrolladores de aplicaciones web a acelerar los modelos de aprendizaje profundo con aceleradores de IA integrados en el dispositivo, como los Núcleos Tensor.

WebNN, que ya está disponible en versión preliminar para desarrolladores, utiliza DirectML y ORT Web, una biblioteca de Javascript para la ejecución de modelos en el navegador, para que las aplicaciones de IA sean más accesibles en múltiples plataformas. Con esta aceleración, modelos tan populares como Stable Diffusion, SD Turbo y Whisper se ejecutan hasta 4 veces más rápido en WebNN en comparación con WebGPU y ya están disponibles para que los desarrolladores los utilicen. Los asistentes a Microsoft Build pueden obtener más información sobre el desarrollo en RTX en la sesión presencial Accelerating development on Windows PCs with RTX AI, el miércoles 22 de mayo a las 11 a.m. PT.