Brillando Más Juntos: Gemma de Google Optimizado para Ejecutarse en GPU NVIDIA

NVIDIA, en colaboración con Google, ha lanzado hoy optimizaciones en todas las plataformas de IA de NVIDIA para Gemma, los nuevos modelos de lenguaje abierto ligeros de 2.000 millones y 7.000 millones de parámetros de Google que pueden ejecutarse en cualquier lugar, lo que reduce los costes y acelera el trabajo innovador para casos de uso específicos de cada dominio.

Los equipos de las empresas trabajaron en estrecha colaboración para acelerar el rendimiento de Gemma, creado a partir de la misma investigación y tecnología utilizada para crear los modelos Gemini, con NVIDIA TensorRT-LLM, una biblioteca de código abierto para optimizar la inferencia de grandes modelos de lenguaje, cuando se ejecuta en GPU NVIDIA en el data centers, en la nube y en PC con GPU NVIDIA RTX.

Esto permite a los desarrolladores dirigirse a la base instalada de más de 100 millones de GPU NVIDIA RTX disponibles en PC con IA de alto rendimiento en todo el mundo.

Los desarrolladores también pueden ejecutar Gemma en las GPU NVIDIA en la nube, incluidas las instancias A3 de Google Cloud basadas en la GPU H100 Tensor Core y, pronto, las GPU H200 Tensor Core de NVIDIA, con 141 GB de memoria HBM3e a 4,8 terabytes por segundo, que Google implementará este año.

Además, los desarrolladores empresariales pueden aprovechar el rico ecosistema de herramientas de NVIDIA, incluido NVIDIA AI Enterprise con el framework NeMo y TensorRT-LLM, para ajustar Gemma e implementar el modelo optimizado en su aplicación de producción.

Obtén más información sobre cómo TensorRT-LLM está acelerando la inferencia para Gemma, junto con información adicional para desarrolladores. Esto incluye varios puntos de control del modelo de Gemma y la versión cuantificada FP8 del modelo, todos optimizados con TensorRT-LLM.

Experimenta Gemma 2B y Gemma 7B directamente desde tu navegador en NVIDIA AI Playground.

Gemma Viene a Chatear con RTX

Próximamente se añadirá compatibilidad con Gemma Chat with RTX, una demostración técnica de NVIDIA que utiliza la generación aumentada de recuperación y el software TensorRT-LLM para ofrecer a los usuarios capacidades de IA generativa en sus PC locales con Windows con tecnología RTX.

El Chat with RTX permite a los usuarios personalizar un chatbot con sus propios datos conectando fácilmente archivos locales en una PC a un grande modelo de lenguaje.

Dado que el modelo se ejecuta localmente, proporciona resultados rápidamente y los datos del usuario permanecen en el dispositivo. En lugar de depender de los servicios de LLM basados en la nube, Chat with RTX permite a los usuarios procesar datos confidenciales en una PC local sin necesidad de compartirlos con un tercero o tener una conexión a Internet.