Implementación de Llama 3.2 Acelerada Desde el Edge Hasta la Nube

por Amanda Saunders

Ampliando la colección de modelos de código abierto Meta Llama, la colección Llama 3.2 incluye modelos de lenguaje de visión (VLM), pequeños modelos de lenguaje (SLM) y un modelo Llama Guard actualizado con soporte para visión. Cuando se combina con la plataforma de computación acelerada de NVIDIA, Llama 3.2 ofrece a desarrolladores, investigadores y empresas nuevas y valiosas capacidades y optimizaciones para realizar sus casos de uso de IA generativa.

Entrenados en GPU NVIDIA H100 Tensor Core, los SLM en tamaños 1B y 3B son ideales para implementar asistentes de IA basados en Llama en dispositivos en el edge. Los VLM en tamaños 11B y 90B admiten entradas de texto e imagen y texto de salida. Con soporte multimodal, los VLM ayudan a los desarrolladores a crear aplicaciones potentes que requieren una base visual, razonamiento y comprensión. Por ejemplo, pueden crear agentes de IA para el subtitulado de imágenes, la recuperación de texto e imágenes, las preguntas y respuestas visuales y las preguntas y respuestas de documentos, entre otros. Los modelos de Llama Guard ahora también admiten barreras de protección de entrada de imagen además de la entrada de texto.

La arquitectura del modelo Llama 3.2 es un modelo de lenguaje autorregresivo que utiliza una arquitectura optimizada de transformer. Las versiones ajustadas a la instrucción utilizan el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo con retroalimentación humana (RLHF) para alinearse con las preferencias humanas en cuanto a ayuda y seguridad. Todos los modelos admiten una longitud de contexto larga de 128K tokens y están optimizados para la inferencia con compatibilidad con la atención de consultas agrupadas (GQA).

NVIDIA está optimizando la colección de modelos Llama 3.2 para ofrecer un alto rendimiento y baja latencia en millones de GPU en todo el mundo, desde data centers hasta workstations locales con NVIDIA RTX y en el edge con NVIDIA Jetson. Esta publicación describe las optimizaciones de hardware y software, las personalizaciones y las capacidades de facilidad de implementación.

Aceleración del Rendimiento de Llama 3.2 con NVIDIA TensorRT

NVIDIA está acelerando la colección de modelos Llama 3.2 para reducir el costo y la latencia, al tiempo que ofrece un rendimiento sin precedentes y brinda una experiencia óptima al usuario final. NVIDIA TensorRT incluye las bibliotecas TensorRT y TensorRT-LLM para la inferencia de deep learning de alto rendimiento.

Los modelos Llama 3.2 1B y Llama 3.2 3B se están acelerando para la compatibilidad con contexto largo en TensorRT-LLM mediante la técnica de incrustación de posición rotativa escalada (RoPE) y varias otras optimizaciones, incluido el almacenamiento en caché de KV y el procesamiento por lotes en vuelo.

Los modelos Llama 3.2 11B y Llama 3.2 90B son multimodales e incluyen un codificador de visión con un decodificador de texto. El codificador de visión se está acelerando mediante la exportación del modelo a un gráfico ONNX y la creación del motor TensorRT.La exportación ONNX crea una definición de modelo estándar con operadores integrados y tipos de datos estándar, centrados en la inferencia. TensorRT usa el gráfico ONNX para optimizar el modelo para las GPU de destino mediante la creación de la función del motor TensorRT. Estos motores ofrecen una variedad de optimizaciones a nivel de hardware para maximizar la utilización de la GPU NVIDIA a través de la fusión de capas y tensores junto con el ajuste automático del kernel.

La información visual del codificador de visión se fusiona en el descodificador de texto Llama con un mecanismo de atención cruzada compatible con TensorRT-LLM. Esto permite que los VLM generen texto de manera eficiente teniendo en cuenta el razonamiento visual y la comprensión en contexto con la entrada de texto.

Implementa Fácilmente Soluciones de IA Generativa con NVIDIA NIM

Las optimizaciones de TensorRT están disponibles a través de implementaciones listas para producción mediante los microservicios NVIDIA NIM. Los microservicios NIM aceleran la implementación de modelos de IA generativa en toda la infraestructura acelerada por NVIDIA en cualquier lugar, incluida la nube, el data center y las workstations.

Llama 3.2 90B Vision Instruct, Llama 3.2 11B Vision Instruct, Llama 3.2 3B Instruct y Llama 3.2 1B Instruct son compatibles con los microservicios NIM para implementaciones de producción. NIM proporciona una gestión y orquestación simplificadas de cargas de trabajo de IA generativa, interfaz de programación de aplicaciones (API) estándar y soporte empresarial con contenedores listos para la producción. Al ofrecer un sólido y creciente soporte del ecosistema con más de 175 socios que integran sus soluciones con los microservicios de NVIDIA NIM, los desarrolladores, investigadores y empresas de todo el mundo pueden maximizar el retorno de la inversión en aplicaciones de IA generativa.

Personaliza y Evalúa los Modelos de Llama 3.2 con NVIDIA AI Foundry y NVIDIA NeMo

NVIDIA AI Foundry proporciona una plataforma integral para las personalizaciones del modelo Llama 3.2 con acceso a herramientas de IA avanzadas, recursos de computación y experiencia en IA. Ajustados a datos propietarios, los modelos personalizados permiten a las empresas lograr un mejor rendimiento y precisión en tareas específicas del dominio, obteniendo una ventaja competitiva.

Con NVIDIA NeMo, los desarrolladores pueden seleccionar sus datos de entrenamiento, aprovechar técnicas de ajuste avanzadas, como LoRA, SFT, DPO y RLHF, para personalizar los modelos Llama 3.2, evaluar la precisión y agregar barreras de protección para garantizar las respuestas adecuadas de los modelos. AI Foundry proporciona capacidad dedicada en NVIDIA DGX Cloud y cuenta con el soporte de expertos en IA de NVIDIA. El resultado es un modelo personalizado de Llama 3.2 empaquetado como un microservicio de inferencia NVIDIA NIM, que se puede implementar en cualquier lugar.

Escale la Inferencia Local con NVIDIA RTX y NVIDIA Jetson

Hoy en día, los modelos Llama 3.2 están optimizados en más de 100 millones de PC y workstations NVIDIA RTX en todo el mundo. Para las implementaciones de Windows, NVIDIA ha optimizado este conjunto de modelos para que funcionen de manera eficiente con el tiempo de ejecución de ONNX-GenAI, con un backend de DirectML. Comienza a usar el modelo Llama 3.2 3B en NVIDIA RTX.

Los nuevos modelos VLM y SLM desbloquean nuevas capacidades en los sistemas NVIDIA RTX. Para demostrarlo, creamos un ejemplo de un pipeline multimodal de generación aumentada de recuperación (RAG) que combina el procesamiento de datos visuales y de texto (para imágenes, gráficos y gráficos, por ejemplo) para mejorar la recuperación y generación de información.

Aprenda a ejecutar este pipeline en sistemas NVIDIA RTX Linux mediante Llama 3.2 SLM y VLM. Ten en cuenta que necesitarás una workstation Linux con una GPU profesional NVIDIA RTX con más de 30GB de memoria.

Los SLM se adaptan para la implementación local en dispositivos en el edge mediante técnicas como la destilación, la poda y la cuantificación para reducir los requisitos de memoria, latencia y computación, al tiempo que se conserva la precisión para los dominios centrados en la aplicación. Para descargar e implementar los SLM Llama 3.2 1B y 3B a bordo de su Jetson con inferencia de GPU optimizada y cuantificación INT4/FP8, consulte el tutorial de SLM en NVIDIA Jetson AI Lab.

Los modelos multimodales son cada vez más útiles en aplicaciones periféricas por sus capacidades de visión únicas en análisis de vídeo y robótica. El VLM Llama 3.2 11B es compatible con Jetson AGX Orin integrado de 64 GB.

Avance de los Modelos de IA de la Comunidad

Como colaborador activo de código abierto, NVIDIA se compromete a optimizar el software de la comunidad que ayuda a los usuarios a abordar sus desafíos más difíciles. Los modelos de IA de código abierto también promueven la transparencia y permiten a los usuarios compartir ampliamente el trabajo sobre la seguridad y la resiliencia de la IA.

Las  capacidades de inferencia como servicio de Hugging Face permiten a los desarrolladores implementar rápidamente grandes modelos de lenguaje (LLM) líderes, como la colección Llama 3, con optimización de microservicios NVIDIA NIM que se ejecutan en NVIDIA DGX Cloud.

Obtén acceso gratuito a NIM para investigación, desarrollo y pruebas a través del Programa para Desarrolladores de NVIDIA.

Explora más a fondo la plataforma de inferencia de IA de NVIDIA, incluido cómo NVIDIA NIM, NVIDIA TensorRT-LLM, NVIDIA TensorRT, y NVIDIA Triton utilizar técnicas de última generación como Lora para acelerar los últimos LLM.