SLM Reduce la latencia: Cómo el primer modelo de lenguaje reducido para dispositivos de NVIDIA da más vida a los humanos digitales

Nota del editor: Este post forma parte de la serie con IA Descodificada, que desmitifica la IA haciendo que la tecnología sea más accesible y presentando nuevo hardware, software, herramientas y aceleraciones para usuarios de PC RTX.

En Gamescom de esta semana, NVIDIA ha anunciado que NVIDIA ACE -un conjunto de tecnologías para dar vida a los seres humanos digitales con IA generativa- ahora incluye el primer modelo de lenguaje reducido (SLM) de la compañía en el dispositivo, impulsado localmente por RTX AI.

El modelo, denominado Nemotron-4 4B Instruct, proporciona mejores capacidades de juego de rol, generación de funciones y recuperación aumentada, de modo que los personajes del juego pueden comprender más intuitivamente las instrucciones del jugador, responder a los jugadores y realizar acciones más precisas y relevantes.

Disponible como microservicio NVIDIA NIM para que los desarrolladores de juegos puedan utilizarlo en la nube o en sus dispositivos, el modelo está optimizado para utilizar poca memoria, ofrecer tiempos de respuesta más rápidos y proporcionar a los desarrolladores una forma de aprovechar los más de 100 millones de PCs y laptops equipados con GeForce RTX y las estaciones de trabajo equipadas con NVIDIA RTX.

La ventaja de SLM

La precisión y el rendimiento de un modelo de inteligencia artificial dependen del tamaño y la calidad del conjunto de datos utilizado para el entrenamiento. Los grandes modelos lingüísticos se entrenan con grandes cantidades de datos, pero suelen ser de uso general y contienen información excesiva para la mayoría de los usos.

Las SLM, por su parte, se centran en casos de uso específicos. Por eso, incluso con menos datos, son capaces de ofrecer respuestas más precisas y con mayor rapidez, elementos fundamentales para conversar de forma natural con los humanos digitales.

El Nemotron-4 4B se destiló primero del Nemotron-4 15B LLM, de mayor tamaño. Este proceso requiere que el modelo más pequeño, llamado «alumno», imite los resultados del modelo más grande, llamado «maestro». Durante este proceso, las salidas no críticas del modelo alumno se podan o eliminan para reducir el tamaño de los parámetros del modelo. A continuación, se cuantifica el SLM, lo que reduce la precisión de las ponderaciones del modelo.

Con menos parámetros y menos precisión, el Nemotron-4 4B ocupa menos memoria y tarda menos tiempo en dar la primera señal la rapidez con la que se inicia una respuesta que el Nemotron-4 LLM, de mayor tamaño, al tiempo que mantiene un alto nivel de precisión gracias a la tecnología de cuantificación. Su menor huella de memoria también significa que los juegos y las aplicaciones que integran el microservicio NIM pueden ejecutarse localmente en más PCs y laptops GeForce RTX AI y estaciones de trabajo NVIDIA RTX AI que los consumidores poseen hoy en día.

Este nuevo SLM optimizado también ha sido diseñado específicamente con ajuste de instrucciones, una técnica que permite afinar los modelos a partir de instrucciones para que realicen mejores tareas específicas. Esto puede verse en Mecha BREAK, un videojuego en el que los jugadores pueden conversar con un personaje del juego mecánico y darle instrucciones para cambiar y personalizar mechs.

ACEs Up

Los microservicios ACE NIM permiten a los desarrolladores desplegar modelos de IA generativa de última generación a través de la nube o en PC y estaciones de trabajo RTX AI para llevar la IA a sus juegos y aplicaciones. Con los microservicios ACE NIM, los personajes no jugables (NPC) pueden interactuar y conversar dinámicamente con los jugadores del juego en tiempo real.

ACE consta de modelos clave de IA para voz a texto, lenguaje, texto a voz y animación facial. También es modular, lo que permite a los desarrolladores elegir el microservicio NIM necesario para cada elemento de su proceso concreto.

El reconocimiento automático del habla (ASR) NVIDIA Riva procesa el lenguaje hablado por el usuario y utiliza la IA para ofrecer una transcripción de alta precisión en tiempo real. La tecnología crea canales de IA conversacional totalmente personalizables utilizando microservicios de traducción y habla multilingües acelerados en la GPU. Otros ASR compatibles son Whisper de OpenAI, una red neuronal de código abierto que se aproxima a la robustez y precisión humanas en el reconocimiento del habla inglesa.

Una vez traducida a texto digital, la transcripción pasa a un LLM -como Gemma de Google, Llama 3 de Meta o ahora NVIDIA Nemotron-4 4B- para empezar a generar una respuesta a la voz original del usuario.

A continuación, otro componente de la tecnología Riva, la conversión de texto a voz, genera una respuesta de audio. La tecnología de voz y voz AI patentada de ElevenLabs también es compatible y se ha demostrado como parte de ACE, como se ve en la demostración anterior.

Por último, NVIDIA Audio2Face (A2F) genera expresiones faciales que pueden sincronizarse con diálogos en muchos idiomas. Con este microservicio, los avatares digitales pueden mostrar emociones dinámicas y realistas transmitidas en directo o incorporadas durante el procesamiento posterior.

La red de IA anima automáticamente los movimientos de la cara, los ojos, la boca, la lengua y la cabeza para que coincidan con el rango emocional y el nivel de intensidad seleccionados. Y A2F puede deducir automáticamente la emoción directamente de un clip de audio.

Por último, el personaje completo o humano digital se anima en un renderizador, como Unreal Engine o la plataforma NVIDIA Omniverse.

La IA es NIMble

Además de su compatibilidad modular con varios modelos de IA de NVIDIA y de terceros, ACE permite a los desarrolladores ejecutar la inferencia de cada modelo en la nube o localmente en PC y estaciones de trabajo RTX AI.

El kit de desarrollo de software NVIDIA AI Inference Manager permite la inferencia híbrida en función de diversas necesidades como la experiencia, la carga de trabajo y los costes. Agiliza el despliegue y la integración de modelos de IA para los desarrolladores de aplicaciones de PC preconfigurando el PC con los modelos, motores y dependencias de IA necesarios. A continuación, las aplicaciones y los juegos pueden orquestar la inferencia sin problemas desde una PC o una estación de trabajo a la nube.

Los microservicios ACE NIM se ejecutan localmente en PC y estaciones de trabajo RTX AI, así como en la nube. Los microservicios actuales que se ejecutan localmente incluyen Audio2Face, en la demostración técnica Covert Protocol, y el nuevo Nemotron-4 4B Instruct y Whisper ASR en Mecha BREAK.

Hasta el infinito y más allá

Los humanos digitales van mucho más allá de los NPC de los juegos. En la conferencia SIGGRAPH del mes pasado, NVIDIA presentó un avance de «James», un humano digital interactivo capaz de conectar con la gente a través de las emociones, el humor y mucho más. James se basa en un flujo de trabajo de atención al cliente que utiliza ACE.

Los cambios en los métodos de comunicación entre el ser humano y la tecnología a lo largo de las décadas acabaron dando lugar a la creación de seres humanos digitales. El futuro de la interfaz persona-ordenador tendrá una cara amable y no requerirá entradas físicas.

Los humanos digitales impulsan interacciones más atractivas y naturales. Según Gartner, el 80 % de las ofertas conversacionales incluirán IA generativa en 2025, y el 75 % de las aplicaciones orientadas al cliente tendrán IA conversacional con emoción. Los humanos digitales transformarán múltiples sectores y casos de uso más allá de los juegos, como la atención al cliente, la sanidad, el comercio minorista, la telepresencia y la robótica.

Los usuarios pueden echar un vistazo a este futuro ahora interactuando con James en tiempo real en ai.nvidia.com.

La IA generativa está transformando los juegos, las videoconferencias y las experiencias interactivas de todo tipo. Entérate de las novedades y lo que está por venir suscribiéndote al boletín IA Decodificada.