Misión NIMposible: Descifrando los Microservicios que Aceleran la IA Generativa

Nota del editor: Este post forma parte de la serie IA Descodificada, que desmitifica la IA haciendo la tecnología más accesible y muestra nuevo hardware, software, herramientas y aceleraciones para usuarios de PC y workstation NVIDIA RTX.

En el mundo en rápida evolución de la inteligencia artificial, la IA generativa está cautivando la imaginación y transformando las industrias. Entre bambalinas, un héroe anónimo lo está haciendo posible: la arquitectura de microservicios.

Los Elementos Básicos de las Aplicaciones Modernas de IA

Los microservicios se han convertido en una potente arquitectura que ha cambiado radicalmente la forma de diseñar, crear y desplegar software.

Una arquitectura de microservicios descompone una aplicación en una colección de servicios independientes y poco acoplados. Cada servicio es responsable de una capacidad específica y se comunica con otros servicios a través de interfaces de programación de aplicaciones (API) bien definidas. Este enfoque modular contrasta claramente con las arquitecturas tradicionales «todo en uno», en las que toda la funcionalidad se agrupa en una única aplicación estrechamente integrada.

Al desacoplar los servicios, los equipos pueden trabajar simultáneamente en distintos componentes, lo que acelera los procesos de desarrollo y permite que las actualizaciones se desplieguen de forma independiente sin afectar a toda la aplicación. Los desarrolladores pueden centrarse en crear y mejorar servicios específicos, lo que mejora la calidad del código y acelera la resolución de problemas. Esta especialización permite a los desarrolladores convertirse en expertos en su dominio particular.

Los servicios pueden escalarse independientemente en función de la demanda, lo que optimiza la utilización de los recursos y mejora el rendimiento general del sistema. Además, los distintos servicios pueden utilizar tecnologías diferentes, lo que permite a los desarrolladores elegir las mejores herramientas para cada tarea específica.

Una Combinación Perfecta: Microservicios e IA Generativa

La arquitectura de microservicios es especialmente adecuada para desarrollar aplicaciones de IA generativa debido a su escalabilidad, modularidad mejorada y flexibilidad.

Los modelos de IA, especialmente los modelos lingüísticos de gran tamaño, requieren importantes recursos informáticos. Los microservicios permiten escalar eficientemente estos componentes que consumen muchos recursos sin afectar a todo el sistema.

Las aplicaciones de IA generativa suelen implicar múltiples pasos, como el preprocesamiento de datos, la inferencia de modelos y el posprocesamiento. Los microservicios permiten desarrollar, optimizar y escalar cada paso de forma independiente. Además, como los modelos y las técnicas de IA evolucionan rápidamente, una arquitectura de microservicios permite una integración más sencilla de nuevos modelos, así como la sustitución de los existentes sin interrumpir toda la aplicación.

NVIDIA NIM: Simplificar la Implementación de la IA Generativa

A medida que crece la demanda de aplicaciones basadas en IA, los desarrolladores se enfrentan a retos a la hora de desplegar y gestionar eficazmente los modelos de IA.

Los microservicios de inferencia NVIDIA NIM proporcionan modelos como contenedores optimizados para implantar en la nube, centros de datos, workstations, desktops y laptops. Cada contenedor NIM incluye los modelos de IA previamente entrenados y todos los componentes de ejecución necesarios, lo que simplifica la integración de las funciones de IA en las aplicaciones.

NIM ofrece un enfoque que cambia las reglas del juego para los desarrolladores de aplicaciones que buscan incorporar la funcionalidad de la IA al proporcionar una integración simplificada, preparación para la producción y flexibilidad. Los desarrolladores pueden centrarse en crear sus aplicaciones sin preocuparse por las complejidades de la preparación de datos, la formación de modelos o la personalización, ya que los microservicios de inferencia de NIM están optimizados para el rendimiento, incluyen optimizaciones en tiempo de ejecución y son compatibles con las API estándar del sector.

La IA al Alcance de la Mano: NVIDIA NIM en Workstations y PCs

La creación de aplicaciones empresariales de IA generativa presenta muchos retos. Aunque las API de modelos alojadas en la nube pueden ayudar a los desarrolladores a empezar, los problemas relacionados con la privacidad de los datos, la seguridad, la latencia de respuesta de los modelos, la precisión, los costos de API y el escalado a menudo obstaculizan el camino hacia la producción.

Las workstations con NIM proporcionan a los desarrolladores un acceso seguro a una amplia gama de modelos y microservicios de inferencia de rendimiento optimizado.

Al evitar la latencia, el costo y los problemas de cumplimiento asociados con las API alojadas en la nube, así como las complejidades de la implementación de modelos, los desarrolladores pueden centrarse en el desarrollo de aplicaciones. Esto acelera la entrega de aplicaciones de IA generativa listas para la producción, lo que permite un escalado automático y sin interrupciones con optimización del rendimiento en centros de datos y en la nube.

La recientemente anunciada disponibilidad general del modelo Meta Llama 3 8B como NIM, que puede ejecutarse localmente en sistemas RTX, pone al alcance de los desarrolladores individuales las capacidades de los modelos lingüísticos más avanzados, lo que permite realizar pruebas y experimentos locales sin necesidad de recursos en la nube. Con NIM ejecutándose localmente, los desarrolladores pueden crear sofisticados proyectos de generación aumentada por recuperación (RAG) directamente en sus workstations.

RAG local se refiere a la implementación de sistemas RAG enteramente en hardware local, sin depender de servicios basados en la nube o API externas.

Los desarrolladores pueden utilizar Llama 3 8B NIM en workstations con una o varias GPUs NVIDIA RTX 6000 Ada Generation o en sistemas NVIDIA RTX para crear sistemas RAG integrales totalmente en hardware local. Esta configuración permite a los desarrolladores aprovechar toda la potencia de Llama 3 8B, garantizando un alto rendimiento y baja latencia.

Al ejecutar todo el proceso RAG localmente, los desarrolladores pueden mantener un control total sobre sus datos, garantizando la privacidad y la seguridad. Este enfoque es especialmente útil para los desarrolladores que crean aplicaciones que requieren respuestas en tiempo real y gran precisión, como chatbots de atención al cliente, herramientas de generación de contenidos personalizados y asistentes virtuales interactivos.

RAG Híbrido combina recursos locales y basados en la nube para optimizar el rendimiento y la flexibilidad de las aplicaciones de IA. Con NVIDIA AI Workbench, los desarrolladores pueden empezar a trabajar con el proyecto híbrido RAG Workbench, una aplicación de ejemplo que puede utilizarse para ejecutar bases de datos vectoriales y modelos de incrustación localmente mientras se realiza la inferencia utilizando NIM en la nube o el centro de datos, lo que ofrece un enfoque flexible para la asignación de recursos.

Esta configuración híbrida permite a los desarrolladores equilibrar la carga computacional entre los recursos locales y los de la nube, optimizando el rendimiento y el costo. Por ejemplo, la base de datos vectorial y los modelos de incrustación pueden alojarse en estaciones de trabajo locales para garantizar una rápida recuperación y procesamiento de los datos, mientras que las tareas de inferencia más intensivas desde el punto de vista computacional pueden descargarse en potentes microservicios de inferencia NIM basados en la nube. Esta flexibilidad permite a los desarrolladores escalar sus aplicaciones sin problemas, adaptándose a las distintas cargas de trabajo y garantizando un rendimiento constante.

Los microservicios de inferencia NVIDIA ACE NIM dan vida a humanos digitales, personajes no jugables (NPC) de IA y avatares interactivos para atención al cliente con IA generativa, ejecutándose en PC y workstations RTX.

Los microservicios de inferencia ACE NIM para el habla -incluidos el reconocimiento automático del habla Riva, la conversión de texto a voz y la traducción automática neuronal- permiten transcripciones y traducciones precisas y voces realistas.

El modelo de lenguaje reducido Nemotron de NVIDIA es un NIM para inteligencia que incluye cuantificación INT4 para un uso mínimo de la memoria y admite casos de uso de juegos de rol y RAG.

Y los microservicios de inferencia ACE NIM para apariencia incluyen Audio2Face y Omniverse RTX para animación realista con visuales ultrarrealistas. De este modo, los personajes de los juegos resultan más envolventes y atractivos, y los usuarios que interactúan con agentes virtuales de atención al cliente disfrutan de experiencias más satisfactorias.

Sumérgete en el NIM

A medida que avance la IA, la capacidad de desplegar y ampliar rápidamente sus capacidades será cada vez más crucial.

Los microservicios NVIDIA NIM sientan las bases de esta nueva era de desarrollo de aplicaciones de IA y permiten introducir innovaciones revolucionarias. Ya sea para crear la próxima generación de juegos basados en IA, desarrollar aplicaciones avanzadas de procesamiento del lenguaje natural o crear sistemas de automatización inteligentes, los usuarios pueden acceder a estas potentes herramientas de desarrollo al alcance de su mano.

Cómo empezar:

Experimenta e interactúa con los microservicios de NVIDIA NIM en nvidia.com.
Únete al Programa para Desarrolladores de NVIDIA y obtén acceso gratuito a NIM para probar y crear prototipos de aplicaciones basadas en IA.
Adquiera una licencia NVIDIA AI Enterprise con un periodo de evaluación gratuito de 90 días para la implantación en producción y utilice NVIDIA NIM para auto alojar modelos de IA en la nube o en centros de datos.

La IA generativa está transformando los juegos, las videoconferencias y las experiencias interactivas de todo tipo. Entérate de las novedades y lo que está por venir suscribiéndote al boletín IA Descodificada.