NVIDIA Triton Domestica los Mares de la Inferencia de IA

Salesforce, Volkswagen, Hugging Face y más navegan hacia la producción en IA empresarial con el servidor de inferencia de NVIDIA.
por Shankar Chandrasekaran

No necesitas un imponente dios del mar con un tridente para hacer que IA funcione. Sin embargo, un grupo creciente de empresas, desde fabricantes de automóviles hasta proveedores de servicios de cloud, dicen que sentirás un cambio radical si navegas con Triton.

Esta semana, más de media docena de empresas comparten experiencias prácticas en deep learning con el Servidor de Inferencia NVIDIA Triton, un software de código abierto que lleva la IA a la producción al simplificar cómo se ejecutan los modelos en cualquier framework en cualquier GPU o CPU para todas las formas de inferencia. .

Por ejemplo, en una charla de GTC (gratis con registro), Fabian Bormann, un ingeniero de IA del Grupo Volkswagen, realizó una visita virtual a través del Computer Vision Model Zoo, un repositorio de soluciones seleccionadas por los equipos internos de la empresa y futuros socios.

El fabricante de automóviles integra Triton en su Volkswagen Computer Vision Workbench para que los usuarios puedan hacer contribuciones al Model Zoo sin necesidad de preocuparse por si se basan en los frameworks ONNX, PyTorch o TensorFlow. Triton simplifica la gestión y la implementación de modelos; eso es clave para el trabajo de VW mediante el cual ofrece modelos de IA en entornos nuevos e interesantes, dijo Bormann en una descripción de su charla (sesión E32736) de GTC.

Satisfacción de Salesforce con las Evaluaciones de Triton

Salesforce, el líder en software y servicios de gestión de relaciones con los clientes, evaluó recientemente el rendimiento de Triton en algunos de los modelos de IA más grandes del mundo: los transformadores utilizados para el procesamiento de idiomas naturales.

“Triton no solo tiene un excelente rendimiento de servicio, sino que también viene incluido con varias funciones críticas como el procesamiento por lotes dinámico, la gestión de modelos y la priorización de modelos. Es rápido y fácil de configurar y funciona para muchos frameworks de deep learning, incluidos TensorFlow y PyTorch”, dijo Nitish Shirish Keskar, gerente de investigación senior de Salesforce que presentó su trabajo en GTC (sesión S32713).

Keskar describió en un blog reciente su trabajo validando que Triton puede manejar 500-600 consultas por segundo (QPS) mientras procesa 100 subprocesos concurrentes y se mantiene por debajo de 200 ms de latencia en los conocidos modelos BERT utilizados para comprender el habla y el texto. Probó Triton en los modelos CTRL y GPT2-XL mucho más grandes y descubrió que, a pesar de sus miles de millones de nodos de redes neuronales, Triton aún producía un sorprendente valor de 32-35 QPS.

Una Colaboración Modelo con Hugging Face

Más de 5,000 organizaciones recurren a Hugging Face para obtener ayuda para resumir, traducir y analizar texto con sus 7,000 modelos de IA para el procesamiento de idiomas naturales. Jeff Boudier, su director de producto, hablará en GTC (sesión S32003) sobre cómo su equipo logró mejoras 100 veces mayores en la inferencia de IA en sus modelos, gracias a un flujo que incluyó a Triton.

“Tenemos una gran colaboración con NVIDIA, por lo que nuestros usuarios pueden tener el rendimiento más optimizado al ejecutar modelos en una GPU”, dijo Boudier.

Hugging Face tiene como objetivo combinar Triton con TensorRT, el software de NVIDIA para optimizar modelos de IA, con el objetivo de reducir el tiempo de procesamiento de una inferencia con un modelo BERT a menos de un milisegundo. “Eso impulsaría el estado del arte, ya que creará nuevos casos de uso con beneficios para un mercado amplio”, dijo.

Implementado a Escala para la Inferencia de IA

American Express utiliza Triton en un servicio de IA que opera con un requisito de latencia de 2ms para detectar el fraude en tiempo real en transacciones anuales por un valor de 1 billón de dólares.

En cuanto al rendimiento, Microsoft usa Triton en su servicio en el cloud Azure para impulsar la IA de GrammarLink, su editor en línea para Microsoft Word, que se espera que reciba hasta medio billón de consultas al año.

El caso de LivePerson es menos conocido pero digno de mención. La empresa de Nueva York planea ejecutar miles de modelos en Triton en un servicio de cloud que brinda capacidades de IA conversacional a 18,000 clientes, incluidos GM Financial, Home Depot y el proveedor europeo de telefonía celular Orange.

Triton Inference Server
Triton simplifica el trabajo de ejecutar múltiples estilos de inferencia con modelos basados en varios frameworks, mientras mantiene el mayor rendimiento y utilización del sistema.

Además, el CTO de Intelligent Voice, una empresa de Londres, hablará en GTC (sesión S31452) sobre su sistema LexIQal, que utiliza Triton para la inferencia de IA para detectar fraudes en seguros y servicios financieros.

Estas son algunas de las muchas empresas que utilizan NVIDIA para la inferencia de IA en la actualidad. Solo en el último año, los usuarios descargaron el software Triton más de 50,000 veces.

El Tridente Multiuso de Triton

Triton está ganando terreno en parte porque puede manejar cualquier tipo de trabajo de inferencia de IA, ya sea uno que se ejecute en tiempo real, en modo por lotes, como un servicio de transmisión o incluso si involucra una cadena o conjunto de modelos. Esa flexibilidad elimina la necesidad de que los usuarios adopten y administren servidores de inferencia personalizados para cada tipo de tarea.

Además, Triton asegura una alta utilización del sistema, ya que distribuye el trabajo de manera uniforme entre las GPU, más allá de que la inferencia se ejecute en un servicio de cloud, en un data center local o en el edge de la red. Además, su código abierto y extensible permite a los usuarios personalizar Triton según sus necesidades específicas.

NVIDIA también sigue mejorando Triton. Un analizador de modelos agregado recientemente analiza todas las opciones para mostrar a los usuarios el tamaño de lote óptimo o instancias por GPU para su trabajo. Una nueva herramienta automatiza el trabajo de traducir y validar un modelo entrenado en Tensorflow o PyTorch a un formato TensorRT; en el futuro, admitirá la traducción de modelos desde y hacia cualquier formato de red neuronal.

Conoce a Nuestros Socios de Inferencia

Triton atrajo a varios socios que admiten el software en sus servicios de cloud, incluidos Amazon, Google, Microsoft y Tencent. Otros, como Allegro, Seldon y Red Hat, admiten a Triton en el software para data centers empresariales para workflows, incluido MLOps, la extensión de DevOps para IA.

En GTC (sesión S33118), Arm habló sobre cómo adaptó Triton como parte de su software de red neuronal que ejecuta la inferencia directamente en las puertas de enlace del edge. Dos ingenieros de Dell EMC mostrarón cómo aumentar el rendimiento en análisis de video 6 veces usando Triton (sesión S31437), y NetApp hablará sobre su trabajo integrando Triton con sus matrices de almacenamiento de estado sólido (sesión S32187).

Para obtener más información, visite el sitio de GTC y consulta una de las dos sesiones introductorias (S31114, SE2690) con expertos de NVIDIA en Triton para hablar sobre la inferencia de deep learning.