Microsoft Bing Acelera la Entrega de Anuncios con NVIDIA Triton

El software de inferencia permite el cambio a las GPU NVIDIA A100 Tensor Core, lo que ofrece un rendimiento 7 veces mayor para el gigante de las búsquedas.
por Shankar Chandrasekaran

El equipo de Jiusheng Chen acaba de acelerar.

Están entregando anuncios personalizados a los usuarios de Microsoft Bing con un rendimiento 7 veces mayor a un costo reducido, gracias al Servidor de Inferencia NVIDIA Triton que se ejecuta en las GPU NVIDIA A100 Tensor Core.

Es un logro increíble para el director de ingeniería de software y su equipo.

Ajuste de un Sistema Complejo

El servicio de anuncios de Bing utiliza cientos de modelos que están en constante evolución. Cada uno debe responder a una solicitud en tan solo 10 milisegundos, aproximadamente 10 veces más rápido que un abrir y cerrar de ojos.

La última aceleración comenzó con dos innovaciones que el equipo entregó para hacer que los modelos de IA se ejecutaran más rápido: Bang y EL-Attention.

Juntos, aplican técnicas sofisticadas para hacer más trabajo en menos tiempo y con menos memoria de la computadora. El entrenamiento del modelo se basó en Azure Machine Learning para mejorar la eficacia.

Volar con NVIDIA A100 MIG

A continuación, el equipo actualizó el servicio de anuncios de NVIDIA T4 a GPU A100.

La función de GPU multiinstancia (MIG) de este último permite a los usuarios dividir una GPU en varias instancias.

El equipo de Chen maximizó la función MIG, transformando un A100 físico en siete independientes. Esto permitió al equipo obtener un rendimiento 7 veces mayor por GPU con una respuesta de inferencia en 10 ms.

Software Flexible, Fácil y Abierto

Triton permitió el cambio, en parte, porque permite a los usuarios ejecutar simultáneamente diferentes software de tiempo de ejecución, frameworks y modos de IA en instancias aisladas de una sola GPU.

El software de inferencia viene en un contenedor de software, por lo que es fácil de implementar. Y Triton de código abierto, también disponible con seguridad y soporte de nivel empresarial a través de NVIDIA AI Enterprise, está respaldado por una comunidad que hace que el software mejore con el tiempo.

Acelerar el sistema de anuncios de Bing con Triton en las GPU A100 es un ejemplo de lo que a Chen le gusta de su trabajo. Llega a ser testigo de los avances de la IA.

Si bien los escenarios a menudo cambian, el objetivo del equipo sigue siendo el mismo: crear una ganancia para sus usuarios y anunciantes.