El Policía de Tránsito del Data Center: la IA Despeja los Embotellamientos Digitales

Los investigadores de NVIDIA crearon un modelo de IA que puede despejar embotellamientos en redes de computación y, próximamente, llegará a tu data center más cercano.
por Rick Merritt

Gal Dalal quiere facilitar el transporte para quienes trabajan desde casa (o la oficina).

El científico de investigación sénior de NVIDIA, que forma parte de un laboratorio de 10 personas en Israel, usa la IA para reducir la congestión en las redes de computación.

Para quienes trabajan con laptops, un círculo giratorio de muerte (o peor aún, un cursor congelado) es tan malo como un mar de luces rojas en la carretera. Al igual que con los embotellamientos, el problema es causado por una avalancha de personas que se desesperan por llegar rápido a un lugar, se abarrotan y a veces chocan en el camino.

IA para la Encrucijada

Las redes usan el control de congestión para administrar el tráfico digital. Básicamente es un conjunto de reglas integradas en los adaptadores de red y switches, pero, a medida que la cantidad de usuarios en redes crece, sus conflictos pueden ser demasiado complejos para prevenirlos.

La IA promete controlar mejor el tráfico porque puede ver y responder a los patrones a medida que se desarrollan. Es por eso que Dalal es uno de los muchos investigadores en todo el mundo que buscan formas de optimizar las redes usando el aprendizaje por refuerzo, un tipo de IA que recompensa los modelos cuando encuentran buenas soluciones.

Pero, hasta ahora, nadie había concebido un enfoque práctico por distintas razones.

Contrarreloj

Las redes deben ser rápidas y consistentes para que ninguna solicitud quede relegada. Mantener ese balance puede ser difícil cuando ningún conductor en la ruta digital puede ver el mapa entero y siempre cambiante de otros conductores y sus destinos previstos.

Y es una carrera contrarreloj. Para ser eficaces, las redes deben responder a situaciones en aproximadamente un microsegundo, es decir, una millonésima de segundo.

Para reducir el tráfico, el equipo de NVIDIA creó nuevas técnicas de aprendizaje por refuerzo inspiradas en la IA de videojuegos de última generación y las adaptó al problema de la red.

Parte de su avance, descrito en un documento de 2021, fue crear un algoritmo y una función de recompensa correspondiente para obtener una red equilibrada, basada solo en la información local disponible para flujos de red individuales. El algoritmo permitió al equipo crear, entrenar y ejecutar un modelo de IA en su sistema NVIDIA DGX.

Un Factor de Asombro

Dalal recuerda la reunión donde un compañero de Nvidia, Chen Tessler, mostró el primer gráfico que trazaba los resultados del modelo en una red de data centers InfiniBand simulada.

«Estábamos asombrados de que funcionara tan bien», dijo Dalal, quien escribió su tesis de doctorado sobre aprendizaje por refuerzo en Technion, la prestigiosa universidad técnica de Israel.

«Lo que fue especialmente gratificante fue que entrenamos el modelo usando solo 32 flujos de red, y logró generalizar sin problemas lo que aprendió para administrar más de 8000 flujos con todo tipo de situaciones complejas, por lo que la máquina estaba haciendo un trabajo mucho mejor que las reglas predefinidas», agregó.

Reinforcement learning for congestion control
El aprendizaje por refuerzo (púrpura) superó a todos los algoritmos de control de congestión basados en reglas en las pruebas de NVIDIA.

De hecho, el algoritmo tuvo un rendimiento al menos 1.5 veces mejor y latencia 4 veces menor que la mejor técnica basada en reglas.

Desde la publicación del documento, el proyecto ganó elogios como una aplicación del mundo real que muestra el potencial del aprendizaje por refuerzo.

Procesamiento de IA en la Red

El siguiente gran paso (algo que aún está proceso) es diseñar una versión del modelo de IA que pueda ejecutarse a velocidades de microsegundos y usando los recursos limitados de computación y memoria de la red. Dalal trazó dos caminos.

Su equipo está colaborando con los ingenieros que diseñan las DPU NVIDIA BlueField para optimizar los modelos de IA para crear el hardware futuro. Las DPU BlueField buscan ejecutar un creciente conjunto de tareas de comunicación dentro de la red, lo que permite aliviar la carga de tareas de las CPU sobrecargadas.

Por otra parte, el equipo de Dalal condensa la esencia de su modelo de IA en una técnica de machine learning llamada «árboles de decisión ampliados», una serie de decisiones de tipo sí/no que es igual de ingeniosa pero mucho más simple de ejecutar. El equipo tiene pensado presentar su trabajo a fines de este año en una forma que podría adoptarse de inmediato para aliviar el tráfico de red.

Una Solución de Tráfico Oportuna

A la fecha, Dalal aplicó el aprendizaje por refuerzo a todo tipo de aplicaciones, desde vehículos autónomos hasta el enfriamiento de data centers y el diseño de chips. Cuando NVIDIA adquirió Mellanox en abril de 2020, el investigador de NVIDIA Israel empezó a colaborar con sus nuevos colegas del grupo de redes cercano.

«Tenía sentido aplicar nuestros algoritmos de IA al trabajo de sus equipos de control de congestión. Ahora, dos años después, la investigación está más avanzada», dijo.

Y qué bien que lo hicieron entonces. Los informes recientes sobre el aumento de dos dígitos en el tráfico de automóviles en Israel desde antes de la pandemia podrían alentar a más personas a trabajar desde casa, lo que aumenta la congestión de la red.

Afortunadamente, la policía de tráfico de IA está en camino.