Las redes aceleradas combinan CPU, GPU, DPU (unidades de procesamiento de datos) o SuperNIC en una estructura de computación acelerada diseñada específicamente para optimizar las cargas de trabajo de red. Utiliza hardware especializado para descargar tareas exigentes con el fin de mejorar las capacidades del servidor. A medida que la IA y otras nuevas cargas de trabajo continúan creciendo en complejidad y escala, la necesidad de redes aceleradas se vuelve primordial.
Los data centers son la nueva unidad de computación, y las cargas de trabajo modernas están comenzando a desafiar la infraestructura de red a medida que los servicios de red ejercen más presión sobre la CPU. La infraestructura de red, con un framework ágil, automatizado y programable con aceleradores y descargas, es clave para liberar todo el potencial de las tecnologías de IA e impulsar la innovación.
Esta publicación explora los beneficios y las tácticas de implementación de las tecnologías de redes aceleradas en los data centers, destacando su papel en la mejora del rendimiento, la escalabilidad y la eficiencia.
Aceleración de la Red
La aceleración de la red requiere la optimización de todos los aspectos de la red, incluidos los procesadores, las tarjetas de interfaz de red (NIC), los switches, los cables, la óptica y el software de aceleración de redes. Aprovechar las redes sin pérdidas, el acceso directo a memoria remota (RDMA), el enrutamiento adaptativo, el control de la congestión, el aislamiento del rendimiento y la computación en red ayudará a las empresas a liberar todo el potencial de las aplicaciones modernas, incluida la IA.
Se puede obtener la máxima eficiencia a través de redes compartidas controlando adecuadamente las tasas de inyección de datos. Cuando se trata de grandes flujos de datos, los switches Ethernet que implementan algoritmos de enrutamiento adaptativo pueden equilibrar dinámicamente la carga de los datos en toda la red, evitar la congestión y reducir la latencia. Las técnicas de multiruta de conmutación y pulverización de paquetes pueden mejorar aún más la eficiencia de la red, garantizando la llegada oportuna de datos y minimizando los cuellos de botella. Esto evita las colisiones de datos entre el switch y las NIC o DPU, mientras que las técnicas de aislamiento del flujo de tráfico garantizan la entrega oportuna al evitar que un flujo afecte negativamente a otros.
Otra técnica de optimización es implementar SuperNIC y DPU. Un SuperNIC es un tipo de acelerador de red para data centers en la nube de IA que ofrece una conectividad sólida y sin problemas entre los servidores de GPU. Una DPU es una clase de procesador que está emergiendo rápidamente y que permite una red mejorada y acelerada. Con la ayuda de SuperNIC y DPU, las cargas de trabajo se pueden descargar del procesador host para acelerar las comunicaciones, lo que permite a los data centers hacer frente a la necesidad cada vez mayor de mover datos.
Para implementar redes aceleradas, tenga en cuenta las siguientes técnicas.
Servicios Acelerados
Las cargas de trabajo han experimentado un importante cambio de paradigma, pasando a la descentralización, dividiendo las cargas de trabajo a través de contenedores y microsegmentación. Esto ha provocado un aumento drástico en el ancho de banda dentro de la red entre servidores (tráfico este-oeste).
Las cargas de trabajo de IA son un problema distribuido de computación que requiere la utilización de múltiples servidores o nodos interconectados. Esto supone una enorme presión sobre la red y la CPU. La descentralización de la carga de trabajo requiere volver a examinar la infraestructura de red para agregar aceleradores que liberen a la CPU y las GPU del procesamiento de los servicios de red, almacenamiento y seguridad. Esto libera a la CPU para que se centre en las cargas de trabajo de las aplicaciones. La aceleración garantiza transferencias de datos de alta velocidad y baja latencia entre estos nodos, y permite una distribución eficiente de la carga de trabajo y un entrenamiento de modelos más rápido.
Abstracción de Red
El cambio a data centers altamente virtualizados y modelos en la nube está poniendo a prueba las redes heredadas. Las redes de data centers tradicionales no se diseñaron para soportar la naturaleza dinámica de las cargas de trabajo virtualizadas actuales. La abstracción de red, incluidas las superposiciones de red, puede ejecutar varias capas de red virtualizadas discretas e independientes sobre la red física. Estos son cruciales para proporcionar flexibilidad, escala y aceleración. Sin embargo, si no se implementan correctamente, pueden impedir los flujos de la red.
Optimización de la Red
Una gran cantidad de datos recopilados y procesados ha trasladado las cargas de trabajo a una era centrada en los datos. La disponibilidad de grandes conjuntos de datos, combinada con avances tecnológicos como el machine learning y la IA generativa, aumenta la necesidad de más datos para impulsar los algoritmos de aprendizaje. Una ramificación de esta explosión de datos es la necesidad de mover, procesar, recuperar y almacenar grandes conjuntos de datos.
Las redes sin pérdidas pueden garantizar una transmisión de datos precisa sin pérdidas ni daños, y son vitales para mover, procesar, recuperar y almacenar estos grandes conjuntos de datos. La tecnología RDMA mejora el rendimiento de la red al permitir transferencias directas de datos entre ubicaciones de memoria sin involucrar a las CPU. La combinación de redes sin pérdidas y RDMA puede optimizar la eficiencia de la transferencia de datos y reducir el tiempo de inactividad de la CPU y la GPU, lo que permite el movimiento eficiente de datos para impulsar las aplicaciones modernas.
Optimización de la Pila de Extremo a Extremo
Las cargas de trabajo modernas tienen patrones de tráfico de red únicos. Las cargas de trabajo tradicionales generan patrones de tráfico con muchos flujos, paquetes pequeños y baja varianza. El tráfico para las aplicaciones modernas implica paquetes grandes, menos flujos y una gran varianza, incluidos los flujos de elefante y los cambios frecuentes en los patrones de tráfico.
Los algoritmos de enrutamiento adaptativo se utilizan para equilibrar dinámicamente la carga de los datos en toda la red, evitando la congestión y la alta latencia para estos nuevos patrones de tráfico. Los mecanismos de control de la congestión, como la notificación explícita de congestión (ECN), también garantizan un flujo de datos eficiente y minimizan la degradación del rendimiento. Para tener en cuenta esto, las redes deben diseñarse con una pila optimizada de extremo a extremo para acelerar los nuevos patrones de tráfico.
Computación en Red
Los grandes conjuntos de datos de las cargas de trabajo modernas requieren un procesamiento ultrarrápido de algoritmos altamente paralelizados y, por lo tanto, son más complejos. A medida que crecen los requisitos de computación, la computación en red ofrece una aceleración basada en hardware de las operaciones de comunicación colectiva, descargando eficazmente las operaciones colectivas de la CPU a la red. Esta característica mejora significativamente el rendimiento del entrenamiento de modelos de IA distribuidos, reduce la sobrecarga de comunicación y acelera la convergencia de modelos para eliminar la necesidad de enviar datos varias veces entre puntos finales y acelera el rendimiento de la red.
La aceleración de red reduce el uso de la CPU, lo que deja más capacidad para que las CPU procesen las cargas de trabajo de las aplicaciones. También reduce la fluctuación para mejorar los flujos de datos y ofrece un mayor rendimiento general, lo que permite procesar más datos más rápido.