Meta Trabaja con NVIDIA para Construir una Supercomputadora de Investigación de IA

La supercomputadora de IA de Meta, el sistema de cliente NVIDIA DGX A100 más grande hasta la fecha, brindará a los investigadores de Meta AI 5 exaflops de rendimiento de IA y cuenta con sistemas NVIDIA de última generación, estructura InfiniBand y software que permiten la optimización en miles de GPU.
por Charlie Boyle

Meta Platforms dio un gran visto bueno a NVIDIA, eligiendo nuestras tecnologías para lo que cree que será su sistema de investigación más poderoso hasta la fecha.

AI Research SuperCluster (RSC), anunciado hoy, ya está entrenando nuevos modelos para hacer avanzar la IA.

Una vez completamente implementado, se espera que el RSC de Meta sea la mayor instalación de clientes de sistemas NVIDIA DGX A100.

“Esperamos que RSC nos ayude a construir sistemas de IA completamente nuevos que puedan, por ejemplo, impulsar traducciones de voz en tiempo real para grandes grupos de personas, cada una hablando un idioma diferente, para que puedan colaborar sin problemas en un proyecto de investigación o jugar un game de AR juntos”, dijo la compañía en un blog.

 Entrenamiento de los Modelos Más Grandes de IA

Cuando RSC esté completamente construido, a finales de este año, Meta tiene como objetivo usarlo para entrenar modelos de IA con más de un billón de parámetros. Eso podría avanzar en campos como el procesamiento del lenguaje natural para trabajos como la identificación de contenido dañino en tiempo real.

Además del rendimiento a escala, Meta citó la confiabilidad extrema, la seguridad, la privacidad y la flexibilidad para manejar «una amplia gama de modelos de IA» como sus criterios clave para RSC.

Meta RSC system
AI Research SuperCluster de Meta presenta cientos de sistemas NVIDIA DGX conectados en una red NVIDIA Quantum InfiniBand para acelerar el trabajo de sus equipos de investigación de IA.

Bajo el capó

La nueva supercomputadora de IA utiliza actualmente 760 sistemas NVIDIA DGX A100 como sus nodos de cómputo. Incluyen un total de 6,080 GPU NVIDIA A100 enlazadas en una red NVIDIA Quantum 200Gb/s InfiniBand para ofrecer 1,895 petaflops de rendimiento TF32.

A pesar de los desafíos de COVID-19, RSC tardó solo 18 meses en pasar de una idea en papel a una supercomputadora de IA en funcionamiento gracias en parte a la tecnología NVIDIA DGX A100 en la base de Meta RSC.

Penguin Computing es nuestro socio de entrega de la Red de Socios de NVIDIA para RSC. Además de los sistemas 760 DGX A100 y la red InfiniBand, Penguin proporcionó servicios administrados e infraestructura optimizada para IA para Meta compuesta por 46 petabytes de almacenamiento en caché con sus sistemas Altus. Pure Storage FlashBlade y FlashArray//C proporcionan las capacidades de almacenamiento all-flash escalables y de alto rendimiento necesarias para impulsar RSC.

 20 Veces Más Rendimiento

Es la segunda vez que Meta elige las tecnologías de NVIDIA como base para su infraestructura de investigación. En 2017, Meta construyó la primera generación de esta infraestructura para la investigación de IA con 22,000 GPU NVIDIA V100 Tensor Core que manejan 35,000 trabajos de capacitación de IA al día.

Los primeros puntos de referencia de Meta mostraron que RSC puede entrenar grandes modelos NLP 3 veces más rápido y ejecutar trabajos de visión por computadora 20 veces más rápido que el sistema anterior.

En una segunda fase a finales de este año, RSC se expandirá a 16,000 GPU que, según Meta, ofrecerán la friolera de 5 exaflops de rendimiento de IA de precisión mixta. Y Meta tiene como objetivo expandir el sistema de almacenamiento de RSC para entregar hasta un exabyte de datos a 16 terabytes por segundo.

 

Una Arquitectura Escalable

Las tecnologías de IA de NVIDIA están disponibles para empresas de cualquier tamaño.

NVIDIA DGX, que incluye una pila completa de software de IA de NVIDIA, scala fácilmente de un solo sistema a un DGX SuperPOD que se ejecuta en las instalaciones o en un proveedor de colocation. Los clientes también pueden alquilar sistemas DGX a través de NVIDIA DGX Foundry.