Microsoft, Tencent y Baidu están adoptando NVIDIA CV-CUDA para la visión por computadora con IA.
El CEO de NVIDIA, Jensen Huang, destacó su trabajo en la comprensión del contenido, la búsqueda visual y el deep learning el martes cuando anunció el lanzamiento de la versión beta de CV-CUDA de NVIDIA, una biblioteca de código abierto acelerada por GPU para la visión artificial a escala de la nube.
“El ochenta por ciento del tráfico de internet es video. El contenido de video generado por el usuario está impulsando un crecimiento significativo y consumiendo enormes cantidades de energía”, dijo el CEO de NVIDIA, Jensen Huang, en su discurso de apertura en la conferencia de tecnología GTC de NVIDIA. “Deberíamos acelerar todo el procesamiento de video y recuperar el poder”.
CV-CUDA promete ayudar a las empresas de todo el mundo a construir y escalar pipelines de procesamiento de imágenes y visión por computadora basadas en IA de extremo a extremo en GPU.
Optimización de la Computación Visual a Escala de Internet con IA
La mayoría del tráfico de internet son datos de video e imagen, lo que genera una escala increíble en aplicaciones como la creación de contenido, la búsqueda y recomendación visual y el mapeo.
Estas aplicaciones utilizan un conjunto especializado y recurrente de visión por computadora y algoritmos de procesamiento de imágenes para procesar datos de imágenes y videos antes y después de que sean procesados por redes neuronales.
Si bien las redes neuronales normalmente están aceleradas por GPU, los algoritmos de procesamiento de imágenes y visión por computadora que las respaldan suelen ser cuellos de botella de CPU en las aplicaciones de IA actuales.
CV-CUDA ayuda a procesar 4 veces más flujos en una sola GPU mediante la transición de los pasos de procesamiento previo y posterior de la CPU a la GPU. En efecto, procesar la misma carga de trabajo a una cuarta parte del costo de computación en la nube.
La biblioteca CV-CUDA brinda a los desarrolladores más de 30 algoritmos de visión por computadora de alto rendimiento con API nativas de Python e integración de copia cero con los frameworks de machine learning PyTorch, TensorFlow2, ONNX, y TensorRT.
El resultado es un mayor rendimiento, un costo de computación reducido y una huella de carbono más pequeña para las empresas de inteligencia artificial en la nube.
Adopción Mundial para la Visión por Computadora Basadas en IA
La adopción por parte de los líderes de la industria en todo el mundo destaca los beneficios y la versatilidad de CV-CUDA para un número creciente de aplicaciones visuales a gran escala. Las empresas con cargas de trabajo de procesamiento de imágenes masivas pueden ahorrar de decenas a cientos de millones de dólares.
Microsoft está trabajando para integrar CV-CUDA en Búsqueda Visual Bing, que permite a los usuarios buscar en la web usando una imagen en lugar de texto para encontrar imágenes, productos y páginas web similares.
En 2019, Microsoft compartió en GTC cómo están utilizando las tecnologías de NVIDIA para ayudar a traer reconocimiento de voz, respuestas inteligentes, texto a la tecnología del habla y detección de objetos juntos sin problemas y en tiempo real.
Tencent ha implementado CV-CUDA para acelerar su creación de pipelines de comprensión de anuncios y su contenido, que procesan más de 300,000 videos por día.
El conglomerado multimedia basado en Shenzhen ha logrado una reducción del 20% en la energía y el costo para el procesamiento de imágenes sobre sus pipelines optimizados por GPU anteriores.
Y el gigante de búsqueda con sede en Beijing, Baidu, está integrando CV-CUDA en FastDeploy, uno de los kits de herramientas de implementación de código abierto del Framework de Deep Learning PaddlePaddle, que permite la aceleración de la visión por computadora sin problemas para los desarrolladores en la comunidad de código abierto.
Desde la Creación de Contenido Hasta los Casos de Uso Automotriz
Las aplicaciones para CV-CUDA están creciendo. Más de 500 empresas se han comunicado con más de 100 casos de uso en solo los primeros meses del lanzamiento de Alpha.
En la creación de contenido y el comercio electrónico, las imágenes utilizan operadores previos y postprocesos para ayudar a los motores de recomendación a reconocer, localizar y curar contenido.
En el mapeo, el video ingerido con los vehículos de la encuesta de mapeo requiere operadores de preprocesamiento y postprocesamiento para capacitar a redes neuronales en la nube para identificar la infraestructura y las características de la carretera.
En las aplicaciones de infraestructura para el software de simulación y validación de autocontrol, CV-CUDA permite la aceleración de GPU para algoritmos que ya están ocurriendo en el vehículo, como la conversión de color, la corrección de distorsión, la convolución y el filtrado bilateral.
Mirando hacia el futuro, la IA generativa está transformando el mundo de la creación y curación de contenido de video, democratizando a los creadores y amplificando el acceso a una audiencia global.
La startup Runway con sede en Nueva York h a integrado CV-CUDA, aliviando un cuello de botella crítico en los videos de alta resolución previos al procesamiento en su modelo de segmentación de objetos de video.
La implementación de CV-CUDA condujo a una aceleración de 3.6 veces, lo que permite a Runway optimizar las respuestas en tiempo real y de clic en su conjunto de herramientas de creación.
«Para los creadores, cada segundo se necesita para llevar una idea a la vida», dijo Cristóbal Valenzuela, cofundador y CEO de Runway. «La diferencia que hace CV-CUDA es increíblemente significativa para los millones de creadores que usan nuestras herramientas»
Para acceder a CV-CUDA, visite el GitHub de CV-CUDA.
O obtenga más información revisando las sesiones Spring GTC 2023 con CV-CUDA. El registro es gratuito.
- Overcoming Pre- and Post-Processing Bottlenecks in AI-Based Imaging and Computer Vision Pipelines [S51182],
- Building AI-Based HD Maps for Autonomous Vehicles [SE50001],
- Connect with the Experts: GPU-Accelerated Data Processing with NVIDIA Libraries [CWES52014]
- Advancing AI Applications with Custom GPU-Powered Plugins for NVIDIA DeepStream [S51612]