La era de los agentes de IA de análisis de vídeo ya está aquí.
El vídeo es una de las características definitorias del panorama digital moderno, ya que representa más del 50% de todo el tráfico de datos mundial. Dominante en los medios de comunicación y cada vez más importante para las empresas de todos los sectores, es una de las fuentes de datos más grandes y omnipresentes del mundo. Sin embargo, menos del 1% de ella se analiza para obtener información.
Casi la mitad del PIB mundial proviene de las industrias físicas, que abarcan desde la energía hasta la automotriz y la electrónica. Con las preocupaciones por la escasez de mano de obra, los esfuerzos de deslocalización de la manufactura y la creciente demanda de automatización, los agentes de IA de análisis de vídeo desempeñarán un papel más importante que nunca, ayudando a tender puentes entre el mundo físico y el digital.
Para acelerar el desarrollo de estos agentes, NVIDIA está poniendo a disposición del público el Blueprint de IA para la búsqueda y resumen de vídeos (VSS), impulsado por la plataforma NVIDIA Metropolis, que brinda a los desarrolladores las herramientas para crear e implementar agentes de IA altamente capaces para analizar grandes cantidades de videos archivados y en tiempo real.
Una ola de agentes de IA de visión y asistentes de productividad impulsados por modelos de lenguaje de visión (VLM) están entrando en línea. Combinando potentes modelos de visión artificial con las habilidades de grandes modelos de lenguaje (LLM) superinteligentes, estos agentes de IA de análisis de vídeo permiten a las empresas ver, buscar y resumir fácilmente grandes volúmenes de vídeo. Al analizar videos en tiempo real o revisar terabytes de video grabado, los agentes de IA de análisis de video están desbloqueando valor y oportunidades sin precedentes en una variedad de industrias importantes.
Los fabricantes y los almacenes están utilizando agentes de IA para ayudar a aumentar la seguridad y la productividad de los trabajadores. Por ejemplo, los agentes pueden ayudar a distribuir las carretillas elevadoras y posicionar a los trabajadores para una eficiencia óptima. Las ciudades inteligentes están implementando agentes de IA de análisis de video para reducir la congestión del tráfico y aumentar la seguridad, y los usos siguen y siguen.
Un Blueprint Para Crear Diversas Flotas de Agentes de IA de Análisis de Vídeo
El blueprint VSS se basa en la plataforma NVIDIA Metropolis y está impulsado por VLM y LLM como NVIDIA VILA y NVIDIA Llama Nemotron, los microservicios NVIDIA NeMo Retriever y la generación aumentada de recuperación (RAG), una técnica que conecta los LLM con los datos empresariales de una empresa.
El blueprint VSS incorpora la plataforma de software NVIDIA AI Enterprise, que incluye microservicios NVIDIA NIM para VLM, LLM y frameworks de IA avanzados para RAG. Con el blueprint VSS, los usuarios pueden resumir un vídeo 100 veces más rápido que verlo en tiempo real. Por ejemplo, un video de una hora se puede resumir en texto en menos de un minuto.
El blueprint VSS ofrece una serie de potentes funciones diseñadas para proporcionar una sólida comprensión, rendimiento y escalabilidad de vídeo.
Esta versión presenta soporte de hardware ampliado, incluida la capacidad de implementar en una sola GPU NVIDIA A100 o H100 para cargas de trabajo más pequeñas, lo que ofrece una mayor flexibilidad en la asignación de recursos. El blueprint también se puede implementar en el edge en las plataformas de computación NVIDIA RTX 6000 PRO y NVIDIA DGX Spark.
El blueprint VSS puede procesar cientos de secuencias de vídeo en directo o clips de ráfaga simultáneamente. Además de la comprensión visual, ofrece transcripción de audio. La conversión de voz a texto agrega profundidad contextual en escenarios donde el audio es crítico, como videos de capacitación, conferencias magistrales o reuniones de equipo.
Los Líderes del Sector Despliegan Agentes de IA de Análisis de Vídeo Para Impulsar el Valor Empresarial
Todos, desde los principales fabricantes del mundo hasta las ciudades inteligentes y las ligas deportivas, están utilizando el blueprint VSS para desarrollar agentes de IA para optimizar las operaciones.
Pegatron, una empresa líder en la manufactura de productos electrónicos, utiliza el blueprint VSS para estudiar los procedimientos operativos y capacitar a los empleados en las mejores prácticas. La compañía también está integrando el proyecto en su plataforma PEGAAi para que las organizaciones puedan crear agentes de IA para transformar los procesos de manufactura.
Estos agentes pueden ingerir y analizar volúmenes masivos de vídeo, lo que permite capacidades avanzadas como la supervisión automatizada, la detección de anomalías, la búsqueda de vídeo y la notificación de incidentes. El agente de análisis visual de Pegatron se puede utilizar para comprender los procedimientos operativos para el ensamblaje de placas de circuito impreso e identificar cuándo las acciones son correctas o incorrectas. Hasta la fecha, los agentes han reducido los costos de mano de obra de Pegatron en un 7% y las tasas de defectos en un 67%.
Otros fabricantes taiwaneses líderes de semiconductores y electrónica están creando agentes de IA y gemelos digitales para optimizar sus aplicaciones operativas y de planificación.
La ciudad de Kaohsiung, Taiwán, está utilizando una aplicación unificada de IA de visión de ciudad inteligente desarrollada por su socio, Linker Vision, para mejorar los tiempos de respuesta a incidentes. Anteriormente, los departamentos de la ciudad, como la gestión de residuos, el transporte y la respuesta a emergencias, estaban aislados por infraestructuras aisladas, lo que provocaba tiempos de respuesta lentos debido a la falta de acceso a información crítica.
Impulsada por el blueprint VSS, la aplicación impulsada por IA de Linker Vision cuenta con agentes que combinan el análisis de video en tiempo real con IA generativa no solo para detectar elementos visuales, sino también para comprender y narrar eventos urbanos complejos como inundaciones o accidentes de tráfico.
Actualmente, Linker Vision ofrece información oportuna a 12 departamentos de la ciudad y está en camino de escalar de 30,000 cámaras de la ciudad a más de 50,000 para 2026. Estos conocimientos están proporcionando un mejor conocimiento de la situación y una toma de decisiones basada en datos en todos los servicios de la ciudad, y reduciendo los tiempos de respuesta a incidentes hasta en un 80%.
La Liga Nacional de Hockey utilizó el VAST InsightEngine con el blueprint VSS para optimizar y acelerar los workflows de IA de visión. Gestiona volúmenes masivos de imágenes de juegos.
Con VAST InsightEngine, la NHL está posicionada para buscar a través de petabytes de video en menos de segundos, lo que permite la recuperación casi instantánea de momentos destacados y momentos en el juego. Los workflows de agentes impulsados por IA mejoran aún más la creación de contenido al recortar, etiquetar y ensamblar automáticamente el contenido de video para facilitar el acceso y el uso.
En el futuro, la Liga podría utilizar el razonamiento de la IA en tiempo real para permitir información personalizada, como estadísticas de los jugadores, análisis de estrategia o recomendaciones de fantasía, generadas dinámicamente durante los partidos en vivo. Esta automatización de extremo a extremo podría transformar la forma en que se crean, seleccionan y entregan los medios, estableciendo un nuevo estándar para la producción de contenido deportivo impulsada por IA.
Siemens está utilizando su Copiloto Industrial para Operaciones para ayudar a los trabajadores de la planta de producción con tareas de mantenimiento de equipos, manejo de errores y optimización del rendimiento. Este asistente impulsado por IA generativa ofrece respuestas en tiempo real a los errores de los equipos utilizando información sobre datos operativos y documentales.
El copiloto se construyó con una fusión de componentes VSS como VLM, LLM y microservicios NVIDIA NeMo. El Copiloto Industrial ha dado como resultado una rápida toma de decisiones y una reducción del tiempo de inactividad de la máquina. Siemens ha informado de un aumento del 30% en la productividad, con el potencial de alcanzar el 50%.
Con el Apoyo de un Ecosistema de Socios en Expansión que Crea Sofisticados Agentes de IA
Los socios de NVIDIA están utilizando el blueprint VSS para acelerar la creación de capacidades de análisis de video de IA basada en agentes para sus workflows, lo que reduce el tiempo de desarrollo de meses a semanas.
Superb AI, líder en análisis de vídeo inteligente, puso en marcha un sofisticado proyecto de operaciones aeroportuarias en el aeropuerto de Incheon para reducir los tiempos de espera de los pasajeros en cuestión de semanas. En Malasia, el proveedor de soluciones ITMAX está construyendo agentes de IA visual avanzados con el bluweprint VSS para la ciudad de Kuala Lumpur con el fin de mejorar la gestión general de la ciudad y reducir los tiempos de respuesta a incidentes.
En el sector de la publicidad, PYLER integró el blueprint VSS en sus soluciones de seguridad de marca (AiD) y segmentación de anuncios (AiM) en solo unas semanas. Con AiD y AiM, Samsung Electronics aumentó la efectividad de la publicidad con ubicaciones de anuncios de alto valor alineadas con la marca y el producto. BYD vio cómo sus tasas de clics en anuncios se multiplicaban por 4 al dirigirse a contenido contextualmente relevante y positivo, mientras que Hana Financial Group superó varios objetivos de campaña de marca.
Fingermark es el proveedor de aplicaciones de Eyecue, una plataforma de visión artificial en tiempo real utilizada por restaurantes de servicio rápido. Fingermark está agregando el blueprint VSS a Eyecue para convertir las secuencias de video en información clara y procesable sobre los tiempos de espera de drive-thru, los cuellos de botella del servicio y los incidentes relacionados con el personal a escala.
Pruebe el blueprint VSS en build.nvidia.com y lea este blog técnico para obtener más detalles.