Los sistemas de visión por computadora actuales destacan en identificar lo que ocurre en espacios y procesos físicos, pero carecen de la capacidad para explicar los detalles de una escena y por qué importan, así como para razonar qué podría ocurrir a continuación.
La inteligencia basada en agente impulsada por modelos de lenguaje visual (VLM) puede ayudar a cerrar esta brecha, proporcionando a los equipos un acceso rápido y sencillo a conocimientos y análisis clave que conectan los descriptores de texto con información espaciotemporal y miles de millones de puntos de datos visuales capturados por sus sistemas cada día.
Tres enfoques que las empresas pueden utilizar para mejorar sus sistemas heredados de visión por computadora con inteligencia basada en agente son:
- Aplica subtítulos densos para contenido visual buscable.
- Aumenta las alertas del sistema con contexto detallado.
- Utiliza el razonamiento de IA para resumir información de escenarios complejos y responder preguntas.
Cómo Hacer Que El Contenido Visual Sea Buscable Con Subtítulos Densos
Las herramientas tradicionales de búsqueda de vídeo impulsadas por redes neuronales convolucionales (CNN) están limitadas por un entrenamiento, contexto y semántica limitados, lo que hace que obtener información sea manual, tediosa y lenta. Las CNN están ajustadas para realizar tareas visuales específicas, como detectar una anomalía, y carecen de la capacidad multimodal para traducir lo que ven a texto.
Las empresas pueden integrar VLM directamente en sus aplicaciones para generar subtítulos de imágenes y vídeos con gran detalle. Estos subtítulos convierten el contenido no estructurado en metadatos completos y fáciles de buscar, lo que permite una búsqueda visual mucho más flexible, sin las limitaciones de nombres de archivo ni etiquetas básicas.
Por ejemplo, el sistema de inspección automatizada de vehículos UVeye procesa más de 700 millones de imágenes de alta resolución al mes para crear uno de los conjuntos de datos de vehículos y componentes más grandes del mundo. Mediante la aplicación de VLM, UVeye convierte estos datos visuales en informes de estado estructurados, detectando defectos sutiles, modificaciones u objetos extraños con una precisión y fiabilidad excepcionales para la búsqueda.
La comprensión visual impulsada por VLM añade contexto esencial, asegurando información transparente y consistente para el cumplimiento, la seguridad y el control de calidad. UVeye detecta el 96% de los defectos frente al 24% que se utilizan métodos manuales, lo que permite una intervención temprana para reducir el tiempo de inactividad y controlar los costes de mantenimiento.
Relo Metrics, un proveedor de medición de marketing deportivo impulsada por IA, ayuda a las marcas a cuantificar el valor de sus inversiones en medios y a optimizar su gasto. Al combinar VLMs con visión por computadora, Relo Metrics va más allá de la detección básica de logotipos para capturar el contexto, como una pancarta junto a la pista mostrada durante un tiro ganador, y traducirlo en valor monetario en tiempo real.

Esta capacidad de análisis contextual destaca cuándo y cómo aparecen los logotipos, especialmente en momentos de mayor impacto, ofreciendo a los profesionales del marketing una visión más clara del retorno de la inversión y formas de optimizar la estrategia. Por ejemplo, Stanley Black & Decker, incluida su marca Dewalt, anteriormente se basaba en informes de fin de temporada para evaluar el rendimiento de los activos de los patrocinadores, limitando la toma de decisiones oportuna. Utilizando Relo Metrics para obtener información en tiempo real, Stanley Black & Decker ajustó la posición de la señalización y ahorró 1,3 millones de dólares en potencial pérdida de valor mediático para patrocinadores.
Ampliación de Alertas Del Sistema de Visión Por Computadora Con Razonamiento VLM
Los sistemas de visión por computadora basados en CNN suelen generar alertas binarias de detección como sí o no, y verdadero o falso. Sin el poder de razonamiento de los VLM, eso puede significar falsos positivos y detalles perdidos, lo que puede provocar costosos errores en la seguridad, así como pérdida de inteligencia empresarial. En lugar de reemplazar por completo estos sistemas de visión por computadora basados en CNN, los VLM pueden complementarlos fácilmente como un complemento inteligente. Con un VLM superpuesto a sistemas de visión por computadora basados en CNN, las alertas de detección no solo se señalan, sino que se revisan con comprensión contextual, explicando dónde, cómo y por qué ocurrió el incidente.
Para una gestión más inteligente del tráfico urbano, Linker Vision utiliza VLMs para verificar alertas críticas de la ciudad, como accidentes de tráfico, inundaciones o caídas de postes y árboles por tormentas. Esto reduce los falsos positivos y añade contexto vital a cada evento para mejorar la respuesta municipal en tiempo real.
La arquitectura de Linker Vision para IA basada en agentes implica automatizar el análisis de eventos de más de 50.000 cámaras inteligentes diversas para permitir la remediación entre departamentos, coordinando acciones entre equipos como control de tráfico, servicios públicos y primeros intervinientes cuando ocurren incidentes. La capacidad de consultar simultáneamente en todas las secuencias de cámara permite a los sistemas convertir rápida y automáticamente las observaciones en insights y generar recomendaciones para las siguientes mejores acciones.
Análisis Automático de Escenarios Complejos con IA Basada en Agente
Los sistemas de IA basada en agente pueden procesar, razonar y responder consultas complejas a través de transmisiones de vídeo y modalidades como audio, texto, vídeo y datos de sensores. Esto es posible combinando VLMs con modelos de razonamiento, grandes modelos de lenguaje (LLMs), generación aumentada por recuperación (RAG), visión por computadora y transcripción de voz.
La integración básica de un VLM en un pipeline de visión por computadora existente es útil para verificar clips de vídeo cortos de momentos clave. Sin embargo, este enfoque está limitado por la cantidad de tokens visuales que un solo modelo puede procesar a la vez, lo que da lugar a respuestas superficiales sin contexto durante períodos de tiempo más largos y conocimiento externo.
En cambio, arquitecturas completas construidas sobre IA basada en agente permiten un procesamiento escalable y preciso de archivos de vídeo largos y multicanal. Esto conduce a conocimientos más profundos, precisos y fiables que van más allá de la comprensión superficial. Los sistemas basados en agentes pueden utilizarse para el análisis de causas raíz o el análisis de largos vídeos de inspección para generar informes con información con marca temporal.
Levatas desarrolla soluciones de inspección visual que utilizan robots móviles y sistemas autónomos para mejorar la seguridad, fiabilidad y rendimiento de activos de infraestructura crítica como subestaciones eléctricas, terminales de combustible, patios ferroviarios y centros logísticos. Utilizando VLM, Levatas creó un agente de IA de análisis de vídeo para revisar automáticamente las imágenes de inspección y redactar informes detallados, acelerando drásticamente un proceso tradicionalmente manual y lento.
Para clientes como American Electric Power (AEP), Levatas AI se integra con dispositivos Skydio X10 para agilizar la inspección de infraestructuras eléctricas. Levatas permite a AEP inspeccionar de forma autónoma los postes eléctricos, identificar problemas térmicos y detectar daños en el equipo. Las alertas se envían instantáneamente al equipo AEP al detectar problemas, permitiendo una respuesta y resolución rápidas, y garantizando un suministro de energía fiable, limpio y asequible.
Herramientas de resúmenes de videogames con IA como Eklipse utilizan agentes impulsados por VLM para enriquecer las retransmisiones en directo de videogames con subtítulos y metadatos de índice, permitiendo consultas rápidas, resumen y creación de resúmenes pulidos en minutos (10 veces más rápido que las soluciones heredadas) lo que conduce a una mejor experiencia de consumo de contenido.
Impulsando la Inteligencia de Vídeo Basada en Agente con Tecnologías NVIDIA
Para búsqueda y razonamiento avanzados, los desarrolladores pueden utilizar VLMs multimodales como NVCLIP, NVIDIA Cosmos Reason y Nemotron Nano V2 para construir índices ricos en metadatos para la búsqueda.
Para integrar los VLM en aplicaciones de visión por computadora, los desarrolladores pueden utilizar la función revisor de eventos en el NVIDIA Blueprint para búsqueda y resumen de vídeo (VSS), parte de la plataforma NVIDIA Metropolis.
Para consultas y tareas de resumen más complejas, el blueprint de VSS puede personalizarse para que los desarrolladores puedan crear agentes de IA que accedan directamente a los VLMs o los utilicen junto con LLMs, RAG y modelos de visión por computadora. Esto permite operaciones más inteligentes, análisis de vídeo más ricos y cumplimiento en tiempo real de procesos que se adaptan a las necesidades organizativas.
Descubre más sobre el análisis de vídeo basada en agente impulsado por NVIDIA.
Explora los blogs tecnológicos de VLM, así como tutoriales en vídeo y retransmisiones en directo a ritmo propio.
