Las empresas y las organizaciones del sector público de todo el mundo están desarrollando agentes de IA para impulsar las capacidades de los trabajadores que dependen de la información visual de un número cada vez mayor de dispositivos, incluidas cámaras, sensores de IoT y vehículos.
Para respaldar su trabajo, un nuevo NVIDIA Blueprint para la búsqueda y el resumen de videos permitirá a los desarrolladores de prácticamente cualquier industria crear agentes visuales de IA que analicen el contenido de video e imágenes. Estos agentes pueden responder a las preguntas de los usuarios, generar resúmenes y habilitar alertas para escenarios específicos.
Como parte de NVIDIA Metropolis, un conjunto de herramientas de desarrollo para crear aplicaciones de IA de visión, el proyecto es un workflow personalizable que combina las tecnologías de visión por computadora y de IA generativa de NVIDIA.
Los integradores de sistemas globales y los proveedores de soluciones tecnológicas, incluidos Accenture, Dell Technologies y Lenovo, están llevando NVIDIA Blueprint para la búsqueda y el resumen visual a empresas y ciudades de todo el mundo, impulsando la próxima ola de aplicaciones de IA que se pueden implementar para aumentar la productividad y la seguridad en fábricas, almacenes, tiendas, aeropuertos, intersecciones de tráfico y más.
Anunciado antes del Smart City Expo World Congress, NVIDIA Blueprint ofrece a los desarrolladores de computación visual un conjunto completo de software optimizado para crear e implementar agentes impulsados por IA generativa que pueden ingerir y comprender volúmenes masivos de transmisiones de video en vivo o archivos de datos.
Los usuarios pueden personalizar estos agentes visuales de IA con indicaciones de lenguaje natural en lugar de un código de software rígido, lo que reduce la barrera para la implementación de asistentes virtuales en todas las industrias y aplicaciones de ciudades inteligentes.
NVIDIA Blueprint Aprovecha los Modelos de Lenguaje de Visión
Los agentes de IA visual funcionan con modelos de lenguaje de visión (VLM), una clase de modelos de IA generativa que combinan la visión por computadora y la comprensión del lenguaje para interpretar el mundo físico y realizar tareas de razonamiento.
El NVIDIA Blueprint para la búsqueda y el resumen de videos se puede configurar con microservicios NVIDIA NIM para VLM como NVIDIA VILA, LLM como Llama 3.1 405B de Meta y modelos de IA para respuestas a preguntas aceleradas por GPU y generación aumentada de recuperación consciente del contexto. Los desarrolladores pueden intercambiar fácilmente otros VLM, LLM y bases de datos de gráficos y ajustarlos utilizando la plataforma NVIDIA NeMo para sus entornos y casos de uso únicos.
La adopción de NVIDIA Blueprint podría ahorrar a los desarrolladores meses de esfuerzo en la investigación y optimización de modelos de IA generativa para aplicaciones de ciudades inteligentes. Implementado en GPU NVIDIA en el edge, en las instalaciones o en la nube, puede acelerar enormemente el proceso de revisión de archivos de video para identificar momentos clave.
En un entorno de almacén, un agente de IA creado con este workflow podría alertar a los trabajadores si se incumplen los protocolos de seguridad. En intersecciones concurridas, un agente de IA podría identificar colisiones de tráfico y generar informes para ayudar a los esfuerzos de respuesta a emergencias. Y en el campo de la infraestructura pública, los trabajadores de mantenimiento podrían pedir a los agentes de IA que revisen las imágenes aéreas e identifiquen las carreteras, las vías del tren o los puentes en degradación para apoyar el mantenimiento proactivo.
Más allá de los espacios inteligentes, los agentes visuales de IA también podrían utilizarse para resumir vídeos de personas con discapacidad visual, generar automáticamente resúmenes de eventos deportivos y ayudar a etiquetar conjuntos de datos visuales masivos para entrenar otros modelos de IA.
El workflow de búsqueda y resumen de videos se une a una colección de NVIDIA Blueprints que facilitan la creación de avatares digitales impulsados por IA, la creación de asistentes virtuales para un servicio al cliente personalizado y la extracción de información empresarial a partir de datos PDF.
Los NVIDIA Blueprints son gratuitos para que los desarrolladores los experimenten y descarguen, y se pueden implementar en producción en centros de datos acelerados y nubes con NVIDIA AI Enterprise, una plataforma de software integral que acelera los pipelines de ciencia de datos y agiliza el desarrollo y la implementación de IA generativa.
Agentes de IA para Ofrecer Información Desde los Almacenes Hasta las Capitales del Mundo
Los clientes empresariales y del sector público también pueden aprovechar la colección completa de NVIDIA Blueprints con la ayuda del ecosistema de socios de NVIDIA.
La compañía global de servicios profesionales Accenture ha integrado NVIDIA Blueprints en su Accenture AI Refinery, que se basa en NVIDIA AI Foundry y permite a los clientes desarrollar modelos de IA personalizados entrenados con datos empresariales.
Los integradores de sistemas globales en el sudeste asiático, incluidos ITMAX en Malasia y FPT en Vietnam, están creando agentes de IA basados en la búsqueda y el resumen de video NVIDIA Blueprint para aplicaciones de ciudades inteligentes y transporte inteligente.
Los desarrolladores también pueden crear e implementar NVIDIA Blueprints en plataformas de IA de NVIDIA con computación, redes y software proporcionados por fabricantes de servidores globales.
Dell utilizará los enfoques de VLM y agentes con la plataforma NativeEdge de Dell para mejorar las aplicaciones de IA existentes en el edge y crear nuevas capacidades habilitadas para IA en el edge. Los diseños de referencia de Dell para Dell AI Factory with NVIDIA y el proyecto de NVIDIA para la búsqueda y el resumen de video admitirán las capacidades de VLM en workflows de IA dedicados para casos de uso empresarial multimodal en el data center, en el edge y en las instalaciones.
Los planos de NVIDIA también se incorporan en las soluciones de IA híbrida de Lenovo con tecnología de NVIDIA.
Empresas como K2K, un proveedor de aplicaciones para ciudades inteligentes en el ecosistema NVIDIA Metropolis, utilizarán el nuevo NVIDIA Blueprint para crear agentes de IA que analicen cámaras de tráfico en vivo en tiempo real. Esto permitirá a los funcionarios de la ciudad hacer preguntas sobre la actividad en las calles y recibir recomendaciones sobre formas de mejorar las operaciones. La compañía también está trabajando con los administradores de tráfico de la ciudad de Palermo, Italia, para implementar agentes visuales de IA utilizando microservicios NIM y NVIDIA Blueprints.
Aprenda a crear un agente de IA visual y comience a usar el proyecto.