Enseñar a los robots y vehículos autónomos a interactuar con el mundo físico requiere grandes cantidades de datos de alta calidad. Para dar a los investigadores y desarrolladores una ventaja, NVIDIA está lanzando un conjunto de datos masivo de código abierto para construir la próxima generación de IA física.
Anunciado en NVIDIA GTC, una conferencia global de IA que se lleva a cabo esta semana en San José, California, este conjunto de datos prevalidado de grado comercial puede ayudar a los investigadores y desarrolladores a poner en marcha proyectos físicos de IA que pueden ser prohibitivamente difíciles de comenzar desde cero. Los desarrolladores pueden usar directamente el conjunto de datos para el preentrenamiento, las pruebas y la validación de modelos, o usarlo durante el entrenamiento posterior para ajustar los world foundation models, acelerando el camino hacia la implementación.
El conjunto de datos inicial esta ahora disponible en Hugging Face, que ofrece a los desarrolladores 15 terabytes de datos que representan más de 320.000 trayectorias para el entrenamiento en robótica, además de hasta 1.000 ativos de Universal Scene Description (OpenUSD) activos, incluida una colección SimReady. Pronto se publicarán datos dedicados para respaldar el desarrollo de vehículos autónomos (AV) de extremo a extremo, que incluirán clips de 20 segundos de diversos escenarios de tráfico que abarcan más de 1,000 ciudades en los EE. UU. y dos docenas de países europeos.

Este conjunto de datos crecerá con el tiempo hasta convertirse en el conjunto de datos unificado y abierto más grande del mundo para el desarrollo de IA física. Podría aplicarse para desarrollar modelos de IA para impulsar robots que maniobren de manera segura en entornos de almacenes, robots humanoides que apoyen a los cirujanos durante los procedimientos y vehículos autónomos que puedan navegar por escenarios de tráfico complejos como zonas de construcción.
El conjunto de datos de IA física de NVIDIA está programado para contener un subconjunto de los datos sintéticos y del mundo real que NVIDIA utiliza para entrenar, probar y validar la IA física para la plataforma de desarrollo de world models NVIDIA Cosmos, la pila de software NVIDIA DRIVE AV, la plataforma de desarrollo de robots NVIDIA Isaac AI y el framework de aplicaciones NVIDIA Metropolis para ciudades inteligentes.
Entre los primeros usuarios se encuentran el Berkeley DeepDrive Center de la Universidad de California, Berkeley, el Carnegie Mellon Safe AI Lab y el Contextual Robotics Institute de la Universidad de California, San Diego.
«Podemos hacer muchas cosas con este conjunto de datos, como entrenar modelos predictivos de IA que ayuden a los vehículos autónomos a rastrear mejor los movimientos de los usuarios vulnerables de la carretera, como los peatones, para mejorar la seguridad», dijo Henrik Christensen, director de múltiples laboratorios de robótica y vehículos autónomos en UCSD. «Un conjunto de datos que proporcione un conjunto diverso de entornos y clips más largos que los recursos de código abierto existentes será tremendamente útil para avanzar en la robótica y la investigación audiovisual».
Abordar la Necesidad de Datos de IA Física
El conjunto de datos de IA física de NVIDIA puede ayudar a los desarrolladores a escalar el rendimiento de la IA durante el preentrenamiento, donde más datos ayudan a crear un modelo más sólido, y durante el posentrenamiento, donde un modelo de IA se entrena con datos adicionales para mejorar su rendimiento para un caso de uso específico.
Recopilar, seleccionar y anotar un conjunto de datos que cubra diversos escenarios y represente con precisión la física y la variación del mundo real lleva mucho tiempo, lo que representa un cuello de botella para la mayoría de los desarrolladores. Para los investigadores académicos y las pequeñas empresas, hacer funcionar una flota de vehículos durante meses para recopilar datos para la IA de vehículos autónomos es poco práctico y costoso y, dado que gran parte de las imágenes recopiladas transcurren sin incidentes, normalmente solo el 10% de los datos se utilizan para el entrenamiento.
Pero esta escala de recopilación de datos es esencial para construir modelos seguros, precisos y de calidad comercial. Los modelos robóticos de NVIDIA Isaac GR00T requieren miles de horas de clips de video para el entrenamiento posterior: el modelo GR00T N1, por ejemplo, se entrenó con un conjunto de datos humanoides expansivos de datos reales y sintéticos. El modelo de IA de extremo a extremo NVIDIA DRIVE AV para vehículos autónomos requiere decenas de miles de horas de datos de conducción para desarrollarse.
Este conjunto de datos abierto, que comprende miles de horas de video multicámara con una diversidad, escala y geografía sin precedentes, beneficiará particularmente al campo de la investigación de seguridad al permitir nuevos trabajos en la identificación de valores atípicos y la evaluación del rendimiento de la generalización del modelo. Este esfuerzo contribuye al sistema de seguridad AV full-stack de NVIDIA Halos.
Además de aprovechar el conjunto de datos físicos de IA de NVIDIA para ayudar a satisfacer sus necesidades de datos, los desarrolladores pueden impulsar aún más el desarrollo de IA con herramientas como NVIDIA NeMo Curator, que procesa grandes conjuntos de datos de manera eficiente para el entrenamiento y la personalización de modelos. Con NeMo Curator, se pueden procesar 20 millones de horas de video en solo dos semanas en las GPU NVIDIA Blackwell, en comparación con los 3,4 años en los pipelines de CPU no optimizadas.
Los desarrolladores de robótica también pueden aprovechar el nuevo blueprint NVIDIA Isaac GR00T para la generación de movimiento de manipulación sintética, un workflow de referencia basado en NVIDIA Omniverse y NVIDIA Cosmos que utiliza un pequeño número de demostraciones humanas para crear cantidades masivas de trayectorias de movimiento sintético para la manipulación de robots.
Los Laboratorios Universitarios Adoptarán un Conjunto de Datos para el Desarrollo de IA
Los laboratorios de robótica de la UCSD incluyen equipos centrados en aplicaciones médicas, humanoides y tecnología de asistencia en el hogar. Christensen anticipa que los datos robóticos del conjunto de datos de IA física podrían ayudar a desarrollar modelos de IA semántica que comprendan el contexto de espacios como hogares, habitaciones de hotel y hospitales.
«Uno de nuestros objetivos es lograr un nivel de comprensión en el que, si se le pidiera a un robot que guardara sus comestibles, sabría exactamente qué artículos deben ir en el refrigerador y cuáles en la despensa», dijo.
En el campo de los vehículos autónomos, el laboratorio de Christensen podría aplicar el conjunto de datos para entrenar modelos de IA para comprender las intenciones de varios usuarios de la carretera y predecir la mejor acción a tomar. Sus equipos de investigación también podrían utilizar el conjunto de datos para respaldar el desarrollo de gemelos digitales que simulen casos extremos y condiciones climáticas desafiantes. Estas simulaciones podrían usarse para entrenar y probar modelos de conducción autónoma en situaciones que son raras en entornos del mundo real.
En Berkeley DeepDrive, un centro de investigación líder en IA para sistemas autónomos, el conjunto de datos podría respaldar el desarrollo de modelos de políticas y world foundation models para vehículos autónomos.
«La diversidad de datos es increíblemente importante para entrenar los modelos de base», dijo Wei Zhan, codirector de Berkeley DeepDrive. «Este conjunto de datos podría respaldar investigaciones de vanguardia para equipos del sector público y privado que desarrollan modelos de IA para vehículos autónomos y robótica».
Los investigadores del Laboratorio de IA Segura de la Universidad Carnegie Mellon planean utilizar el conjunto de datos para avanzar en su trabajo de evaluación y certificación de la seguridad de los vehículos autónomos. El equipo planea probar cómo se comporta un modelo básico de IA físico entrenado en este conjunto de datos en un entorno de simulación con condiciones raras, y comparar su rendimiento con un modelo AV entrenado en conjuntos de datos existentes.
«Este conjunto de datos cubre diferentes tipos de carreteras y geografías, diferentes infraestructuras, diferentes entornos meteorológicos», dijo Ding Zhao, profesor asociado de CMU y jefe del Laboratorio de IA Segura. «Su diversidad podría ser muy valiosa para ayudarnos a entrenar un modelo con capacidades de razonamiento causal en el mundo físico que comprenda casos extremos y problemas de cola larga».
Accede al conjunto de datos de IA física de NVIDIA en Hugging Face. Desarrolle conocimientos básicos con cursos como la rut00a de aprendizaje Aprenda OpenUSD y la ruta de aprendizaje Fundamentos de Robótica. Y para obtener más información sobre los últimos avances en IA física, vea el discurso de apertura de GTC del fundador y CEO de NVIDIA, Jensen Huang.
Consulte el aviso sobre la información del producto de software.