Lo que hace útil a una pinza robótica no es que pueda agarrar un objeto, sino que pueda agarrar el siguiente, y el de después, con una herramienta que nunca antes ha sostenido.
Lo que hace seguro a un sistema de vehículos autónomos no es solo que pueda razonar en una situación, sino que pueda hacerlo con la suficiente rapidez en el hardware instalado en el propio vehículo.
Lo que hace capaz a un agente virtual es la exposición al mayor número posible de entornos diferentes antes de enfrentarse al mundo real.
En la conferencia de este año sobre Visión por Computadora y Reconocimiento de Patrones (CVPR), NVIDIA Research presenta tres artículos que abordan cada uno de estos desafíos y comparten un tema común: el entrenamiento a escala crea sistemas que se generalizan a diversas aplicaciones.
Los tres artículos abordan diferentes desafíos en la investigación de IA física:
- GraspGen-X, el primer modelo fundacional para prensión zero-shot, fue entrenado con miles de millones de agarres simulados para funcionar con cualquier pinza que se le muestre.
- LCDrive presenta un modelo que reemplaza el costoso razonamiento basado en texto por representaciones latentes compactas, lo que permite a los vehículos autónomos pensar más rápido en el hardware embebido.
- NitroGen es un modelo fundacional generalizado de IA para videojuegos que aprovecha la arquitectura del modelo fundacional para robots NVIDIA Isaac GR00T para ayudar a entrenar agentes encarnados en entornos virtuales a lo largo de decenas de miles de horas de interacción.
NVIDIA también presentó en el CVPR nuevas skills de agentes de IA física que ayudan a investigadores y desarrolladores a acelerar el desarrollo de vehículos autónomos, robots y sistemas de IA de visión.
NitroGen y otro artículo escrito por NVIDIA, PixelDIT, fueron finalistas al mejor artículo de la conferencia, un galardón otorgado a solo 15 de los más de 4.000 artículos aceptados en el CVPR.
El Primer Modelo Fundacional para Prensión Robótica
La mayoría de los sistemas de IA para prensión robótica son especialistas.
Una política de visión-lenguaje-acción entrenada para una pinza de dos dedos solo aprende a agarrar con esos dos dedos. Del mismo modo, una política para prensión destreza solo funciona para la pinza multidedo específica para la que fue entrenada. Para cada nueva configuración, el proceso debe repetirse: se necesitan nuevos datos de entrenamiento, ajuste fino y validación. Esta limitación hace que la mayoría de las empresas de robótica elijan una pinza, la entrenen y se queden con ella.
GraspGen-X es el primer modelo fundacional para prensión diseñado para eliminar este cuello de botella.
Al igual que un modelo de lenguaje de gran escala que puede aplicar su comprensión del lenguaje a una nueva tarea sin reentrenamiento, GraspGen-X aplica su comprensión de geometría y contacto a cualquier pinza robótica que encuentre. Dada la geometría de una nueva pinza y un objeto desconocido que nunca ha visto antes, el modelo genera propuestas de pose de agarre fiables para que el robot pueda agarrar el objeto.
Para lograrlo, los investigadores necesitaban un conjunto de datos imposible de recopilar en el mundo real a escala. Generaron 2.000 millones de agarres simulados en miles de formas de objetos y configuraciones sintéticas de pinzas, abarcando la diversidad de factores de forma que podría encontrar un robot desplegado.
Para los desarrolladores de robots, este modelo fundacional elimina la necesidad de ciclos de entrenamiento por pinza y puede aplicarse de inmediato para varias pinzas de uso común. GraspGen-X puede usarse junto con curoboV2, una nueva biblioteca de planificación de movimiento acelerada por CUDA, para alcanzar estas poses de agarre en entornos desconocidos.
Basándose en los fundamentos de la investigación GraspGen, otro artículo, Grasp-MPC, presentado en ICRA 2026, avanza al siguiente paso del pipeline: pasar de la generación de agarres a la ejecución de agarres en bucle cerrado.
Enseñando a los Vehículos Autónomos a Pensar Más Rápido
En los últimos años, los investigadores han descubierto que permitir que una IA razone, generando pasos de pensamiento intermedios antes de comprometerse con una respuesta, mejora de forma fiable su toma de decisiones.
Para los vehículos autónomos, el desafío es realizar ese razonamiento en el hardware dentro de un vehículo real. El razonamiento en cadena de pensamiento basado en texto genera palabras, y cada palabra es un token que lleva tiempo producir. En el procesador que funciona dentro de un automóvil, el recuento de tokens es una restricción real sobre la rapidez con la que puede responder el sistema.
LCDrive aborda este problema reemplazando las palabras con representaciones latentes comprimidas.
En lugar de generar pasos de razonamiento legibles por humanos, el sistema piensa en un espacio latente compacto: estados que capturan información espacial en lugar de producir texto. La arquitectura alterna entre dos tipos de pensamiento: proponer acciones candidatas y luego predecir cómo se verá el mundo si se ejecutan esas acciones.
Utiliza ese estado previsto del mundo para refinar su siguiente paso. Es el mismo bucle de razonamiento, solo que en una forma computacionalmente más eficiente que el lenguaje natural.
El resultado: calidad de trayectoria de salida comparable al razonamiento basado en texto, usando aproximadamente la mitad de los tokens.
El modelo fue desarrollado sobre NVIDIA Alpamayo y entrenado con supervisión derivada de datos de vehículos existentes.
Agentes Encarnados Entrenados en Mundos Virtuales
Isaac GR00T, el modelo fundacional abierto de NVIDIA para robots humanoides, se basa en un principio simple: expón un modelo a suficientes situaciones diversas y generalizará a aquellas que aún no ha visto.
NitroGen extiende ese principio a los entornos virtuales, utilizando la arquitectura de GR00T para entrenar un modelo fundacional para agentes encarnados en una amplia variedad de mundos virtuales.
Los videojuegos ofrecen algo difícil de construir desde cero: mundos estructurados y variados con objetivos definidos y condiciones de éxito bien especificadas. Son entornos de entrenamiento de alta calidad, disponibles a escala.
NitroGen los trata de esa manera: como un campo de entrenamiento para agentes que eventualmente serán entrenados para manejar situaciones novedosas en el mundo real o simulado, como impulsar a un robot que ayuda con las tareas del hogar basándose en instrucciones amplias como «Guarda estos artículos en la despensa.»
Entrenado en más de 1.000 juegos y 40.000 horas de interacción usando un modelo basado en GR00T, los agentes resultantes aprenden a generalizarse entre entornos. El modelo fue evaluado en una variedad de juegos de rol de acción, plataformas, roguelikes y mundos abiertos, demostrando comportamientos de juego que abarcan combate, navegación y exploración.
Las mismas técnicas podrían eventualmente ayudar a crear personajes no jugables más adaptativos, compañeros de IA y sistemas de juego dentro de los videojuegos, así como pruebas más amplias de entornos de juego complejos.
En condiciones de pocos datos, donde un agente solo ha visto un puñado de ejemplos de un nuevo entorno, comenzar con NitroGen le da a los agentes una enorme ventaja, mejorando el rendimiento hasta un 52% sobre los métodos anteriores más avanzados.
El modelo es de código abierto, disponible en GitHub y en Hugging Face.
Obtenga más información sobre NVIDIA en el CVPR y explore el trabajo de NVIDIA Research en IA física, visión por computadora y sistemas autónomos. Comience con Isaac GR00T y las herramientas de robótica de NVIDIA.