NVIDIA Anuncia una Plataforma para Crear Avatares de IA

NVIDIA Omniverse Avatar permite asistentes de IA conversacionales en tiempo real.
por Kristin Uchiyama

NVIDIA presentó NVIDIA Omniverse Avatar, una plataforma tecnológica para generar avatares interactivos de Inteligencia Artificial.

Omniverse Avatar conecta las tecnologías de la compañía en IA conversacional, visión de computación, comprensión de idiomas naturales, motores de recomendación y tecnologías de simulación. Los avatares creados en la plataforma son personajes interactivos con gráficos 3D con ray tracing que pueden ver, hablar, conversar sobre una amplia gama de temas y comprender la intención hablada naturalmente.

Omniverse Avatar abre la puerta a la creación de asistentes de IA que pueden aprender de los humanos y son fácilmente personalizables para cualquier industria. Estos podrían ayudar con los miles de millones de interacciones diarias de servicio al cliente (pedidos de restaurantes, transacciones bancarias, citas personales y reservas, y más), lo que genera mayores oportunidades comerciales y mejorar la satisfacción del cliente.

“El amanecer de los asistentes virtuales inteligentes ha llegado”, dijo Jensen Huang, fundador y CEO de NVIDIA. “Omniverse Avatar combina los gráficos funcionales, la simulación y las tecnologías de IA de NVIDIA para lograr algunas de las aplicaciones en tiempo real más complejas jamás creadas. Los casos de uso de robots colaborativos y asistentes virtuales son increíbles y de gran alcance”.

Omniverse Avatar es parte de NVIDIA Omniverse™, una plataforma de colaboración y simulación de mundo virtual para workflows 3D. En su discurso de apertura en NVIDIA GTC, Huang compartió dos ejemplos de Omniverse Avatar: Proyecto Tokkio para la atención al cliente, NVIDIA DRIVE Concierge para servicios inteligentes siempre activos en vehículos y Proyecto Maxine para las videoconferencias.

En la primera demostración del Proyecto Tokkio, Huang mostró a sus colegas participando en una conversación en tiempo real con un avatar creado como una réplica de juguete de sí mismo, mientras conversaban sobre temas como el diagnóstico de Biología y la Ciencia del Clima.

En la siguiente demostración del Proyecto Tokkio, destacó un avatar de servicio al cliente en un quiosco de restaurante, capaz de ver, conversar y entender a dos clientes mientras pedían hamburguesas vegetarianas, papas fritas y bebidas. Las demostraciones fueron impulsadas por el software de IA de NVIDIA y Megatron-Turing NLG 530B, el modelo de lenguaje generativo de NVIDIA, que actualmente es el más grande del mundo.

En una demostración de la plataforma DRIVE Concierge AI, un asistente digital en la pantalla del tablero central ayuda al conductor a seleccionar el mejor modo de conducción para llegar a su destino a tiempo, y luego sigue su solicitud de establecer un recordatorio una vez que el alcance del automóvil desciende por debajo de las 100 millas.

Por separado, Huang  mostró la capacidad del Proyecto Maxine para agregar funciones de video y audio de última generación a las aplicaciones de colaboración virtual y creación de contenido. Un hablante de inglés se muestra en una videollamada en un café ruidoso, pero se puede escuchar claramente sin ruido de fondo. Mientras habla, sus palabras se transcriben y traducen en tiempo real al francés, alemán y español con su misma voz y entonación.

Elementos Clave de Omniverse Avatar

Omniverse Avatar utiliza elementos de la IA conversacional, visión de computación, comprensión de idiomas naturales, motores de recomendación, animación facial y gráficos entregados a través de las siguientes tecnologías:

  • Su reconocimiento de voz se proporciona a través de NVIDIA Riva, un conjunto de desarrollo de software que reconoce el habla en varios idiomas. Riva también se utiliza para generar respuestas de voz similares a las humanas utilizando capacidades de texto a voz.
  • Su comprensión del lenguaje natural se basa en el modelo de grande de idioma Megatron 530B de NVIDIA que puede reconocer, comprender y generar lenguaje humano.  Megatron 530B es un modelo previamente entrenado que puede, con poco o ningún entrenamiento, completar oraciones, responder preguntas de un gran dominio de temas, resumir historias largas y complejas, traducir a otros idiomas y manejar muchos dominios para los que no está entrenado específicamente.
  • Su motor de recomendación es proporcionado por NVIDIA Merlin™, un framework que permite a las empresas desarrollar sistemas de recomendación de deep learning capaces de manejar grandes cantidades de datos para hacer sugerencias más inteligentes.
  • Sus capacidades de percepción están habilitadas por NVIDIA Metropolis, un framework de visión de computación para análisis de videos.
  • Su animación de avatar está impulsada por tecnologías de renderizado, de animación facial 2D y 3D impulsadas por IA, NVIDIA Video2Face y Audio2Face™.

Estas tecnologías se componen en una aplicación y se procesan en tiempo real utilizando el framework NVIDIA Unified Compute.

Obtén más información sobre Omniverse Avatar aquí.