La Nueva Arquitectura Nativa en el Cloud de NVIDIA Maxine Ofrece una Calidad de Audio y Video Innovadora a Escala

Los microservicios de IA de acceso anticipado ofrecen comunicaciones de primera calidad en el cloud.
por Delilah Liu

La última versión de NVIDIA Maxine está allanando el camino para las comunicaciones de audio y video en tiempo real. Ya sea para una videoconferencia, una llamada realizada a un centro de servicio al cliente o una transmisión en vivo, Maxine permite comunicaciones claras para mejorar las interacciones virtuales.

NVIDIA Maxine es un conjunto de kits de herramientas de desarrollo de software (SDK) de IA acelerados por GPU y microservicios nativos del cloud para implementar funciones de IA optimizadas y aceleradas que mejoran los efectos de audio, video y realidad aumentada (AR) en tiempo real.

Y con los modelos de última generación de Maxine, los usuarios finales no necesitan equipos costosos para mejorar el audio y el video. Con la tecnología basada en IA de NVIDIA, estos efectos de alta calidad se pueden lograr con micrófonos y equipos de cámara estándar.

En GTC, NVIDIA anunció la nueva arquitectura de Maxine para los microservicios nativos del cloud, con el lanzamiento de acceso anticipado del microservicio de efectos de audio de Maxine. Además, se dieron a conocer las nuevas características de SDK Maxine, que incluyen el Speaker Focus y Face Expression Estimation, así como la disponibilidad general de Eye Contact. NVIDIA Maxine ahora también incluye versiones mejoradas de las funciones SDK existentes.

Maxine se Vuelve Nativa del Cloud

Los microservicios nativos del cloud de Maxine permiten a los desarrolladores crear aplicaciones de IA en tiempo real. Los microservicios se pueden administrar de forma independiente e implementar sin problemas en el cloud, lo que acelera los plazos de desarrollo.

El siguiente microservicio, disponible en acceso anticipado, contiene cuatro funciones de audio:

  • Eliminación de Ruido de Fondo: elimina varios ruidos de fondo comunes utilizando modelos de IA de última generación, al tiempo que preserva la voz natural del hablante.
  • Eliminación del Eco de la Sala: elimina las reverberaciones del audio mediante modelos de IA y restaura la claridad de la voz de un orador.Súper Resolución de Audio: mejora la calidad del audio aumentando la resolución temporal de la señal de audio. Actualmente admite sobremuestreo de 8 kHz a 16 kHz y de 16 kHz a 48 kHz.
  • Cancelación de Eco Acústico: cancela el eco del dispositivo acústico en tiempo real del flujo de audio de entrada, lo que elimina los pares acústicos que no coinciden y el habla simultánea. Con la tecnología basada en IA, se logra una cancelación más efectiva que con el procesamiento de señal digital tradicional.

Pexip, un proveedor líder de soluciones de colaboración y videoconferencia empresarial, está utilizando las tecnologías IA de NVIDIA para llevar las reuniones virtuales al siguiente nivel con funciones avanzadas para la fuerza laboral moderna.

“Con el paso de Maxine a los microservicios nativos del cloud, será aún más fácil combinar las tecnologías de inteligencia artificial avanzada de NVIDIA con nuestra propia arquitectura única del lado del servidor”, dijo Eddie Clifton, vicepresidente senior de Alianzas Estratégicas de Pexip. “Esto permite que nuestros equipos en Pexip brinden una experiencia mejorada para las reuniones virtuales”.

Regístrese para obtener acceso anticipado.

Explore las Funciones Mejoradas de los SDK

Maxine ofrece tres SDK acelerados por GPU que reinventan las comunicaciones en tiempo real con IA: efectos de audio, video y AR.

El SDK de efectos de audio ofrece algoritmos de mejora de la calidad de audio basados ​​en IA, de baja latencia y multiefectos. Speaker Focus, disponible en acceso anticipado, es una nueva función que separa las pistas de audio de los altavoces de fondo y de primer plano, lo que hace que cada voz sea más inteligible. Además, el SDK Audio Super Resolution se actualizó con una calidad mejorada.

El SDK de efectos de video crea efectos de video basados ​​en IA con entrada de cámara web estándar. La función Virtual Background, que segmenta el perfil de una persona y aplica la eliminación, el reemplazo o el desenfoque del fondo impulsado por IA, se ha actualizado con una estabilidad temporal mejorada.

Y AR SDK proporciona seguimiento de rostros en 3D en tiempo real y estimación de la postura del cuerpo basada en una cámara web estándar. Las últimas características incluyen:

  • Eye Contact: simula el contacto visual estimando y alineando la mirada con la cámara.
  • Face Expression Estimation: realiza un seguimiento de la cara e infiere qué expresión presenta el sujeto.

Se han actualizado las siguientes funciones de realidad aumentada:

  • Body Pose Estimation: predice y realiza un seguimiento de 34 puntos clave del cuerpo humano en 2D y 3D, ahora compatible con el seguimiento de varias personas.
  • Face Landmark Tracking: reconoce rasgos y contornos faciales mediante 126 puntos clave. Realiza un seguimiento de la postura de la cabeza y la deformación facial debido al movimiento y la expresión de la cabeza, en tres grados de libertad en tiempo real, ahora con el modo de calidad para lograr un seguimiento de mayor calidad.
  • Face Mesh: representa un rostro humano con una malla 3D con hasta 3000 vértices y seis grados de libertad; ahora incluye modelos 3D transformables del Instituto de Tecnologías Creativas de la USC.

Pruebe los SDK de Maxine. Para experimentar directamente los efectos de Maxine, descargue la aplicación NVIDIA Broadcast.

Experimente Efectos de Última Generación con el Poder de la IA

Los SDK y los microservicios de Maxine proporcionan un conjunto de efectos de IA de baja latencia que se pueden integrar con las infraestructuras existentes de los clientes. Los desarrolladores pueden aprovechar las capacidades de inteligencia artificial de vanguardia con Maxine, ya que la tecnología se basa en la plataforma IA de NVIDIA y tiene modelos preentrenados de clase mundial para que los usuarios creen, personalicen e implementen funciones de calidad de audio y video premium.

Maxine también forma parte de NVIDIA Omniverse Avatar Cloud Engine, una colección de modelos y servicios de IA basados en el cloud para que los desarrolladores construyan, personalicen e implementen avatares interactivos. Los microservicios nativos del cloud personalizables de Maxine permiten una implementación independiente en pipeline de efectos de IA. Maxine se puede implementar en las instalaciones, en el cloud o en el edge.

Obtenga más información sobre NVIDIA Maxine y otros avances tecnológicos al ver el discurso de apertura de GTC del fundador y director ejecutivo de NVIDIA, Jensen Huang.