NVIDIA Maxine Reinventa la Comunicación en Tiempo Real con IA

El último lanzamiento trae efectos de audio de última generación a millones de personas.
por Rick Champagne

Todos quieren ser escuchados. Y con más personas que nunca en videollamadas o transmisión en vivo desde sus oficinas en el hogar, el audio enriquecido sin ecos ni ruidos de fondo como perros ladrando es clave para mejorar las experiencias en línea.

NVIDIA Maxine ofrece kits de desarrollo de software habilitados para IA y acelerados por GPU para ayudar a los desarrolladores a crear pipelines de efectos de audio y video escalables y de baja latencia que mejoran la calidad de las llamadas y la experiencia del usuario.

Hoy, NVIDIA anunció en GTC que Maxine está agregando cancelación de eco acústico y sobremuestreo basado en IA para una mejor calidad de sonido.

La cancelación de eco acústico elimina el eco acústico del flujo de audio en tiempo real, conservando la calidad del habla incluso durante el habla simultánea. Con la tecnología basada en IA, Maxine AEC logra una cancelación de eco más efectiva que la que se logra a través de los algoritmos tradicionales de procesamiento de señales digitales.

Audio Super Resolution mejora la calidad de una señal de audio de bajo ancho de banda al restaurar la energía perdida en bandas de frecuencia más altas utilizando técnicas basadas en IA. Maxine Audio Super Resolution admite el muestreo ascendente del audio de 8 kHz (banda estrecha) a 16 kHz (banda ancha), de 16 kHz a 48 kHz (banda ultraancha) y de 8 kHz a 48 kHz. Las frecuencias de muestreo más bajas, como 8 kHz, a menudo dan como resultado voces apagadas y enfatizan artefactos como la sibilancia y hacen que el habla sea difícil de entender.

Los estudios de cine y televisión modernos suelen utilizar una frecuencia de muestreo de 48 kHz (o superior) para grabar audio, a fin de mantener la fidelidad de la señal original y conservar la claridad. Audio Super Resolution puede ayudar a restaurar la fidelidad de las grabaciones de audio antiguas, derivadas de cintas magnéticas u otros medios de bajo ancho de banda.

Cerrando la Brecha del Sonido

La mayoría de las telecomunicaciones modernas se realizan mediante audio de banda ancha o banda ultraancha. Dado que NVIDIA Audio Super Resolution puede aumentar la muestra y restaurar el audio de banda estrecha en tiempo real, la tecnología se puede usar de manera efectiva para cerrar la brecha de calidad entre las líneas telefónicas tradicionales de cable de cobre y los sistemas modernos de comunicación de banda ancha basados en VoIP.

La comunicación en tiempo real, ya sea para conferencias telefónicas, centros de atención telefónica o transmisión en vivo de todo tipo, está dando un gran paso adelante con Maxine.

Desde su lanzamiento inicial, Maxine ha sido adoptada por muchos de los principales proveedores mundiales de comunicaciones por video, creación de contenido y transmisión en vivo.

Se espera que el mercado mundial de videoconferencias aumente a casi $ 13 mil millones en 2028, frente a los $ 6.3 mil millones en 2021, según Fortune Business Insights.

Trabajar desde Casa: Una Forma de Vida

El paso al trabajo desde casa, o WFH (Work From Home), se ha convertido en una norma aceptada en todas las empresas, y las organizaciones se están adaptando a las nuevas expectativas.

La firma analista Gartner estima que solo una cuarta parte de las reuniones para empresas serán en persona en 2024, una disminución del 60% antes de la pandemia.

La colaboración virtual en los EE. UU. ha jugado un papel importante ya que las personas han asumido posiciones híbridas y remotas en los últimos dos años en medio de la pandemia.

Pero a medida que las organizaciones buscan mantener la cultura de la empresa y la experiencia en el lugar de trabajo, ha aumentado el riesgo de una interactividad de medios de mayor calidad.

Resolviendo el Problema de Interferencias

Pero a veces el trabajo y la vida familiar chocan. Como resultado, las reuniones suelen estar llenas de ruidos de fondo de niños, trabajos de construcción afuera o sirenas de vehículos de emergencia, lo que provoca breves interrupciones en el flujo de llamadas de conferencia.

Maxine ayuda a resolver un antiguo problema de audio conocido como el problema de interferencia. Con la IA, puede filtrar los ruidos de fondo no deseados, lo que permite que se escuche mejor a los usuarios, ya sea que estén en una oficina en casa o de viaje.

La plataforma acelerada por GPU Maxine proporciona un pipeline de deep learing de extremo a extremo que se integra con modelos personalizables de última generación, lo que permite características de alta calidad con un micrófono y una cámara estándar.

Suena Como Tu Mejor Yo

Además de verse afectada por el ruido de fondo, la calidad del audio en las actividades virtuales a veces puede sonar débil, sin frecuencias bajas y medias, o incluso apenas audible.

Maxine permite el muestreo de audio en tiempo real para que las voces suenen más completas, profundas y audibles.

Logitech: Mejor Audio para Auriculares y Micrófonos Blue Yeti

Logitech, un fabricante líder de periféricos, está implementando Maxine para mejorar las interacciones con sus populares auriculares y micrófonos.

Aprovechando las bibliotecas de IA, Logitech ha integrado Maxine directamente dentro de los controladores de audio G Hub para mejorar las comunicaciones con sus dispositivos sin necesidad de software adicional. Maxine aprovecha los potentes Tensor Cores de las GPU NVIDIA RTX para que los consumidores puedan disfrutar del procesamiento en tiempo real de la señal de su micrófono.

Logitech ahora aprovecha la eliminación de ruido de última generación de Maxine en su software G Hub. Eso le ha permitido eliminar los ecos y los ruidos de fondo, como los ventiladores, así como los clics del teclado y del mouse, que pueden distraer la atención de las videoconferencias o las sesiones de transmisión en vivo.

“NVIDIA Maxine hace que sea rápido y fácil para los usuarios limpiar la señal de su micrófono y eliminar los ruidos de fondo no deseados con un solo clic”, dijo Ujesh Desai, vicepresidente de Logitech. “Eliminar los sonidos de los clics del teclado para distraer a los fanáticos de la PC, las funciones como Eliminación de Ruido y Eliminación de Eco de la sala lo tienen cubierto. Incluso puede probar la señal de su micrófono para encontrar la configuración perfecta para su configuración”.

Tencent Cloud Impulsa a los Creadores de Contenido

Tencent Cloud está ayudando a los creadores de contenido con sus producciones al ofrecer tecnología de NVIDIA Maxine que hace que agregar fondos creativos sea rápido y fácil.

La función AI Green Screen de NVIDIA Maxine permite a los usuarios crear una presencia más inmersiva con separación de primer plano y fondo de alta calidad, sin la necesidad de una pantalla verde tradicional. Una vez que se separa el fondo real, se puede reemplazar fácilmente con un fondo virtual o difuminar para crear un efecto de profundidad de campo. Tencent Cloud ofrece esta nueva capacidad como un paquete de software como servicio para creadores de contenido.

La tecnología AI Green Screen de NVIDIA Maxine ayuda a los creadores de contenido con sus producciones al permitir experiencias más inmersivas de alta calidad, sin la necesidad de equipos e iluminación especializados”, dijo Vulture Li, director del Centro de productos de la plataforma de audio y video Tencent Cloud.

Mejorando las Experiencias Virtuales

NVIDIA Maxine proporciona funciones de realidad aumentada, audio y video con IA en tiempo real de última generación que se pueden integrar en pipelines de deep learning personalizables de extremo a extremo.

Los SDK impulsados por IA de Maxine ayudan a los desarrolladores a crear aplicaciones que incluyen eliminación de ruido de audio e imagen, superresolución, corrección de la mirada, estimación de la postura del cuerpo en 3D y funciones de traducción.

Maxine también permite la traducción de voz a texto en tiempo real para un número creciente de idiomas. En GTC, NVIDIA demostró a Maxine traduciendo entre inglés, francés, alemán y español.

Estos efectos permitirán que millones de personas disfruten de videos en vivo atractivos y de alta calidad en cualquier dispositivo.

Únase a nosotros en GTC esta semana para obtener más información sobre Maxine en la siguiente sesión: