El asistente de voz de IA más popular de Corea del Sur, GiGA Genie, conversa con 8 millones de personas cada día.
El asistente impulsado por IA de la empresa de telecomunicaciones KT puede controlar TV, ofrecer actualizaciones de tráfico en tiempo real y completar una gran cantidad de otras tareas de asistencia doméstica basadas en comandos de voz. Ha dominado sus habilidades conversacionales en el lenguaje coreano altamente complejo gracias a grandes modelos de idiomas (LLM), algoritmos de machine learning que pueden reconocer, comprender, predecir y generar idiomas humanos basados en enormes conjuntos de datos de texto.
Los modelos de la compañía se construyen utilizando la plataforma de infraestructura de data centers NVIDIA DGX SuperPOD y el framework NeMo Megatron para el entrenamiento y la implementación de LLM con miles de millones de parámetros.
El idioma coreano, conocido como hangul, aparece en muchas listas de los idiomas más desafiantes del mundo. Incluye cuatro tipos de verbos compuestos, y las palabras a menudo están compuestas de dos o más raíces.
KT, el operador móvil líder de Corea del Sur con más de 22 millones de suscriptores, mejoró la comprensión del orador inteligente de tales palabras al desarrollar LLM con alrededor de 40,000 millones de parámetros. Y, a través de la integración con Amazon Alexa, GiGA Genie también puede conversar con los usuarios en inglés.
«Con los modelos basados en transformer, hemos logrado mejoras significativas de calidad para el altavoz inteligente GiGA Genie, así como para nuestra plataforma de servicios al cliente, AI Contact Center o AICC», dijo Hwijung Ryu, líder del equipo de desarrollo de LLM en KT.
AICC es una plataforma integral y basada en el cloud que ofrece agentes de voz de IA y otras aplicaciones relacionadas con el servicio al cliente.
Puede recibir llamadas y proporcionar información solicitada, o conectar rápidamente clientes con agentes humanos para obtener respuestas a consultas más detalladas. AICC sin intervención humana gestiona más de 100,000 llamadas diarias en toda Corea, según Ryu.
«Los LLM permiten a GiGA Genie obtener una mejor comprensión del lenguaje y generar oraciones más similares a las humanas, y a AICC reducir los tiempos de consulta en 15 segundos a medida que resume y clasifica los tipos de consultas más rápidamente», agregó.
Entrenamiento de Grandes Modelos de Idiomas
El desarrollo de LLM puede ser un proceso costoso y lento que requiere una experiencia técnica profunda e inversiones en tecnología de pila completa.
La plataforma de IA de NVIDIA simplifica y acelera este proceso para KT.
«Entrenamos nuestros modelos LLM de manera más eficaz con el potente rendimiento de NVIDIA DGX SuperPOD, así como los algoritmos optimizados y las técnicas de paralelismo 3D de NeMo Megatron», dijo Ryu. «NeMo Megatron está adoptando continuamente nuevas funciones, lo que es la mayor ventaja que creemos que ofrece para mejorar la precisión de nuestro modelo».
El paralelismo 3D, un método de entrenamiento distribuido en el que un modelo de deep learning de escala extremadamente grande se divide en varios dispositivos, fue crucial para entrenar los LLM de KT. NeMo Megatron permitió al equipo realizar fácilmente esta tarea con la tasa de transferencia más alta, según Ryu.
«Consideramos el uso de otras plataformas, pero fue difícil encontrar una alternativa que proporciona entornos de pila completa, desde el nivel del hardware hasta el nivel de inferencia», agregó. «NVIDIA también proporciona experiencia excepcional de equipos de productos, ingeniería y más, por lo que hemos resuelto fácilmente varios problemas técnicos».
Usando herramientas de optimización de hiperparámetros en NeMo Megatron, KT entrenó sus LLM 2 veces más rápido que con otros frameworks, dijo Ryu. Estas herramientas permiten a los usuarios encontrar automáticamente las mejores configuraciones para el entrenamiento y la inferencia de LLM, lo que facilita y acelera el proceso de desarrollo e implementación.
KT también planea usar el Servidor de Inferencia NVIDIA Triton para proporcionar un servicio de inferencia optimizado en tiempo real, así como NVIDIA Base Command Manager para monitorear y administrar fácilmente cientos de nodos en su clúster de IA.
«Gracias a los LLM, KT puede lanzar productos competitivos más rápido que nunca», dijo Ryu. «También creemos que nuestra tecnología puede impulsar la innovación de otras empresas, ya que se puede utilizar para mejorar su valor y crear productos innovadores».
KT planea lanzar más de 20 API de comprensión de idiomas naturales y generación de idiomas naturales para desarrolladores en noviembre. Las interfaces de programación de aplicaciones se pueden utilizar para tareas como resumen y clasificación de documentos, reconocimiento de emociones y filtrado de contenido potencialmente inapropiado.
Obtén más información sobre las tecnologías revolucionarias para la era de la IA y el metaverso en NVIDIA GTC, que se ejecuta en línea hasta el jueves 22 de septiembre.
Mira a continuación la repetición del discurso destacado a cargo del fundador y CEO de NVIDIA Jensen Huang: