Bajo el capó de cada aplicación de IA hay algoritmos que procesan datos en su propio idioma, uno basado en un vocabulario de tokens.
Los tokens son pequeñas unidades de datos que provienen de descomponer grandes cantidades de información. Los modelos de IA procesan tokens para aprender las relaciones entre ellos y desbloquear capacidades como la predicción, la generación y el razonamiento. Cuanto más rápido se puedan procesar los tokens, más rápido podrán aprender y responder los modelos.
Las fábricas de IA, una nueva clase de data centers diseñados para acelerar las cargas de trabajo de IA, procesan tokens de manera eficiente, convirtiéndolos del lenguaje de la IA a la moneda de la IA, que es la inteligencia.
Con las fábricas de IA, las empresas pueden aprovechar las últimas soluciones de computación de pila completa para procesar más tokens a un menor costo computacional, creando valor adicional para los clientes. En un caso, la integración de optimizaciones de software y la adopción de las GPU NVIDIA de última generación redujeron el costo por token en 20 veces en comparación con los procesos no optimizados en las GPU de la generación anterior, lo que generó 25 veces más ingresos en solo cuatro semanas.
¿Qué Es la Tokenización?
Ya sea que un modelo transformer de IA esté procesando texto, imágenes, clips de audio, videos u otra modalidad, traducirá los datos en tokens. Este proceso se conoce como tokenización.
La tokenización eficiente ayuda a reducir la cantidad de potencia de computación necesaria para el entrenamiento y la inferencia. Existen numerosos métodos de tokenización, y los tokenizadores adaptados a tipos de datos y casos de uso específicos pueden requerir un vocabulario más pequeño, lo que significa que hay menos tokens para procesar.
En el caso de los grandes modelos de lenguaje(LLM), las palabras cortas se pueden representar con un solo token, mientras que las palabras más largas se pueden dividir en dos o más tokens.
La palabra darkness, por ejemplo, se dividiría en dos fichas, «dark» y «ness», y cada ficha llevaría una representación numérica, como 217 y 655. La palabra opuesta, brightness, se dividiría de manera similar en «bright» y «ness», con las representaciones numéricas correspondientes de 491 y 655.
En este ejemplo, el valor numérico compartido asociado con «ness» puede ayudar al modelo de IA a comprender que las palabras pueden tener algo en común. En otras situaciones, un tokenizador puede asignar diferentes representaciones numéricas para la misma palabra dependiendo de su significado en el contexto.
Por ejemplo, la palabra lie podría referirse a una posición de reposo o a decir algo falso. Durante el entrenamiento, el modelo aprendería la distinción entre estos dos significados y les asignaría diferentes números de token.
En el caso de los modelos visuales de IA que procesan imágenes, vídeos o datos de sensores, un tokenizador puede ayudar a asignar entradas visuales como píxeles o vóxeles a una serie de tokens discretos.
Los modelos que procesan audio pueden convertir clips cortos en espectrogramas, representaciones visuales de ondas sonoras a lo largo del tiempo que luego se pueden procesar como imágenes. Otras aplicaciones de audio pueden centrarse en capturar el significado de un clip de sonido que contiene voz y utilizar otro tipo de tokenizador que captura tokens semánticos, que representan datos de lenguaje o contexto en lugar de simplemente información acústica.
¿Cómo Se Utilizan los Tokens Durante el Entrenamiento de la IA?
El entrenamiento de un modelo de IA comienza con la tokenización del conjunto de datos de entrenamiento.
Según el tamaño de los datos de entrenamiento, el número de tokens puede ascender a miles de millones o billones y, según la ley de escalado previo al entrenamiento, cuantos más tokens se utilicen para el entrenamiento, mejor será la calidad del modelo de IA.
A medida que un modelo de IA se entrena previamente, se prueba mostrándole un conjunto de muestra de tokens y se le pide que prediga el próximo token. En función de si su predicción es correcta o no, el modelo se actualiza para mejorar su próxima estimación. Este proceso se repite hasta que el modelo aprende de sus errores y alcanza un nivel objetivo de precisión, conocido como convergencia del modelo.
Después del entrenamiento previo, los modelos se mejoran aún más después del entrenamiento, donde continúan aprendiendo en un subconjunto de tokens relevantes para el caso de uso en el que se implementarán. Estos podrían ser tokens con información específica del dominio para una aplicación en derecho, medicina o negocios, o tokens que ayudan a adaptar el modelo a una tarea específica, como el razonamiento, el chat o la traducción. El objetivo es un modelo que genere los tokens correctos para ofrecer una respuesta correcta basada en la consulta de un usuario, una habilidad más conocida como inferencia.
¿Cómo Se Utilizan los Tokens Durante la Inferencia y el Razonamiento de la IA?
Durante la inferencia, una IA recibe un mensaje, que, según el modelo, puede ser texto, imagen, clip de audio, video, datos de sensores o incluso secuencia de genes, que traduce en una serie de tokens. El modelo procesa estos tokens de entrada, genera su respuesta como tokens y, a continuación, la traduce al formato esperado por el usuario.
Los idiomas de entrada y salida pueden ser diferentes, por ejemplo, en un modelo que traduce del inglés al japonés o en uno que convierte solicitudes de texto en imágenes.
Para comprender un mensaje completo, los modelos de IA deben ser capaces de procesar varios tokens a la vez. Muchos modelos tienen un límite especificado, denominado ventana de contexto, y los diferentes casos de uso requieren diferentes tamaños de ventana de contexto.
Un modelo que puede procesar unos pocos miles de tokens a la vez podría ser capaz de procesar una sola imagen de alta resolución o unas pocas páginas de texto. Con una longitud de contexto de decenas de miles de tokens, otro modelo podría ser capaz de resumir una novela completa o un episodio de podcast de una hora de duración. Algunos modelos incluso proporcionan longitudes de contexto de un millón o más de tokens, lo que permite a los usuarios ingresar fuentes de datos masivas para que la IA los analice.
Los modelos de IA de razonamiento, el último avance en LLM, pueden abordar consultas más complejas tratando los tokens de manera diferente a como lo hacían antes. Aquí, además de los tokens de entrada y salida, el modelo genera una gran cantidad de tokens de razonamiento durante minutos u horas mientras piensa en cómo resolver un problema determinado.
Estas fichas de razonamiento permiten mejores respuestas a preguntas complejas, al igual que la forma en que una persona puede formular una mejor respuesta si se le da tiempo para resolver un problema. El aumento correspondiente de tokens por solicitud puede requerir más de 100 veces más computación en comparación con un solo paso de inferencia en un LLM tradicional, un ejemplo de escalado en tiempo de prueba, también conocido como pensamiento largo.
¿Cómo Impulsan los Tokens la Economía de la IA?
Durante el pre-entrenamiento y el post-entrenamiento, los tokens equivalen a la inversión en inteligencia, y durante la inferencia, impulsan los costos y los ingresos. Así, a medida que proliferan las aplicaciones de IA, están surgiendo nuevos principios de la economía de la IA.
Las fábricas de IA están diseñadas para sostener inferencias de alto volumen, fabricando inteligencia para los usuarios al convertir los tokens en información monetizable. Es por eso que un número creciente de servicios de IA están midiendo el valor de sus productos en función de la cantidad de tokens consumidos y generados, ofreciendo planes de precios basados en las tasas de entrada y salida de tokens de un modelo.
Algunos planes de precios de tokens ofrecen a los usuarios un número determinado de tokens compartidos entre la entrada y la salida. En función de estos límites de tokens, un cliente podría usar un mensaje de texto corto que use solo unos pocos tokens para la entrada para generar una respuesta larga generada por IA que tomara miles de tokens como salida. O un usuario podría gastar la mayoría de sus tokens en entradas, proporcionando a un modelo de IA un conjunto de documentos para resumir en unas pocas viñetas.
Para atender a un gran volumen de usuarios simultáneos, algunos servicios de IA también establecen límites de tokens, el número máximo de tokens por minuto generados para un usuario individual.
Los tokens también definen la experiencia del usuario para los servicios de IA. El tiempo hasta el primer token, la latencia entre un usuario que envía un mensaje y el modelo de IA comienza a responder, y la latencia entre tokens o token a token, la velocidad a la que se generan los tokens de salida posteriores, determinan cómo un usuario final experimenta la salida de una aplicación de IA.
Hay compensaciones involucradas para cada métrica, y el equilibrio adecuado viene dictado por el caso de uso.
En el caso de los chatbots basados en LLM, acortar el tiempo hasta el primer token puede ayudar a mejorar la participación de los usuarios al mantener un ritmo de conversación sin pausas antinaturales. La optimización de la latencia entre tokens puede permitir que los modelos de generación de texto coincidan con la velocidad de lectura de una persona promedio, o que los modelos de generación de video logren la velocidad de fotogramas deseada. En el caso de los modelos de IA que se dedican a la reflexión y la investigación a largo plazo, se pone más énfasis en la generación de tokens de alta calidad, incluso si eso añade latencia.
Los desarrolladores tienen que encontrar un equilibrio entre estas métricas para ofrecer experiencias de usuario de alta calidad con un rendimiento óptimo, es decir, el número de tokens que puede generar una fábrica de IA.
Para hacer frente a estos desafíos, la plataforma de IA de NVIDIA ofrece una amplia colección de software, microservicios y blueprints junto con una potente infraestructura de computación acelerada, una solución flexible y completa que permite a las empresas evolucionar, optimizar y escalar las fábricas de IA para generar la próxima ola de inteligencia en todas las industrias.
Comprender cómo optimizar el uso de tokens en diferentes tareas puede ayudar a los desarrolladores, las empresas e incluso los usuarios finales a obtener el máximo valor de sus aplicaciones de IA.
Obtenga más información en este eBook y comience a build.nvidia.com.