Cómo la Economía de la Inferencia Puede Maximizar el Valor de la IA

Comprender el costo de la IA en la producción puede ayudar a los usuarios a lograr un rendimiento y una rentabilidad de alta calidad.
por Kyle Aubrey

A medida que los modelos de IA evolucionan y la adopción crece, las empresas deben realizar un delicado acto de equilibrio para lograr el máximo valor.

Esto se debe a que la inferencia, el proceso de ejecutar datos a través de un modelo para obtener una salida, ofrece un desafío computacional diferente al entrenamiento de un modelo.

El entrenamiento previo de un modelo (el proceso de ingesta de datos, dividirlos en tokens y encontrar patrones) es esencialmente un costo único. Pero en la inferencia, cada solicitud a un modelo genera tokens, cada uno de los cuales incurre en un costo.

Eso significa que a medida que aumenta el rendimiento y el uso del modelo de IA, también lo hace la cantidad de tokens generados y sus costos computacionales asociados. Para las empresas que buscan desarrollar capacidades de IA, la clave es generar tantos tokens como sea posible, con la máxima velocidad, precisión y calidad de servicio, sin que los costos computacionales se disparen.

Como tal, el ecosistema de IA ha estado trabajando para hacer que la inferencia sea más barata y eficiente. Los costos de inferencia han tendido a la baja durante el último año gracias a los grandes saltos en la optimización de modelos, lo que ha llevado a una infraestructura de computación acelerada cada vez más avanzada y energéticamente eficiente y a soluciones de pila completa.

Según el Informe del Índice de IA 2025 del Instituto de IA Centrada en el Ser Humano de la Universidad de Stanford, «el coste de inferencia de un sistema que funciona al nivel de GPT-3.5 se redujo más de 280 veces entre noviembre de 2022 y octubre de 2024. A nivel de hardware, los costes han disminuido un 30% anual, mientras que la eficiencia energética ha mejorado un 40% cada año. Los modelos de peso abierto también están cerrando la brecha con los modelos cerrados, reduciendo la diferencia de rendimiento del 8% a solo el 1,7% en algunos puntos de referencia en un solo año. Juntas, estas tendencias están reduciendo rápidamente las barreras para la IA avanzada».

A medida que los modelos evolucionan y generan más demanda y crean más tokens, las empresas necesitan escalar sus recursos de computación acelerada para ofrecer la próxima generación de herramientas de razonamiento de IA o arriesgarse a aumentar los costos y el consumo de energía.

Lo que sigue es una introducción para comprender los conceptos de la economía de la inferencia, las empresas pueden posicionarse para lograr soluciones de IA eficientes, rentables y rentables a escala.

Terminología Clave para la Economía de la Inferencia de IA

Conocer los términos clave de la economía de la inferencia ayuda a sentar las bases para comprender su importancia.

Tokens son la unidad fundamental de datos en un modelo de IA. Se derivan de los datos durante el entrenamiento como texto, imágenes, clips de audio y vídeos. A través de un proceso llamado tokenización, cada dato se descompone en unidades constituyentes más pequeñas. Durante el entrenamiento, el modelo aprende las relaciones entre los tokens para que pueda realizar inferencias y generar una salida precisa y relevante.

Rendimiento se refiere a la cantidad de datos, normalmente medidos en tokens, que el modelo puede generar en un período de tiempo específico, que a su vez es una función de la infraestructura que ejecuta el modelo. El rendimiento a menudo se mide en tokens por segundo, y un mayor rendimiento significa un mayor retorno de la infraestructura.

Latencia es una medida de la cantidad de tiempo que transcurre entre la introducción de una solicitud y el inicio de la respuesta del modelo. Una latencia más baja significa respuestas más rápidas. Las dos formas principales de medir la latencia son:

  • Tiempo hasta el primer token: una medida del tiempo de procesamiento inicial requerido por el modelo para generar su primer token de salida después de una solicitud del usuario.
  • Tiempo por token de salida: el tiempo promedio entre tokens consecutivos, o el tiempo que se tarda en generar un token de finalización para cada usuario que consulta el modelo al mismo tiempo. También se conoce como «latencia entre tokens» o latencia de token a token.

El tiempo hasta el primer token y el tiempo por token de salida son puntos de referencia útiles, pero son solo dos piezas de una ecuación más grande. Centrarse únicamente en ellos puede conducir a un deterioro del rendimiento o del coste.

Para tener en cuenta otras interdependencias, los líderes de TI están comenzando a medir el «goodput«, que se define como el rendimiento logrado por un sistema mientras se mantienen los niveles de tiempo objetivo hasta el primer token y el tiempo por token de salida. Esta métrica permite a las organizaciones evaluar el rendimiento de una manera más holística, asegurando que el rendimiento, la latencia y el costo estén alineados para respaldar tanto la eficiencia operativa como una experiencia de usuario excepcional.

Eficiencia energética es la medida de la eficacia con la que un sistema de IA convierte la energía en salida computacional, expresada como rendimiento por vatio. Mediante el uso de plataformas de computación acelerada, las organizaciones pueden maximizar los tokens por vatio y minimizar el consumo de energía.

Cómo Se Aplican las Leyes de Escalado al Costo de Inferencia

Las tres leyes de escalado de la IA también son fundamentales para comprender la economía de la inferencia:

  • Escalado previo al entrenamiento: la ley de escalado original que demostró que al aumentar el tamaño del conjunto de datos de entrenamiento, el recuento de parámetros del modelo y los recursos computacionales, los modelos pueden lograr mejoras predecibles en inteligencia y precisión.
  • Post-entrenamiento: Un proceso en el que los modelos se ajustan para mejorar la precisión y la especificidad de modo que puedan aplicarse al desarrollo de aplicaciones. Técnicas como la generación de recuperación aumentada se pueden utilizar para devolver respuestas más relevantes de una base de datos empresarial.
  • Escalado de tiempo de prueba (también conocido como «pensamiento largo» o «razonamiento»): una técnica mediante la cual los modelos asignan recursos computacionales adicionales durante la inferencia para evaluar múltiples resultados posibles antes de llegar a la mejor respuesta.

Si bien la IA está evolucionando y las técnicas de escalado posteriores al entrenamiento y en tiempo de prueba se vuelven más sofisticadas, el entrenamiento previo no está desapareciendo y sigue siendo una forma importante de escalar modelos. Seguirá siendo necesario el entrenamiento previo para respaldar el escalado posterior al entrenamiento y en el tiempo de prueba.

La IA Rentable Adopta un Enfoque de Pila Completa

En comparación con la inferencia de un modelo que solo ha pasado por el entrenamiento previo y posterior, los modelos que aprovechan el escalado en tiempo de prueba generan varios tokens para resolver un problema complejo. Esto da como resultado resultados de modelos más precisos y relevantes, pero también es mucho más costoso desde el punto de vista computacional.

Una IA más inteligente significa generar más tokens para resolver un problema. Y una experiencia de usuario de calidad significa generar esos tokens lo más rápido posible. Cuanto más inteligente y rápido sea un modelo de IA, más utilidad tendrá para las empresas y los clientes.

Las empresas necesitan escalar sus recursos de computación acelerada para ofrecer la próxima generación de herramientas de razonamiento de IA que puedan respaldar la resolución de problemas complejos, la codificación y la planificación de varios pasos sin que los costos se disparen.

Esto requiere tanto hardware avanzado como una pila de software totalmente optimizada. El roadmap de productos de fábrica de IA de NVIDIA está diseñada para satisfacer la demanda computacional y ayudar a resolver la complejidad de la inferencia, al tiempo que logra una mayor eficiencia.

Las fábricas de IA integran infraestructura de IA de alto rendimiento, redes de alta velocidad y software optimizado para producir inteligencia a escala. Estos componentes están diseñados para ser flexibles y programables, lo que permite a las empresas priorizar las áreas más críticas para sus modelos o necesidades de inferencia.

Para agilizar aún más las operaciones al implementar modelos masivos de razonamiento de IA, las fábricas de IA funcionan con un sistema de gestión de inferencias de alto rendimiento y baja latencia que garantiza que la velocidad y el rendimiento necesarios para el razonamiento de IA se cumplan al menor costo posible para maximizar la generación de ingresos por tokens.

Para obtener más información, lea el libro electrónico AI Inference: Balancing Cost, Latency and Performance.”