Repensando el TCO de la AI: Por Qué el Costo por Token es la Única Métrica que Importa

por Shruti Koparkar

Los data centers tradicionales solo almacenaban, recuperaban y procesaban datos. En la era de la IA generativa y agéntica, estas instalaciones han evolucionado hacia fábricas de tokens de IA. Con la inferencia de AI convirtiéndose en su carga de trabajo principal, su resultado primario es inteligencia fabricada en forma de tokens.

Esta transformación exige un cambio correspondiente en la forma de evaluar la economía de la infraestructura de AI, incluido el costo total de propiedad (TCO). Las empresas que evalúan infraestructura de AI todavía se centran con demasiada frecuencia en las especificaciones máximas de los chips, el costo de cómputo o las operaciones en punto flotante por segundo por cada dólar gastado, es decir, FLOPS por dólar.

La distinción que importa es esta:

  • Costo de cómputo: es lo que las empresas pagan por la infraestructura de AI, ya sea alquilada a proveedores de nube o propia en instalaciones locales.
  • FLOPS por dólar: es cuánta capacidad de cómputo bruta obtiene una empresa por cada dólar gastado, pero el cómputo bruto y el rendimiento real de tokens no son lo mismo.
  • Costo por token: es el costo total de una empresa para producir cada token entregado, generalmente representado como costo por millón de tokens.

Las dos primeras son simplemente métricas de entrada. Optimizar las entradas mientras el negocio opera en función de las salidas es una incompatibilidad fundamental.

El costo por token determina si las empresas pueden escalar la IA de manera rentable. Es la única métrica de TCO que tiene en cuenta directamente el rendimiento del hardware, la optimización de software, el soporte del ecosistema y la utilización en el mundo real —y NVIDIA ofrece el menor costo por token de la industria.

¿Cuáles Son los Factores que Reducen el Costo por Token?

Entender cómo optimizar el costo por token requiere analizar la ecuación para calcular el costo por millón de tokens.

Una ecuación que describe cómo calcular el costo por millón de tokens. Costo por millón de tokens = [costo por GPU por hora / (tokens por GPU por segundo x 60 segundos x 60 minutos)] x 1 millón.

En esta ecuación, muchas empresas que evalúan infraestructura de AI se centran en el numerador: el costo por GPU por hora. Para despliegues en la nube, esta es la tarifa por hora pagada al proveedor de nube; para despliegues en instalaciones locales, es el costo efectivo por hora derivado de la amortización de la infraestructura propia. La clave real para reducir el costo por token, sin embargo, está en el denominador: maximizar el rendimiento de tokens entregados.

Ese denominador tiene dos implicaciones empresariales.

  • Minimizar el costo por token: Cuando este aumento en el rendimiento de tokens se refleja en la ecuación de costos, reduce el costo por token, que es lo que aumenta el margen de beneficio en cada interacción servida.
  • Maximizar los ingresos: Más tokens entregados por segundo también se traduce en más tokens por megavatio, lo que significa más inteligencia disponible para usar en productos y servicios impulsados por AI, generando más ingresos de la misma inversión en infraestructura.

Entonces, centrarse solo en el numerador significa perder de vista lo que impulsa el denominador. Piénselo como un «iceberg de inferencia»: El numerador está sobre la superficie, visible y fácil de comparar. El denominador es todo lo que está debajo de la superficie, que representa los factores clave que determinan el rendimiento real de tokens. Evaluar con precisión la infraestructura de AI comienza por preguntarse qué hay debajo.

Imagen que describe el "iceberg de inferencia." La parte superior del iceberg se caracteriza por las especificaciones máximas del chip, como FLOPS y memoria de alto ancho de banda (costo por GPU por hora, FLOPS por dólar). La parte inferior del iceberg se caracteriza por un codiseño extremo entre cómputo, redes, software, memoria, almacenamiento y ecosistema (costo por token, tokens por vatio).

  • Consulta superficial:
    • ¿Cuál es el costo por hora de GPU?
    • ¿Cuáles son los petaflops máximos y la capacidad de memoria de alto ancho de banda?
    • ¿Cuáles son los FLOPS por dólar?
  • Análisis de costos en profundidad:

Cada una de estas optimizaciones algorítmicas, de hardware y de software debe estar activa e integrada, o el denominador colapsará. Un GPU «más barato» que entrega significativamente menos tokens por segundo resulta en un costo por token mucho más alto. La infraestructura de AI que lo hace bien en toda la pila garantiza que cada optimización potencie a las demás.

¿Por Qué el Costo por Token Importa Mucho Más que los FLOPS por Dólar?

Los siguientes datos del modelo de AI DeepSeek-R1 demuestran la diferencia entre los resultados teóricos y los resultados empresariales reales.

Analizando solo el costo de cómputo, la plataforma NVIDIA Blackwell parece costar aproximadamente 2 veces más que NVIDIA Hopper —pero el costo de cómputo no dice nada sobre el rendimiento que esa inversión compra. Un análisis de meros FLOPS por dólar sugiere una ventaja de 2 veces de NVIDIA Blackwell en comparación con la arquitectura NVIDIA Hopper. Sin embargo, el resultado real es órdenes de magnitud diferente: Blackwell ofrece más de 50 veces mayor rendimiento de tokens por vatio que Hopper, resultando en un costo por millón de tokens casi 35 veces menor.

Métrica NVIDIA Hopper (HGX H200) NVIDIA Blackwell (GB300 NVL72) NVIDIA Blackwell vs. Hopper
Costo por GPU por Hora ($) $1.41 $2.65 2x
FLOP por Dólar (PFLOPS) 2.8 5.6 2x
Tokens por Segundo por GPU 90 6,000 65x
Tokens por Segundo por MW 54K 2.8M 50x
Costo por Millón de Tokens ($) $4.20 $0.12 35x menor

Nota: Los datos provienen del análisis de NVIDIA y del benchmark SemiAnalysis InferenceX v2.

Esta enorme divergencia demuestra que NVIDIA Blackwell ofrece un salto masivo en valor empresarial respecto a la generación Hopper anterior, que supera con creces cualquier aumento en el costo del sistema.

Cómo Elegir la Infraestructura de AI Correcta

Comparar infraestructura de AI basándose en el costo de cómputo o los FLOPS teóricos por dólar no solo es insuficiente; no proporciona una representación precisa de la economía de la inferencia. Como demuestran los datos, una evaluación precisa del potencial de ingresos y la rentabilidad de la infraestructura de AI requiere un cambio de las métricas de entrada al costo por token y el rendimiento de tokens entregados.

NVIDIA ofrece el menor costo por token y el mayor throughput de tokens de la industria mediante un codiseño extremo entre cómputo, redes, memoria, almacenamiento, software y tecnologías de socios. Además, la optimización continua de software de inferencia de código abierto como vLLM, SGLang, NVIDIA TensorRT-LLM y NVIDIA Dynamo, construido sobre la plataforma NVIDIA, significa que en la infraestructura NVIDIA existente, el rendimiento de tokens sigue aumentando y el costo por token sigue bajando mucho después de su adquisición.

Los principales proveedores de nube y socios de nube de NVIDIA ya están entregando esta ventaja a escala. Socios como CoreWeave, Nebius, Nscale y Together AI han desplegado infraestructura NVIDIA Blackwell y optimizado sus pilas para brindar a las empresas el menor costo por token disponible hoy, con el pleno beneficio del codiseño de hardware, software y ecosistema de NVIDIA detrás de cada interacción servida.