Repensando el TCO de la AI: Por Qué el Costo por Token es la Única Métrica que Importa - Blog oficial de NVIDIA Latino América

Los data centers tradicionales solo almacenaban, recuperaban y procesaban datos. En la era de la IA generativa y agéntica, estas instalaciones han evolucionado hacia fábricas de tokens de IA. Con la inferencia de AI convirtiéndose en su carga de trabajo principal, su resultado primario es inteligencia fabricada en forma de tokens.

Esta transformación exige un cambio correspondiente en la forma de evaluar la economía de la infraestructura de AI, incluido el costo total de propiedad (TCO). Las empresas que evalúan infraestructura de AI todavía se centran con demasiada frecuencia en las especificaciones máximas de los chips, el costo de cómputo o las operaciones en punto flotante por segundo por cada dólar gastado, es decir, FLOPS por dólar.

La distinción que importa es esta:

Costo de cómputo: es lo que las empresas pagan por la infraestructura de AI, ya sea alquilada a proveedores de nube o propia en instalaciones locales.
FLOPS por dólar: es cuánta capacidad de cómputo bruta obtiene una empresa por cada dólar gastado, pero el cómputo bruto y el rendimiento real de tokens no son lo mismo.
Costo por token: es el costo total de una empresa para producir cada token entregado, generalmente representado como costo por millón de tokens.

Las dos primeras son simplemente métricas de entrada. Optimizar las entradas mientras el negocio opera en función de las salidas es una incompatibilidad fundamental.

El costo por token determina si las empresas pueden escalar la IA de manera rentable. Es la única métrica de TCO que tiene en cuenta directamente el rendimiento del hardware, la optimización de software, el soporte del ecosistema y la utilización en el mundo real —y NVIDIA ofrece el menor costo por token de la industria.

¿Cuáles Son los Factores que Reducen el Costo por Token?

Entender cómo optimizar el costo por token requiere analizar la ecuación para calcular el costo por millón de tokens.

En esta ecuación, muchas empresas que evalúan infraestructura de AI se centran en el numerador: el costo por GPU por hora. Para despliegues en la nube, esta es la tarifa por hora pagada al proveedor de nube; para despliegues en instalaciones locales, es el costo efectivo por hora derivado de la amortización de la infraestructura propia. La clave real para reducir el costo por token, sin embargo, está en el denominador: maximizar el rendimiento de tokens entregados.

Ese denominador tiene dos implicaciones empresariales.

Minimizar el costo por token: Cuando este aumento en el rendimiento de tokens se refleja en la ecuación de costos, reduce el costo por token, que es lo que aumenta el margen de beneficio en cada interacción servida.
Maximizar los ingresos: Más tokens entregados por segundo también se traduce en más tokens por megavatio, lo que significa más inteligencia disponible para usar en productos y servicios impulsados por AI, generando más ingresos de la misma inversión en infraestructura.

Entonces, centrarse solo en el numerador significa perder de vista lo que impulsa el denominador. Piénselo como un «iceberg de inferencia»: El numerador está sobre la superficie, visible y fácil de comparar. El denominador es todo lo que está debajo de la superficie, que representa los factores clave que determinan el rendimiento real de tokens. Evaluar con precisión la infraestructura de AI comienza por preguntarse qué hay debajo.

Consulta superficial:
- ¿Cuál es el costo por hora de GPU?
- ¿Cuáles son los petaflops máximos y la capacidad de memoria de alto ancho de banda?
- ¿Cuáles son los FLOPS por dólar?
Análisis de costos en profundidad:
- ¿Cuál es el costo por millón de tokens? En concreto, ¿cuál es el costo por millón de tokens para los modelos de razonamiento MoE de gran escala, que representan el tipo de modelos de AI más ampliamente desplegado?
- ¿Cuál es el rendimiento de tokens entregados por megavatio? Especialmente para despliegues locales, donde el compromiso de capital en terreno, energía e infraestructura es sustancial, maximizar la inteligencia producida por megavatio es crítico.
- ¿Puede el interconnect de scale-up manejar el tráfico «all-to-all» de los modelos MoE?
- ¿Se admite precisión FP4? ¿Puede la pila de inferencia utilizar FP4 manteniendo alta precisión?
- ¿Admite el runtime de inferencia decodificación especulativa o predicción multi-token para aumentar la interactividad del usuario?
- ¿Admite la capa de serving serving desagregado, enrutamiento KV-aware, descarga de KV-cache y otras optimizaciones?
- ¿Admite la plataforma los requisitos únicos de carga de trabajo de la IA basada en agentes, incluida la latencia ultrarrápida, el alto throughput y las grandes longitudes de secuencia de entrada?
- ¿Admite la plataforma el ciclo de vida completo, desde el entrenamiento y post-entrenamiento hasta la inferencia a gran escala, en todas las arquitecturas de modelos, para garantizar la fungibilidad de la infraestructura y una alta utilización?

Cada una de estas optimizaciones algorítmicas, de hardware y de software debe estar activa e integrada, o el denominador colapsará. Un GPU «más barato» que entrega significativamente menos tokens por segundo resulta en un costo por token mucho más alto. La infraestructura de AI que lo hace bien en toda la pila garantiza que cada optimización potencie a las demás.

¿Por Qué el Costo por Token Importa Mucho Más que los FLOPS por Dólar?

Los siguientes datos del modelo de AI DeepSeek-R1 demuestran la diferencia entre los resultados teóricos y los resultados empresariales reales.

Analizando solo el costo de cómputo, la plataforma NVIDIA Blackwell parece costar aproximadamente 2 veces más que NVIDIA Hopper —pero el costo de cómputo no dice nada sobre el rendimiento que esa inversión compra. Un análisis de meros FLOPS por dólar sugiere una ventaja de 2 veces de NVIDIA Blackwell en comparación con la arquitectura NVIDIA Hopper. Sin embargo, el resultado real es órdenes de magnitud diferente: Blackwell ofrece más de 50 veces mayor rendimiento de tokens por vatio que Hopper, resultando en un costo por millón de tokens casi 35 veces menor.

Métrica	NVIDIA Hopper (HGX H200)	NVIDIA Blackwell (GB300 NVL72)	NVIDIA Blackwell vs. Hopper
Costo por GPU por Hora ($)	$1.41	$2.65	2x
FLOP por Dólar (PFLOPS)	2.8	5.6	2x
Tokens por Segundo por GPU	90	6,000	65x
Tokens por Segundo por MW	54K	2.8M	50x
Costo por Millón de Tokens ($)	$4.20	$0.12	35x menor

Nota: Los datos provienen del análisis de NVIDIA y del benchmark SemiAnalysis InferenceX v2.

Esta enorme divergencia demuestra que NVIDIA Blackwell ofrece un salto masivo en valor empresarial respecto a la generación Hopper anterior, que supera con creces cualquier aumento en el costo del sistema.

Cómo Elegir la Infraestructura de AI Correcta

Comparar infraestructura de AI basándose en el costo de cómputo o los FLOPS teóricos por dólar no solo es insuficiente; no proporciona una representación precisa de la economía de la inferencia. Como demuestran los datos, una evaluación precisa del potencial de ingresos y la rentabilidad de la infraestructura de AI requiere un cambio de las métricas de entrada al costo por token y el rendimiento de tokens entregados.

NVIDIA ofrece el menor costo por token y el mayor throughput de tokens de la industria mediante un codiseño extremo entre cómputo, redes, memoria, almacenamiento, software y tecnologías de socios. Además, la optimización continua de software de inferencia de código abierto como vLLM, SGLang, NVIDIA TensorRT-LLM y NVIDIA Dynamo, construido sobre la plataforma NVIDIA, significa que en la infraestructura NVIDIA existente, el rendimiento de tokens sigue aumentando y el costo por token sigue bajando mucho después de su adquisición.

Los principales proveedores de nube y socios de nube de NVIDIA ya están entregando esta ventaja a escala. Socios como CoreWeave, Nebius, Nscale y Together AI han desplegado infraestructura NVIDIA Blackwell y optimizado sus pilas para brindar a las empresas el menor costo por token disponible hoy, con el pleno beneficio del codiseño de hardware, software y ecosistema de NVIDIA detrás de cada interacción servida.