A NVIDIA anunciou um avanço importante na redução de custos em tarefas de inferência de inteligência artificial com a nova plataforma Blackwell.
Segundo a empresa, a arquitetura conseguiu diminuir o custo por token em até 10 vezes quando comparada à geração anterior, a Hopper.
O resultado foi atribuído à estratégia chamada de "extreme codesign", que integra hardware e software desde a fase de desenvolvimento.
De acordo com a NVIDIA, provedores de inferência como a Baseten, DeepInfra, Fireworks AI e Together AI já utilizam a plataforma Blackwell. Essas empresas trabalham com modelos avançados de código aberto que alcançaram nível de inteligência considerado de ponta.
- Leia também: Samsung inicia envio comercial da HBM4 e integra memória à arquitetura Vera Rubin da NVIDIA
Com a combinação desses modelos, a arquitetura Blackwell e sistemas próprios de inferência ajustados, esses provedores passaram a reduzir de forma expressiva o custo por token para clientes de diferentes setores.
Ao tratar de tokenomics, a NVIDIA também citou empresas como Sully.ai e Latitude. Segundo a companhia, a arquitetura Blackwell contribuiu para menor latência, custos mais baixos de inferência e respostas mais estáveis.
Por isso, a tecnologia tem sido adotada por empresas de IA em grande escala. Já a Sentient Labs disse ter alcançado eficiência de custo entre 25% e 50% superior em comparação com a plataforma Hopper, inclusive em fluxos de trabalho com múltiplos agentes e uso de agentes de IA especializados.

Um dos principais elementos por trás desse avanço é o modelo de desenvolvimento integrado adotado pela NVIDIA. A empresa afirma que o método de "extreme codesign" é adequado às arquiteturas MoE (Mixture of Experts), muito utilizadas em modelos atuais.
- Leia também: Parceria entre NVIDIA e OpenAI movimenta US$ 100 bilhões e gera debate sobre custos de IA
No sistema GB200 NVL72, são usados 72 chips combinados com 30 TB de memória compartilhada de alta velocidade. Essa estrutura amplia o paralelismo entre especialistas, dividindo lotes de tokens entre diversas GPUs e elevando o volume de comunicação de forma não linear.
Segundo a companhia, isso ajuda a alcançar números mais eficientes de tokenomics na geração Blackwell. A NVIDIA também mencionou planos para a próxima arquitetura, chamada Vera Rubin.
A proposta é ampliar ainda mais a eficiência da infraestrutura, com avanços na arquitetura e uso de mecanismos específicos, como o CPX voltado ao processo de prefill.
Para a empresa, a evolução da inteligência artificial exige não apenas novos chips, mas também melhorias constantes na forma como o hardware é otimizado.








