2026-02-17T16:28:46

NVIDIA reduz custo por token em até 10x com plataforma Blackwell

Por Romário Leite 1 hora atrás 1 min de leitura Adicione o TecFoco no Google

A NVIDIA anunciou um avanço importante na redução de custos em tarefas de inferência de inteligência artificial com a nova plataforma Blackwell.

Segundo a empresa, a arquitetura conseguiu diminuir o custo por token em até 10 vezes quando comparada à geração anterior, a Hopper.

O resultado foi atribuído à estratégia chamada de "extreme codesign", que integra hardware e software desde a fase de desenvolvimento.

De acordo com a NVIDIA, provedores de inferência como a Baseten, DeepInfra, Fireworks AI e Together AI já utilizam a plataforma Blackwell. Essas empresas trabalham com modelos avançados de código aberto que alcançaram nível de inteligência considerado de ponta.

Leia também: Samsung inicia envio comercial da HBM4 e integra memória à arquitetura Vera Rubin da NVIDIA

Com a combinação desses modelos, a arquitetura Blackwell e sistemas próprios de inferência ajustados, esses provedores passaram a reduzir de forma expressiva o custo por token para clientes de diferentes setores.

Ao tratar de tokenomics, a NVIDIA também citou empresas como Sully.ai e Latitude. Segundo a companhia, a arquitetura Blackwell contribuiu para menor latência, custos mais baixos de inferência e respostas mais estáveis.

Por isso, a tecnologia tem sido adotada por empresas de IA em grande escala. Já a Sentient Labs disse ter alcançado eficiência de custo entre 25% e 50% superior em comparação com a plataforma Hopper, inclusive em fluxos de trabalho com múltiplos agentes e uso de agentes de IA especializados.

Diagrama de Custo de Cada Token — Créditos da imagem: NVIDIA

Um dos principais elementos por trás desse avanço é o modelo de desenvolvimento integrado adotado pela NVIDIA. A empresa afirma que o método de "extreme codesign" é adequado às arquiteturas MoE (Mixture of Experts), muito utilizadas em modelos atuais.

Leia também: Parceria entre NVIDIA e OpenAI movimenta US$ 100 bilhões e gera debate sobre custos de IA

No sistema GB200 NVL72, são usados 72 chips combinados com 30 TB de memória compartilhada de alta velocidade. Essa estrutura amplia o paralelismo entre especialistas, dividindo lotes de tokens entre diversas GPUs e elevando o volume de comunicação de forma não linear.

Segundo a companhia, isso ajuda a alcançar números mais eficientes de tokenomics na geração Blackwell. A NVIDIA também mencionou planos para a próxima arquitetura, chamada Vera Rubin.

A proposta é ampliar ainda mais a eficiência da infraestrutura, com avanços na arquitetura e uso de mecanismos específicos, como o CPX voltado ao processo de prefill.

Para a empresa, a evolução da inteligência artificial exige não apenas novos chips, mas também melhorias constantes na forma como o hardware é otimizado.

Mais vistos da semana