NVIDIA reduz custo por token em até 10x com plataforma Blackwell

Imagem de: NVIDIA reduz custo por token em até 10x com plataforma Blackwell

A NVIDIA anunciou um avanço importante na redução de custos em tarefas de inferência de inteligência artificial com a nova plataforma Blackwell.

Segundo a empresa, a arquitetura conseguiu diminuir o custo por token em até 10 vezes quando comparada à geração anterior, a Hopper.

O resultado foi atribuído à estratégia chamada de "extreme codesign", que integra hardware e software desde a fase de desenvolvimento.

De acordo com a NVIDIA, provedores de inferência como a Baseten, DeepInfra, Fireworks AI e Together AI já utilizam a plataforma Blackwell. Essas empresas trabalham com modelos avançados de código aberto que alcançaram nível de inteligência considerado de ponta.

Com a combinação desses modelos, a arquitetura Blackwell e sistemas próprios de inferência ajustados, esses provedores passaram a reduzir de forma expressiva o custo por token para clientes de diferentes setores.

Ao tratar de tokenomics, a NVIDIA também citou empresas como Sully.ai e Latitude. Segundo a companhia, a arquitetura Blackwell contribuiu para menor latência, custos mais baixos de inferência e respostas mais estáveis.

Por isso, a tecnologia tem sido adotada por empresas de IA em grande escala. Já a Sentient Labs disse ter alcançado eficiência de custo entre 25% e 50% superior em comparação com a plataforma Hopper, inclusive em fluxos de trabalho com múltiplos agentes e uso de agentes de IA especializados.

Diagrama de Custo de Cada Token
Créditos da imagem: NVIDIA

Um dos principais elementos por trás desse avanço é o modelo de desenvolvimento integrado adotado pela NVIDIA. A empresa afirma que o método de "extreme codesign" é adequado às arquiteturas MoE (Mixture of Experts), muito utilizadas em modelos atuais.

No sistema GB200 NVL72, são usados 72 chips combinados com 30 TB de memória compartilhada de alta velocidade. Essa estrutura amplia o paralelismo entre especialistas, dividindo lotes de tokens entre diversas GPUs e elevando o volume de comunicação de forma não linear.

Segundo a companhia, isso ajuda a alcançar números mais eficientes de tokenomics na geração Blackwell. A NVIDIA também mencionou planos para a próxima arquitetura, chamada Vera Rubin.

A proposta é ampliar ainda mais a eficiência da infraestrutura, com avanços na arquitetura e uso de mecanismos específicos, como o CPX voltado ao processo de prefill.

Para a empresa, a evolução da inteligência artificial exige não apenas novos chips, mas também melhorias constantes na forma como o hardware é otimizado.

Romário Leite
Fundador do TecFoco. Atua na área de tecnologia há mais de 10 anos, com rotina constante de criação de conteúdo, análise técnica e desenvolvimento de código. Tem ampla experiência com linguagens de programação, sistemas e jogos. Estudou nas universidades UNIPÊ e FIS, tendo passagem também pela UFPB e UEPB. Hoje, usa todo seu conhecimento e experiência para produzir conteúdo focado em tecnologia.