A NVIDIA anunciou uma nova versão de sua família de modelos de linguagem abertos chamada Nemotron 3 Super. A atualização amplia as capacidades da linha Nemotron e passa a focar em aplicações de inteligência artificial baseadas em agentes, conhecidas como agentic AI.
Esse tipo de sistema executa tarefas de forma autônoma, analisando informações e tomando decisões com pouca intervenção humana.
O novo modelo foi projetado para rodar esse tipo de carga de trabalho em larga escala, o que também o torna uma opção adequada para agentes como o OpenClaw.
No cenário global de modelos abertos de inteligência artificial, muitas pessoas costumam citar laboratórios chineses como Kimi e Qwen. Mesmo assim, a linha Nemotron da NVIDIA tem papel central nesse campo.
O desenvolvimento de IA costuma ser dividido em uma estrutura de cinco camadas que inclui infraestrutura, hardware, plataformas e modelos.
A empresa já domina o setor de chips e infraestrutura e também investe na criação de modelos abertos no Ocidente. Dentro dessa estratégia, o Nemotron 3 Super surge como uma evolução voltada para sistemas autônomos.
Um dos principais pontos técnicos do modelo é a arquitetura híbrida chamada Mamba-MoE. Em modelos tradicionais baseados apenas em MoE (Mixture of Experts), o processamento segue um fluxo padrão.
Já no Nemotron 3 Super, a NVIDIA mudou a forma como o modelo interpreta os dados. A tecnologia Mamba utiliza o chamado State Space Model (SSM) para ler informações de maneira linear.
Esse método reduz a acumulação de contexto irrelevante e melhora o uso da janela de contexto. Com a combinação Mamba-MoE, o modelo consegue manter um volume grande de informações úteis durante o processamento, o que melhora a geração de respostas em sistemas de agentes.
A própria NVIDIA descreve algumas características técnicas do modelo. Segundo a empresa, a arquitetura híbrida utiliza camadas Mamba que aumentam a eficiência de memória e processamento em até quatro vezes, enquanto camadas baseadas em transformadores são usadas para tarefas de raciocínio mais complexas.
O modelo conta com 120 bilhões de parâmetros, mas somente 12 bilhões ficam ativos durante o processo de inferência. Outra tecnologia citada é o Latent MoE, que ativa quatro especialistas virtuais com o custo computacional de apenas um para gerar o próximo token.
O sistema também utiliza previsão de múltiplos tokens, técnica que tenta antecipar várias palavras ao mesmo tempo, o que pode acelerar a inferência em até três vezes.
Além da arquitetura interna, outro ponto importante do Nemotron 3 Super é a janela de contexto de um milhão de tokens. Esse valor é quatro vezes maior do que o usado pelo modelo Kimi 2.5.
Em sistemas baseados em agentes, existe uma regra comum: quanto maior a janela de contexto, maior a quantidade de informação que o modelo consegue considerar ao formular uma resposta.
Isso ajuda a manter coerência em tarefas longas ou complexas. Mesmo tendo 120 bilhões de parâmetros, o Nemotron 3 Super chega perto do desempenho de modelos maiores, como o Opus 4.5, quando analisado sob esse aspecto.

A NVIDIA também realizou testes com o Nemotron 3 Super em um conjunto de avaliação chamado PinchBench, usado para medir desempenho de agentes de IA. No teste completo, o modelo alcançou 85,6% de pontuação.
- Leia também: Samsung inicia envio comercial da HBM4 e integra memória à arquitetura Vera Rubin da NVIDIA
O resultado ficou acima de Opus 4.5, Kimi 2.5 e GPT-OSS 120B. Nos experimentos com OpenClaw, a empresa afirma que o novo modelo cria uma categoria diferente de desempenho para tarefas extensas.
Outro ponto citado é que esse tipo de carga de trabalho pode ser executado com apenas uma GPU, o que reduz as exigências de hardware em comparação com outros sistemas.
O lançamento do Nemotron 3 Super também indica uma direção para o desenvolvimento de sistemas agentic AI nos próximos anos. Com melhorias na eficiência computacional e na arquitetura dos modelos, muitos projetos passam a superar limitações tradicionais de processamento.
Esse cenário aumenta o interesse por execução de modelos em ambientes locais ou na chamada edge computing, onde o processamento ocorre mais próximo do usuário ou do dispositivo final.
O Nemotron 3 Super veio para ampliar a linha de modelos abertos da NVIDIA com foco em inteligência artificial baseada em agentes.
A combinação da arquitetura Mamba-MoE, da janela de contexto de um milhão de tokens e de técnicas que reduzem o custo de inferência cria um modelo voltado para tarefas complexas que exigem análise de grandes volumes de informação.








