A NVIDIA apresentou o Nemotron 3 Super, um novo modelo aberto da família Nemotron, voltado para cargas agênticas, raciocínio de longo contexto, uso de ferramentas e implementações empresariais de alto volume. O modelo é descrito como um híbrido de Mamba-Transformer MoE, contendo 120 bilhões de parâmetros totais, dos quais 12 bilhões estão ativos durante a inferência, e uma janela de contexto que suporta até 1 milhão de tokens. A revelação ocorreu nos dias 10 e 11 de março por meio do site de pesquisa da NVIDIA, seu blog para desenvolvedores, NIM e Hugging Face.
O anúncio é significativo, pois surge em um momento em que o mercado de Inteligência Artificial aberta se expande além de chatbots e modelos gerais, focando em sistemas que conseguem planejar, chamar ferramentas, manter contexto em sessões longas e operar como base para agentes. A NVIDIA visa posicionar o Nemotron 3 Super como uma solução projetada especificamente para fluxos agênticos complexos, RAG, automação de tickets, programação e raciocínio avançado.
Um dos aspectos mais impressionantes do Nemotron 3 Super é sua arquitetura, que utiliza uma abordagem LatentMoE, combinando camadas Mamba-2, MoE e algumas de atenção. Além disso, incorpora a Multi-Token Prediction (MTP) para acelerar a geração. A empresa afirma que essa combinação melhora a eficiência de memória e computação, mantendo ao mesmo tempo capacidades avançadas de raciocínio e suporte para contextos extensos. A documentação destaca que esta é a primeira versão “Super” da família Nemotron a incluir LatentMoE, MTP e pré-treinamento em NVFP4.
A cifra do milhão de tokens é, sem dúvida, uma das mais impactantes. A NVIDIA afirma que o Nemotron 3 Super suporta uma janela de contexto de até 1 milhão de tokens e, em testes de longo contexto, supera modelos abertos como GPT-OSS-120B e Qwen3.5-122B. Essa ampla janela busca evitar a perda de estado em sistemas agênticos e reduzir o “goal drift”, um problema comum quando um agente precisa manter uma tarefa complexa em diversas interações.
Além de sua arquitetura inovadora, a NVIDIA divulgou comparações de desempenho e eficiência para enfatizar o lançamento. Segundo a empresa, o Nemotron 3 Super consegue até 2,2 vezes mais throughput de inferência que o GPT-OSS-120B e até 7,5 vezes mais que o Qwen3.5-122B, em configurações de entrada e saída específicas, além de oferecer precisão comparável ou superior em vários benchmarks.
NVIDIA também disponibiliza variantes como BF16 e FP8, com diferentes requisitos de hardware. O modelo está projetado para suportar vários idiomas, incluindo o português, e é pensado para fluxos de trabalho agênticos e raciocínio de longo contexto.
O modelo é disponibilizado sob a NVIDIA Nemotron Open Model License, permitindo seu uso comercial e atraindo tanto empresas quanto projetos de código aberto que buscam alternativas a modelos fechados. A expectativa é de que o Nemotron 3 Super não apenas complete o portfólio da NVIDIA, mas também marque uma etapa significativa na evolução do mercado de Inteligência Artificial, onde a eficiência e a integração com uso de ferramentas se tornam cada vez mais cruciais.






