A corrida pela inteligência artificial de nova geração não ocorre apenas nos modelos, mas também na infraestrutura que os viabiliza. Com a chegada de modelos de raciocínio — capazes de realizar tarefas complexas em vários passos, analisar dados e atuar como agentes autônomos — o gargalo já não está mais na precisão, mas sim na latência e no desempenho de inferência.
Recentemente, a CoreWeave anunciou suas novas instâncias aceleradas com o NVIDIA GB300 NVL72, baseadas nas GPUs Blackwell Ultra, que alcançaram um desempenho 6,5 vezes superior em inferência sobre o modelo DeepSeek R1 em comparação com um cluster de GPUs H100.
A transição de modelos generativos básicos para modelos de raciocínio, como o DeepSeek R1, marca um salto qualitativo: agora, não é suficiente prever a próxima palavra; processos de “chain-of-thought” que envolvem múltiplas iterações e cálculos mais pesados se tornaram essenciais.
Um dos principais desafios é que esses modelos são extremamente sensíveis à latência. Um atraso na inferência pode torná-los ineficazes em aplicações em tempo real, como copilotagem de programação, agentes financeiros ou assistentes científicos.
A CoreWeave realizou uma comparação entre duas configurações: uma com 16 GPUs NVIDIA H100 em uma configuração de tensor parallelism 16-way (TP16) e outra com apenas 4 GPUs NVIDIA GB300 em uma infraestrutura NVL72, utilizando tensor parallelism 4-way (TP4). O resultado foi impressionante: com apenas um quarto das GPUs, a configuração com GB300 alcançou 6,5 vezes mais tokens por segundo, reduzindo drasticamente a sobrecarga de comunicação entre GPUs.
Para os clientes, isso se traduz em geração de tokens mais rápida, menor latência e um uso mais eficiente de recursos. O salto de desempenho se deve a um redesenho radical da arquitetura, que inclui uma memória imensa de até 37–40 TB, interconexões ultrarrápidas com NVLink, e uma rede otimizada end-to-end com o NVIDIA Quantum-X800 InfiniBand.
Além do hardware, a CoreWeave desenvolveu uma pilha de IA em nuvem para maximizar o potencial do GB300 NVL72, incluindo um Rack LifeCycle Controller, integração com Kubernetes e monitoramento avançado com dashboards do Grafana.
A eficiência alcançada pela CoreWeave não é apenas um marco técnico, mas um verdadeiro mudança de paradigma empresarial. Com isso, as empresas poderão acelerar a inovação, reduzir custos e confiar em uma infraestrutura de nuvem projetada para cargas de IA, com resiliência e confiabilidade.
O NVIDIA GB300 NVL72, implementado em larga escala pela CoreWeave, demonstra que os modelos de raciocínio já são uma realidade operacional. Esta combinação de maior memória, largura de banda extrema e uma nuvem otimizada permitirá a execução de modelos de próxima geração em tempo real, com custos reduzidos e escalabilidade mais eficiente que nunca.
Em um momento em que a indústria avança em direção a modelos de trilhões de parâmetros, este benchmark sugere que o futuro da IA em grande escala passa por arquiteturas como a do GB300 NVL72, onde hardware e software trabalham em perfeita harmonia.