CoreWeave demonstra um salto de 6,5x em desempenho de GPU com NVIDIA GB300 NVL72 em comparação com H100 no modelo de raciocínio DeepSeek R1.

A corrida pela inteligência artificial de nova geração não ocorre apenas nos modelos, mas também na infraestrutura que os viabiliza. Com a chegada de modelos de raciocínio — capazes de realizar tarefas complexas em vários passos, analisar dados e atuar como agentes autônomos — o gargalo já não está mais na precisão, mas sim na latência e no desempenho de inferência.

Recentemente, a CoreWeave anunciou suas novas instâncias aceleradas com o NVIDIA GB300 NVL72, baseadas nas GPUs Blackwell Ultra, que alcançaram um desempenho 6,5 vezes superior em inferência sobre o modelo DeepSeek R1 em comparação com um cluster de GPUs H100.

A transição de modelos generativos básicos para modelos de raciocínio, como o DeepSeek R1, marca um salto qualitativo: agora, não é suficiente prever a próxima palavra; processos de “chain-of-thought” que envolvem múltiplas iterações e cálculos mais pesados se tornaram essenciais.

Um dos principais desafios é que esses modelos são extremamente sensíveis à latência. Um atraso na inferência pode torná-los ineficazes em aplicações em tempo real, como copilotagem de programação, agentes financeiros ou assistentes científicos.

A CoreWeave realizou uma comparação entre duas configurações: uma com 16 GPUs NVIDIA H100 em uma configuração de tensor parallelism 16-way (TP16) e outra com apenas 4 GPUs NVIDIA GB300 em uma infraestrutura NVL72, utilizando tensor parallelism 4-way (TP4). O resultado foi impressionante: com apenas um quarto das GPUs, a configuração com GB300 alcançou 6,5 vezes mais tokens por segundo, reduzindo drasticamente a sobrecarga de comunicação entre GPUs.

Para os clientes, isso se traduz em geração de tokens mais rápida, menor latência e um uso mais eficiente de recursos. O salto de desempenho se deve a um redesenho radical da arquitetura, que inclui uma memória imensa de até 37–40 TB, interconexões ultrarrápidas com NVLink, e uma rede otimizada end-to-end com o NVIDIA Quantum-X800 InfiniBand.

Além do hardware, a CoreWeave desenvolveu uma pilha de IA em nuvem para maximizar o potencial do GB300 NVL72, incluindo um Rack LifeCycle Controller, integração com Kubernetes e monitoramento avançado com dashboards do Grafana.

A eficiência alcançada pela CoreWeave não é apenas um marco técnico, mas um verdadeiro mudança de paradigma empresarial. Com isso, as empresas poderão acelerar a inovação, reduzir custos e confiar em uma infraestrutura de nuvem projetada para cargas de IA, com resiliência e confiabilidade.

O NVIDIA GB300 NVL72, implementado em larga escala pela CoreWeave, demonstra que os modelos de raciocínio já são uma realidade operacional. Esta combinação de maior memória, largura de banda extrema e uma nuvem otimizada permitirá a execução de modelos de próxima geração em tempo real, com custos reduzidos e escalabilidade mais eficiente que nunca.

Em um momento em que a indústria avança em direção a modelos de trilhões de parâmetros, este benchmark sugere que o futuro da IA em grande escala passa por arquiteturas como a do GB300 NVL72, onde hardware e software trabalham em perfeita harmonia.

CoreWeave demonstra um salto de 6,5x em desempenho de GPU com NVIDIA GB300 NVL72 em comparação com H100 no modelo de raciocínio DeepSeek R1.

Notícias Tecnologia

Related Posts

Funcionários taiwaneses afirmam que tarifas dos EUA teriam impacto limitado na TSMC

Google apresenta o Ironwood: seu TPU para liderar a inferência de modelos de raciocínio na era exaescala

O “LaLigaGate” chega ao Congresso: ERC exige explicações ao Governo pelos bloqueios massivos de Internet

Recommended

Gigas e Albadoc se unem para impulsionar a transformação digital da gestão documental na nuvem

Linux é obsoleto: O debate que moldou o futuro dos sistemas operacionais

Popular News

O muro invisível da Nuvem: Quando os gigantes tecnológicos se tornam inacessíveis em crises

Lisboa Destaca-se como um dos Principais Centros de Crescimento das Rendas Imobiliárias

Gartner 2025: os agentes de IA e os dados preparados marcam o roteiro tecnológico

SK hynix marca um marco com o primeiro NAND QLC de 321 camadas: o futuro do armazenamento para a era da IA

Refrigeração líquida: de opção experimental a imperativo nos data centers

Connect with us

Welcome Back!

Retrieve your password