Microsoft Lança Primeiro Cluster de Supercomputação para IA com NVIDIA GB300 NVL72
São Paulo, 12 de outubro de 2023 – A Microsoft anunciou a implementação do primeiro cluster em larga escala com a tecnologia NVIDIA GB300 NVL72, projetado especificamente para treinamentos de inteligência artificial, em colaboração com a OpenAI. A empresa, com sede em Redmond, confirmou que mais de 4.600 sistemas GB300 NVL72 foram implantados, todos interconectados pela nova rede NVIDIA InfiniBand Quantum-X800, marcando um avanço sem precedentes na infraestrutura de IA.
De acordo com Ian Buck, vice-presidente da Hyperscale and High-performance Computing da NVIDIA, este sistema “representa o primeiro cluster GB300 de produção em escala do mundo, um motor de supercomputação que a OpenAI precisa para servir modelos multibilionários em parâmetros”. O desenvolvimento promete revolucionar o tempo de treinamento, permitindo que processos que antes levavam meses sejam concluídos em questão de semanas.
Ambições Futuras
A Microsoft enfatiza que este cluster é o primeiro de muitos; a expectativa é escalar a infraestrutura com centenas de milhares de GPUs Blackwell Ultra em seus centros de dados globais. Com isso, a empresa busca não apenas acelerar o treinamento de modelos de IA de última geração, mas também melhorar o desempenho de inferência em produção, oferecendo respostas mais rápidas e contextos mais amplos.
Avanços Tecnológicos
Os novos racks de ND GB300 v6 incorporam um design focado em IA agêntica e multimodal, com cada rack contendo 72 GPUs e 36 CPUs Grace. A tecnologia de distribuição de memória e largura de banda foi otimizada para permitir uma comunicação mais eficiente, essencial para o funcionamento de modelos complexos.
O modelo fat-tree não bloqueante com InfiniBand Quantum-X800 vai além, permitindo que clientes escalem treinamentos de modelos sem complicações, aumentando a eficácia das GPUs e reduzindo custos operacionais significativamente.
Impactos no Ecossistema de IA
Para a OpenAI e outros clientes da Azure, a implementação do GB300 NVL72 representa um novo patamar no treinamento e na inferência de modelos, prometendo atender a demandas crescentes por respostas mais ágeis e relevantes. A empresa afirma que, com a nova infraestrutura, será possível atender a casos de uso que antes eram limitados por restrições tecnológicas.
Com anos de investimento em infraestrutura de IA, a Microsoft está equipada para expandir rapidamente sua capacidade global, permitindo um avanço significativo na criação e no uso de modelos de IA cada vez mais sofisticados e eficientes.


