Microsoft anuncia Maia 200, novo acelerador de inferência para IA
A Microsoft revelou recentemente o Maia 200, um inovador acelerador de inferência voltado para reduzir significativamente os custos e melhorar a eficiência na execução de modelos de inteligência artificial em larga escala em data centers. Essa ferramenta é apresentada como um componente central da infraestrutura heterogênea da empresa, permitindo a aplicação de diversos modelos, incluindo o GPT-5.2 da OpenAI, nos serviços Microsoft Foundry e Microsoft 365 Copilot.
Este lançamento ocorre em um momento crucial, onde a indústria começa a valorizar mais a relação custo-benefício, a capacidade de memória, a eficiência energética e a movimentação de dados, em vez de apenas medir o desempenho por “FLOPS brutos”. Assim, a Microsoft busca não apenas reduzir os custos de inferência, que são responsáveis pelo aumento das despesas operacionais, mas também controlar toda a cadeia tecnológica — desde o silício até o software — para otimizar ainda mais.
O novo Maia 200, fabricado em tecnologia de 3 nanômetros, oferece uma arquitetura otimizada para precisão baixa (FP8/FP4), que se tornou comum na inferência em larga escala. A empresa destaca três aspectos essenciais desse acelerador: a computação de baixa precisão que maximiza a produção de tokens, um subsistema de memória redesenhado para suportar modelos grandes sem comprometer a execução e uma rede escalável apoiada pelo Ethernet que permite a criação de clusters densos sem a necessidade de malhas proprietárias.
Além disso, a Microsoft já iniciou os primeiros testes do Maia 200 em sua região US Central, com planos de expansão para outras áreas, incluindo US West 3, na Califórnia.
As especificações do Maia 200 incluem mais de 140 bilhões de transistores, 216 GB de memória HBM3e com um impressionante bandwidth de 7 TB/s, e um desempenho de pico superior a 10 petaFLOPS em FP4 e 5 petaFLOPS em FP8. A estimativa é que o novo chip ofereça aproximadamente 30% de melhora no desempenho por dólar em comparação ao hardware mais recente utilizado pela Microsoft.
Com uma abordagem que vai além do aumento de FLOPS, o Maia 200 promete uma experiência de inferência mais eficiente, ao integrar subsistemas de memória e redes que suportam o fluxo de dados necessário, garantindo um desempenho robusto em operações práticas. A nova ferramenta será disponibilizada através do Maia SDK, que se integra ao PyTorch, permitindo uma programação otimizada e um desenvolvimento mais ágil.






