O debate sobre a infraestrutura de Inteligência Artificial está se alejando da discussão única sobre “desempenho bruto” e começa a focar em um aspecto mais pragmático: o custo para atender cada token. À medida que a demanda por respostas rápidas e uma boa “sensação” de interação cresce, os modelos MoE (Mixture of Experts) colocam a indústria diante de um desafio importante: a comunicação entre nós e a latência interna se tornam quase tão relevantes quanto o poder de cálculo.
Neste contexto, a empresa Signal65 publicou uma análise sobre o que chama de “nova economia da inferência” para MoE, comparando plataformas da NVIDIA e da AMD. O estudo destaca que o custo relativo por token depende do custo da plataforma e da quantidade de tokens por segundo que ela realmente entrega em termos de interatividade. A conclusão é impressionante: em uma configuração voltada para MoE, um rack NVIDIA GB200 NVL72 pode oferecer até 28 vezes mais throughput por GPU em comparação com a AMD MI355X, mantendo um nível alto de interatividade (75 tokens/segundo/usuário), tradando em até 15 vezes mais “performance por dólar”.
Os modelos MoE operam ativando “especialistas” (sub-redes especializadas) de forma dinâmica, oferecendo mais eficiência em relação aos modelos densos, mas também exigindo um grande volume de troca de dados. Quando um MoE é escalado, surgem padrões de comunicação que prejudicam a latência e pressionam a largura de banda. Assim, a NVIDIA foca na ideia de rack-scale, que combina computação e memória de alta velocidade para minimizar esses custos associados ao movimento de dados.
Por sua vez, a AMD expõe sua linha Instinct, centrada em memória e largura de banda, com o MI355X posicionado como um acelerador que oferece 288 GB de HBM3E e até 8 TB/s de largura de banda. Embora AMD tenha um produto competitivo em termos de densidade de memória, o debate gira em torno de quem domina melhor o “tecido conectivo” de seus sistemas.
O relatório da Signal65 utiliza medições de desempenho de terceiros para traçar um panorama claro das diferenças entre as plataformas. Para um objetivo de 25 tokens por segundo por usuário, a análise conclui que a GB200 supera a MI355X em termos de custo e performance. À medida que a interação desejada aumenta para 75 tokens, a disparidade torna-se ainda mais acentuada. No entanto, é importante ressaltar que esses números se baseiam em um cenário específico e devem ser filtrados através de uma análise mais profunda do contexto operacional.
Esses resultados ressaltam que no cenário de MoE, onde a comunicação interna e a latência são cruciais, a arquitetura do sistema completo é um fator determinante para a economia da inferência, mesmo que o concorrente ofereça aceleradores com especificações atraentes. A tendência é que, à medida que o setor avança em direção a experiências cada vez mais interativas, a métrica de tokens por segundo a objetivos de latência específica possa se tornar um indicador-chave de desempenho.





