NVIDIA se destaca (com números) na era MoE: Signal65 estima que GB200 NVL72 pode ser até 15× mais rentável por token do que AMD MI355X

O debate sobre a infraestrutura de Inteligência Artificial está se alejando da discussão única sobre “desempenho bruto” e começa a focar em um aspecto mais pragmático: o custo para atender cada token. À medida que a demanda por respostas rápidas e uma boa “sensação” de interação cresce, os modelos MoE (Mixture of Experts) colocam a indústria diante de um desafio importante: a comunicação entre nós e a latência interna se tornam quase tão relevantes quanto o poder de cálculo.

Neste contexto, a empresa Signal65 publicou uma análise sobre o que chama de “nova economia da inferência” para MoE, comparando plataformas da NVIDIA e da AMD. O estudo destaca que o custo relativo por token depende do custo da plataforma e da quantidade de tokens por segundo que ela realmente entrega em termos de interatividade. A conclusão é impressionante: em uma configuração voltada para MoE, um rack NVIDIA GB200 NVL72 pode oferecer até 28 vezes mais throughput por GPU em comparação com a AMD MI355X, mantendo um nível alto de interatividade (75 tokens/segundo/usuário), tradando em até 15 vezes mais “performance por dólar”.

Os modelos MoE operam ativando “especialistas” (sub-redes especializadas) de forma dinâmica, oferecendo mais eficiência em relação aos modelos densos, mas também exigindo um grande volume de troca de dados. Quando um MoE é escalado, surgem padrões de comunicação que prejudicam a latência e pressionam a largura de banda. Assim, a NVIDIA foca na ideia de rack-scale, que combina computação e memória de alta velocidade para minimizar esses custos associados ao movimento de dados.

Por sua vez, a AMD expõe sua linha Instinct, centrada em memória e largura de banda, com o MI355X posicionado como um acelerador que oferece 288 GB de HBM3E e até 8 TB/s de largura de banda. Embora AMD tenha um produto competitivo em termos de densidade de memória, o debate gira em torno de quem domina melhor o “tecido conectivo” de seus sistemas.

O relatório da Signal65 utiliza medições de desempenho de terceiros para traçar um panorama claro das diferenças entre as plataformas. Para um objetivo de 25 tokens por segundo por usuário, a análise conclui que a GB200 supera a MI355X em termos de custo e performance. À medida que a interação desejada aumenta para 75 tokens, a disparidade torna-se ainda mais acentuada. No entanto, é importante ressaltar que esses números se baseiam em um cenário específico e devem ser filtrados através de uma análise mais profunda do contexto operacional.

Esses resultados ressaltam que no cenário de MoE, onde a comunicação interna e a latência são cruciais, a arquitetura do sistema completo é um fator determinante para a economia da inferência, mesmo que o concorrente ofereça aceleradores com especificações atraentes. A tendência é que, à medida que o setor avança em direção a experiências cada vez mais interativas, a métrica de tokens por segundo a objetivos de latência específica possa se tornar um indicador-chave de desempenho.

NVIDIA se destaca (com números) na era MoE: Signal65 estima que GB200 NVL72 pode ser até 15× mais rentável por token do que AMD MI355X

Notícias Tecnologia

Related Posts

Arquivos do Saber: Celebrando Miguel Mota e a Revolução na Genética das Plantas

BSC AI Factory Anuncia Nova Chamada do Programa de Incubação para Startups

Broadcom coloca a VMware a serviço das telecomunicações: Telco Cloud Platform 9 promete mais densidade, menos consumo e “nuvem soberana” pronta para IA.

Recommended

Royal Society of Chemistry Reconhece Pesquisadores da FCUP por Contribuições Excepcionais

A Revolução do Frio: Como Carlos Manzanares Vai Transformar a Hotelaria na Espanha com 85 Milhões

Popular News

Aquecimento Global: O Impacto do El Niño em 2023

Marcelo aprova novas medidas habitacionais do Governo

Principais Tendências e Dicas para o Consumidor Atual

Figuras Chave da Política e Economia Nacional Discutem o Futuro na FEP

Dia Mundial da Vida Selvagem: Celebrando as Plantas Medicinais e a Sustentabilidade dos Ecossistemas

Connect with us

Welcome Back!

Retrieve your password