Recentes experimentos demonstram potencial dos Mac Studios em inteligência artificial
No cenário atual da tecnologia, os modelos de inteligência artificial mais avançados dependem de infraestrutura computacional extremamente robusta, muitas vezes necessitando de servidores equipados com GPUs de alto desempenho, como as NVIDIA H100 ou A100, cujo custo pode facilmente ultrapassar o de uma residência em muitos lugares. No entanto, um experimento inovador desafiou essa norma, utilizando cinco Mac Studios para criar um clúster capaz de rodar modelos de linguagem em larga escala, com a ajuda do software emergente EXO Labs, que permite a computação distribuída.
Desafio: Rodar o Llama 3.1 405B com hardware comum
O modelo Llama 3.1 405B é uma das mais complexas e exigentes IAs, com impressionantes 405 bilhões de parâmetros. Tradicionalmente, esses tipos de modelos são executados apenas em centros de dados que possuem servidores otimizados para IA, equipados com redes de alta velocidade e memória de vídeo especializada (VRAM).
O objetivo do experimento foi verificar se um clúster composto por cinco Mac Studios, cada um com chips M2 Ultra e 64 GB de memória unificada, conseguiria realizar a tarefa, utilizando a arquitetura de memória unificada da Apple como uma forma de compensar a ausência de VRAM dedicada.
Configuração do clúster com EXO Labs
Para conectar os cinco Mac Studios e fazê-los operar em sinergia, foi empregado o EXO Labs, um software de código aberto que possibilita a distribuição de cargas de trabalho de IA entre múltiplos dispositivos, abrangendo laptops, PCs e servidores. A interconexão desempenhou um papel crucial no desempenho do clúster.
- Rede Ethernet de 10 Gbps: Inicialmente, os Mac Studios se conectaram através de um switch UniFi XG6 POE de 10 Gbps, mas logo foi percebido que essa velocidade não era adequada para a quantidade de dados trafegando.
- Conexão Thunderbolt 4 (40 Gbps): Um adaptador Thunderbolt foi testado para aumentar a largura de banda e reduzir a latência, mostrando melhorias na comunicação entre os nodos do clúster.
Resultados das primeiras provas com modelos menores
Antes de enfrentar o Llama 3.1 405B, testes foram realizados com modelos menores:
- O Llama 3.21B (1 bilhão de parâmetros) rodou sem problemas em um único Mac Studio, apresentando uma velocidade de inferência aceitável.
- O Llama 3.3 70B (70 bilhões de parâmetros) exigiu o uso do clúster, com resultados satisfatórios ao distribuir a carga entre os equipamentos.
- Quando chegou a vez do Llama 3.1 405B, os desafios começaram a surgir.
Dificuldades com o modelo de 405B parâmetros
Uma das principais barreiras encontradas foi o uso intensivo de memória. Embora o clúster possuísse um total de 320 GB de RAM unificada, esse valor não foi suficiente para lidar com o modelo sem recorrer a memória swap, o que impactou negativamente no desempenho.
Adicionalmente, as limitações na comunicação entre os nodos, mesmo com o Thunderbolt 4 melhorando a largura de banda, resultaram em latências que restringiram ainda mais o desempenho. Em centros de dados tradicionais, as GPUs utilizam redes InfiniBand de 400 a 800 Gbps, especialmente projetadas para cargas de trabalho de IA, uma realidade impossível de replicar nesse tipo de configuração.
Comparação com hardware de IA tradicional
Os resultados do experimento foram comparados com servidores de IA tradicionais equipados com GPUs H100, revelando diferenças notáveis:
- Memória total (RAM/VRAM): 320 GB nos Mac Studios, enquanto os servidores possuem mais de 1 TB.
- Largura de banda interna: 40 Gbps para Thunderbolt contra 400-800 Gbps para InfiniBand.
- Consumo energético: aproximadamente 750W (total dos 5 Mac Studios) versus 3.000-5.000W em um centro de dados.
Conclusão: É viável um clúster de Mac Studios para IA?
O experimento com EXO Labs mostrou que os Mac Studios podem executar modelos de IA, mas com limitações significativas. Para modelos pequenos ou médios, eles representam uma alternativa viável, especialmente considerando o fator energia. Contudo, para modelos mais complexos como o Llama 3.1 405B, a ausência de hardware projetado especialmente para IA continua sendo um obstáculo considerável.
Apesar disso, a iniciativa abre novas possibilidades para a computação distribuída utilizando hardware de consumo, e com futuras atualizações em softwares como o EXO Labs, a viabilidade de usar esses dispositivos para certas cargas de trabalho em IA poderá aumentar.