Um grupo de engenheiros alcançou um marco histórico no armazenamento distribuído com um cluster Ceph capaz de suportar 1 TiB/s de leitura sequencial, superando todos os recordes anteriores. Essa conquista é resultado de uma implementação em grande escala, que combina hardware de última geração, uma rede de alto desempenho e meses de ajustes para superar obstáculos técnicos imprevistos.
Uma arquitetura para extrair cada byte
O projeto começou em 2023, quando uma empresa inovadora decidiu migrar seu cluster Ceph de discos rígidos para uma infraestrutura 100% NVMe com 10 PB de capacidade. O design, desenvolvido em conjunto com a Clyso, utilizou 68 nós Dell PowerEdge R6615 com processadores AMD EPYC 9454P, 192 GiB de RAM DDR5 e interfaces Mellanox ConnectX-6 de 100 GbE por nó, além de 10 unidades NVMe Enterprise de 15,36 TB cada.
O cluster, distribuído em 17 racks, foi implantado com Ceph Quincy v17.2.7 e Ubuntu 20.04.6, totalizando 630 OSDs em produção. A rede pré-existente, projetada para operações de alto desempenho, foi fundamental para otimizar a arquitetura.
“O desafio não era apenas alcançar um número recorde, mas fazê-lo em um ambiente realista, com hardware de produção e mantendo a estabilidade do sistema”, afirmam os engenheiros do projeto.
Desafios críticos e suas soluções
O caminho até o terabyte por segundo não foi fácil. Durante os primeiros testes, o desempenho ficou muito aquém do esperado, e padrões erráticos surgiram nos resultados. Após semanas de análise, três gargalos principais foram identificados:
-
Estados de economia de energia: O Ceph é sensível à latência introduzida pela gestão de c-states na CPU. Desativá-los na BIOS trouxe uma melhoria imediata de 10-20%.
-
Contenção na IOMMU: O kernel passava muito tempo gerenciando mapeamentos DMA para NVMe. Desativar a IOMMU a nível de kernel liberou o desempenho de leitura e escrita em testes multinódicos.
-
Compilação subótima do RocksDB: Os pacotes Debian/Ubuntu não eram compilados com as bandeiras de otimização adequadas. Reconstruir o Ceph com as flags corretas acelerou a compactação em 3x e duplicou o desempenho na escrita aleatória 4K.
Resultados impressionantes
Após resolver os problemas e ajustar a configuração do cluster, foram alcançados resultados notáveis:
- 1,025 TiB/s em leitura sequencial 4 MB com 3 réplicas.
- 270 GiB/s em escrita sequencial com 3 réplicas.
- 25,5 milhões de IOPS em leitura aleatória 4K.
A chave foi escalar clientes e OSDs de forma proporcional, otimizando a comunicação assíncrona e evitando que os PGs entrassem em estado “laggy”.
“O Ceph pode saturar duas interfaces de 100 GbE por nó. Para ir além, o futuro passa por redes de 200 GbE ou superiores”, conclui a equipe técnica.
O futuro do Ceph em alto desempenho
Este despliegue demonstra que o Ceph pode competir com soluções proprietárias de armazenamento, mantendo sua natureza open source. Os aprendizados deste projeto — como a sensibilidade à configuração do kernel e a importância da compilação otimizada — são valiosos para qualquer implantação em larga escala.
O próximo desafio será melhorar a eficiência em operações de escrita massiva e eliminar definitivamente os problemas de PGs “laggy”. Além disso, os desenvolvedores indicam que para superar o teto de IOPS será necessário repensar partes do modelo de threads de OSD.
David Carrero, cofundador da Stackscale (Grupo Aire), ressalta que, embora poucas empresas necessitem de números tão extremos, a tecnologia Ceph é perfeitamente aplicável a projetos empresariais reais.
“Em Stackscale, oferecemos aos nossos clientes a possibilidade de implantar ambientes Ceph sobre infraestrutura dedicada, adaptando soluções às suas necessidades específicas”, comenta Carrero.
Essa visão destaca que o potencial do Ceph vai além de recordes técnicos, sendo uma ferramenta versátil para empresas em busca de controle sobre seus dados e otimização de custos em ambientes privados ou híbridos.