Uma semana após o incidente massivo com os serviços da Amazon Web Services (AWS), a Microsoft Azure enfrentou na quarta-feira, 29 de outubro, uma falha de grande proporção, que afetou serviços tanto da própria Microsoft quanto de terceiros. O problema começou às 15h45 UTC (16h45 em Canárias / 17h45 na Espanha peninsular) e foi mitigado às 00h05 UTC do dia 30 de outubro, tendo origem no Azure Front Door (AFD), a rede global de distribuição de conteúdo e aplicações da Azure. A consequência imediata foi uma série de latências, timeouts e erros em cascata para serviços como Microsoft 365, Xbox, Minecraft, portais de administração e uma variedade de aplicações empresariais que dependem da Azure.
Embora o impacto não tenha chegado ao nível do apagão da AWS da semana anterior, a sequência de incidentes em dois dos principais provedores de nuvem reacende o debate sobre a resiliência da Internet e a dependência global de um pequeno número de gigantes da tecnologia para a operação de negócios e serviços críticos.
A Microsoft emitiu um relatório preliminar que identificou uma mudança de configuração involuntária no Azure Front Door como a causa do falho. Essa mudança gerou um estado inválido em vários nós do AFD, que deixaram de funcionar corretamente. À medida que esses nós “não saudáveis” foram desconectados, o tráfego ficou desbalanceado entre os nós restantes, resultando em indisponibilidade a níveis alarmantes. A medida imediata da equipe de engenharia foi bloquear alterações de configuração, reverter o AFD para o “último estado conhecido bom” e restaurar os nós, equilibrando o tráfego para evitar novas sobrecargas.
A abrangência da falha foi significativa. Além do Microsoft 365 — que ficou inacessível para muitos usuários durante as horas cruciais —, serviços como OneDrive e Teams também foram afetados. O efeito dominó impactou outras empresas, incluindo companhias aéreas e varejistas, que relataram interrupções. Às 00h05 UTC do dia 30 de outubro, a Microsoft anunciou que a situação havia voltado aos níveis normais de operação, embora com algumas exceções em clientes que ainda enfrentavam dificuldades.
Esses incidentes ressaltam a importância de medidas preventivas e de um planejamento rigoroso para a continuidade dos negócios, especialmente em um cenário onde a complexidade e a automação a grande escala se tornam tanto uma vantagem quanto um risco. As empresas são desafiadas a repensar suas estratégias arquitetônicas e a considerar abordagens que aumentem a robustez frente a falhas de provedores de nuvem.
