Interrupção Global da Nuvem do Google Gera Impactos Consideráveis em Empresas e Usuários
Na última segunda-feira, 12 de junho, a Google Cloud enfrentou uma das maiores interrupções globais dos últimos anos, afetando serviços cruciais para empresas e usuários em todo o mundo. O incidente teve início às 19h51 (horário de Brasília) e durou pelo menos três horas e meia, comprometendo dezenas de produtos da Google Cloud Platform (GCP) e Google Workspace, incluindo serviços de infraestrutura, e-mail, armazenamento e análise de dados.
O que aconteceu?
Segundo informações oficiais da Google, a causa principal do problema foi uma atualização automática incorreta das quotas no sistema de gerenciamento de APIs, que foi distribuída globalmente, resultando na rejeição maciça de solicitações externas. O erro impactou a gestão das quotas de API, bloqueando requisições legítimas e gerando respostas de erro 503 em cascata em serviços como Compute Engine, Cloud Storage, BigQuery, App Engine, Cloud SQL, Cloud Run, Vertex AI, Cloud Pub/Sub, Cloud DNS, Gmail, Google Drive e Google Calendar.
Embora a Google tenha identificado rapidamente o erro e aplicado uma mitigação temporária desativando a verificação de quotas conflitantes, o processo de recuperação foi desigual. Na região us-central1 (Iowa), onde se concentravam muitos recursos, a restauração foi mais lenta devido à sobrecarga na base de dados de políticas de quotas.
Impacto para empresas e usuários
Durante várias horas, milhares de organizações na Europa, Ásia e América experimentaram falhas intermitentes no acesso a painéis de controle, APIs, backups automáticos, execução de aplicações, automações e serviços de IA, além de serviços de escritório como Gmail e Google Drive. Embora os recursos em execução não tenham sido interrompidos, a impossibilidade de acessar a administração, consultar registros, monitorar incidentes ou escalar recursos gerou incerteza e problemas de continuidade para as equipes de TI.
Particularmente grave foi o impacto em serviços gerenciados de dados, como Cloud Bigtable, BigQuery, Spanner, Firestore, Cloud SQL e Cloud Storage, que enfrentaram interrupções em leitura e gravação, além de produtos-chave de inteligência artificial como Vertex AI e Looker Studio.
Recuperação e estado atual
Às 22h49 (horário de Brasília), a Google confirmou que a maioria dos serviços estava recuperada, exceto algumas operações residuais em regiões severamente afetadas (como us-central1) e serviços de IA como Vertex AI Online Prediction, que foram restabelecidos algumas horas depois. A empresa reconheceu a gravidade do incidente e se comprometeu a publicar um relatório técnico detalhado com a análise das causas e as ações de melhoria a serem implementadas.
Reflexões sobre o incidente
Este evento destaca que, embora a nuvem ofereça alta disponibilidade, automação e escalabilidade, nenhum provedor está isento de falhas catastróficas em seus sistemas. As empresas devem considerar:
- Implementar estratégias multicloud e cópias de segurança independentes.
- Documentar planos de contingência e resposta para quedas de fornecedores externos.
- Monitorar serviços críticos através de plataformas externas.
- Avaliar periodicamente os SLAs e a capacidade de recuperação diante de erros sistêmicos.
A Google agora enfrenta a pressão de reconquistar a confiança de milhares de empresas afetadas e o ecossistema aguarda mais detalhes sobre o erro de design e as medidas que estão sendo implementadas para evitar que um simples erro de quotas cause outra queda em nível global.