AWS publicou um relatório detalhado sobre a interrupção que afetou a região da Virginia do Norte (us-east-1) nos dias 19 e 20 de outubro, resultando na queda de dezenas de serviços. O problema foi causado por um sutil, mas devastador, falha de corrida no sistema de automação responsável pela gestão do DNS do Amazon DynamoDB. Esse erro gerou a aplicação de um plano DNS vazio no endpoint regional do DynamoDB, bloqueando sua resolução e provocando uma série de falhas em serviços essenciais como IAM, EC2, Lambda, e Redshift.
A empresa reconheceu que precisou interromper a automação em todo o mundo e restaurar manualmente o estado do DNS para o DynamoDB. O processo de recuperação foi longo e exigiu reinícios seletivos e limitações temporárias nas requisições para finalmente restabelecer o funcionamento da região.
A cronologia da interrupção mostra três períodos principais de impacto. O primeiro, entre 19/10 às 23h48 e 20/10 às 02h40, registrou um aumento significativo de erros nas APIs do DynamoDB. O segundo, das 02h25 às 10h36, trouxe dificuldades para lançar novas instâncias de EC2. Por último, entre as 05h30 e 14h09, o Network Load Balancer (NLB) recebeu erros de conexão, exacerbando a situação.
AWS identificou a origem do problema como a interação complexa entre diferentes módulos do sistema de DNS. Durante a falha, um dos módulos, chamado Enactor, substituiu um plano recente por um antigo, o que deixou o endpoint sem direções e bloqueou a autorreparação automática.
Medidas corretivas foram anunciadas, incluindo a desativação temporária da automação do DNS até que o cenário de corrida seja corrigido e a implementação de controles adicionais para prevenir falhas futuras. Além disso, a companhia recomenda que arquitetos de sistemas adotem práticas que evitem a concentração de serviços críticos em uma única região e enfatiza a importância de um design resiliente.
O incidente evidencia a complexidade e a interdependência dos serviços em nuvem e serve como um alerta sobre a necessidade de estratégias de desenvolvimento e operações cuidadosas para evitar paralisações dispendiosas.
			
                                



							

