Erro humano foi causa de interrupção de serviços, diz AWS

A Amazon Web Services (AWS) já identificou a causa da interrupção de seu servidor S3, na última terça-feira (28/02), que derrubou diversos serviços on-line. Em nota, a empresa afirma que um erro humano resultou na falha dos serviços Amazon S3 na região do norte da Virgínia (US-EAST-1). A instabilidade durou mais de 3 horas e meia e impactou o envio e recebimento de dados dos clientes, entre eles serviços como Netflix, Slack e Spotify.
O problema foi um erro de digitação em um comando, que casou a remoção de um conjunto maior de servidores do que o previsto. Um engenheiro da empresa foi encarregado de digitar um comando para desligar alguns subsistemas de armazenamento. Em um dia típico, isso não causaria qualquer problema qualquer, já que é uma tarefa rotineira, mas na terça-feira algo não ocorreu como o esperado.
O funcionário entrou no comando de acordo com o procedimento baseado no que a Amazon chama de “um playbook estabelecido.” Ele deveria emitir um comando para derrubar um pequeno número de servidores em um sub-sistema S3, mas, ao invés de derrubar apenas aquele pequeno conjunto de servidores, tirou um conjunto muito maior.
O erro teve um impacto em cascata no armazenamento S3 no data center do Norte da Virgínia. O fato removeu uma quantidade significativa de capacidade de armazenamento, o que fez com que os sistemas reiniciassem.
Em nota, a AWS lamentou que infelizmente uma das entradas para o comando foi inserida incorretamente e um conjunto maior de servidores foi removido do que o pretendido. “Os servidores que foram inadvertidamente removidos suportaram dois outros subsistemas S3. Um desses subsistemas, o subsistema de índice, gerencia os metadados e as informações de localização de todos os objetos S3 na região”, explicou.
A empresa também se desculpou pelo impacto que esse evento causou para os clientes. “Enquanto estamos orgulhosos de nosso longo histórico de disponibilidade com o Amazon S3, sabemos o quão crítico este serviço é para nossos clientes, seus aplicativos e usuários finais e seus negócios. Faremos tudo o que pudermos para aprender com este evento e usá-lo para melhorar nossa disponibilidade ainda mais”, finalizou a companhia.
Confira na íntegra a nota divulgada pela AWS (em inglês).