Erro humano foi causa de interrupção de serviços, diz AWS

A Amazon Web Services (AWS) já identificou a causa da interrupção de seu servidor S3, na última terça-feira (28/02), que derrubou diversos serviços on-line. Em nota, a empresa afirma que um erro humano resultou na falha dos serviços Amazon S3 na região do norte da Virgínia (US-EAST-1). A instabilidade durou mais de 3 horas e meia e impactou o envio e recebimento de dados dos clientes, entre eles serviços como Netflix, Slack e Spotify.

O problema foi um erro de digitação em um comando, que casou a remoção de um conjunto maior de servidores do que o previsto. Um engenheiro da empresa foi encarregado de digitar um comando para desligar alguns subsistemas de armazenamento. Em um dia típico, isso não causaria qualquer problema qualquer, já que é uma tarefa rotineira, mas na terça-feira algo não ocorreu como o esperado.

O funcionário entrou no comando de acordo com o procedimento baseado no que a Amazon chama de “um playbook estabelecido.” Ele deveria emitir um comando para derrubar um pequeno número de servidores em um sub-sistema S3, mas, ao invés de derrubar apenas aquele pequeno conjunto de servidores, tirou um conjunto muito maior.

O erro teve um impacto em cascata no armazenamento S3 no data center do Norte da Virgínia. O fato removeu uma quantidade significativa de capacidade de armazenamento, o que fez com que os sistemas reiniciassem.

Em nota, a AWS lamentou que infelizmente uma das entradas para o comando foi inserida incorretamente e um conjunto maior de servidores foi removido do que o pretendido. “Os servidores que foram inadvertidamente removidos suportaram dois outros subsistemas S3. Um desses subsistemas, o subsistema de índice, gerencia os metadados e as informações de localização de todos os objetos S3 na região”, explicou.

A empresa também se desculpou pelo impacto que esse evento causou para os clientes. “Enquanto estamos orgulhosos de nosso longo histórico de disponibilidade com o Amazon S3, sabemos o quão crítico este serviço é para nossos clientes, seus aplicativos e usuários finais e seus negócios. Faremos tudo o que pudermos para aprender com este evento e usá-lo para melhorar nossa disponibilidade ainda mais”, finalizou a companhia.

Confira na íntegra a nota divulgada pela AWS (em inglês).

Recent Posts

Pure Storage aposta em mudança de paradigma para gestão de dados corporativos

A Pure Storage está redefinindo sua estratégia de mercado com uma abordagem que abandona o…

4 dias ago

A inteligência artificial é mesmo uma catalisadora de novos unicórnios?

A inteligência artificial (IA) consolidou-se como a principal catalisadora de novos unicórnios no cenário global…

4 dias ago

Finlândia ativa a maior bateria de areia do mundo

À primeira vista, não parece grande coisa. Mas foi na pequena cidade de Pornainen, na…

4 dias ago

Reforma tributária deve elevar custos com mão de obra no setor de tecnologia

O processo de transição previsto na reforma tributária terá ao menos um impacto negativo sobre…

4 dias ago

Relação entre OpenAI e Microsoft entra em clima de tensão, aponta WSJ

O que antes parecia uma aliança estratégica sólida começa a mostrar rachaduras. Segundo reportagem do…

4 dias ago

OpenAI fecha contrato de US$ 200 milhões com Departamento de Defesa dos EUA

O Departamento de Defesa dos Estados Unidos firmou um contrato de US$ 200 milhões com…

4 dias ago