Notícias

Os cinco estágios do ‘luto no monitoramento’

Se
você já trabalhou com TI por mais de dez minutos, sabe que as coisas
saem errado. Na verdade, deveria ser óbvio que temos empregos em TI justamente porque
as coisas saem errado.

E
é disso que o monitoramento e a automação de TI tratam: criar sistemas
que se cuidem automaticamente, avisem quando as coisas começam a dar
errado e forneçam as
informações necessárias sobre o que aconteceu e quando, de modo que você
possa evitar o mesmo problema no futuro.

Após
mais de uma década implementando sistemas de monitoramento em empresas
de grande e pequeno portes, me familiarizei com o que se poderia chamar
de “luto do monitoramento”,
algo que ocorre com frequência quando você é incumbido de monitorar
alguma coisa para outra pessoa – o que é quase inevitável – e essa
pessoa lhe pede para fazer coisas que você sabe que causarão problemas. Ele envolve uma série de comportamentos que
agrupei em cinco estágios. São como os cinco estágios do luto, só que no monitoramento.

Embora
as empresas passem com frequência por esses estágios ao implantarem o
monitoramento pela primeira vez, eles também podem ocorrer quando um
grupo ou departamento
começa a implementar seriamente uma solução existente, quando novos
recursos são adicionados a um conjunto de monitoramento atual ou
simplesmente em um dia qualquer.

E aqui vou entregar o final da história: se você está familiarizado com o modelo
Kubler-Ross padrão, sabe que a aceitação não consta desta lista.

Primeiro estágio: monitorar tudo
Trata-se da falta de decisão inicial quanto ao monitoramento,
uma resposta à pergunta simples e inocente: “O que preciso monitorar?”. A
opção favorita de gerentes e equipes que não irão de fato lidar
com o tíquete é simplesmente ligar a mangueira
de incêndio com força máxima e pedir que você monitore “tudo”. Essa
escolha também é feita com frequência por administradores que estão bem
no meio de uma catástrofe. Essa decisão parte do pressuposto de que toda a informação é útil e pode ser “ajeitada”
posteriormente.

Segundo estágio: momento Prozac

Ainda
nos moldes do primeiro estágio, o destinatário de 734 e-mails de alerta
de monitoramento recebidos em um intervalo de cinco minutos vem até
você e diz: “Tudo
isso não pode estar dando errado ao mesmo tempo!” Embora pareça correta a
princípio, essa afirmação ignora o fato de que um computador define
“dar errado” com o mesmo grau de especificidade dos humanos que
solicitaram os monitores. Dessa forma, você reduz as
coisas a proporções razoáveis, mas, ainda assim “coisas demais” estão
indicadas em vermelho e a reação continua a mesma.

O
pior é que, como o “monitoramento era ruim” antes – o que, logicamente,
foi decorrência de uma solicitação estúpida – ele deve estar errado
novamente. Só que desta
vez não está. Ele está captando alterações em todos os níveis há
semanas, meses ou anos, e ninguém reparou. Ou as falhas se corrigiram
sozinhas muito rapidamente, ou os usuários nunca reclamaram, ou alguém
em algum lugar se antecipou e consertou tudo.

Essa
é a hora em que você gostaria de poder dar um Prozac para o responsável
pelo sistema para ele relaxar e se dar conta de que saber sobre as interrupções
é a primeira etapa para evitá-las no futuro.

Terceiro estágio: pintando as rosas de verde
O próximo estágio ocorre quando uma enorme quantidade de coisas
permanecem “inativas” e, não importa o quanto você tente, nada as faz
mudar para “ativas” porque, afinal de contas, elas estão mesmo inativas.

Em
um impulso de orgulho e teimosia, o responsável pelo sistema com
frequência ainda admite algo do tipo: “Eles não estão totalmente
inativos, estão só ‘meio inativos’.”
E mandam você fazer o que for preciso para que os sistemas se mostrem
ativos/bons/verdes.

E com isso quero dizer qualquer coisa mesmo,
inclusive alterar os limites dos alertas para níveis impossíveis
(“Alertar somente quando estiver inativo por 30
horas. Não, coloque uma semana.”), desativar alertas por completo – em
uma ocasião, sob ameaça de perder o emprego – criar uma página
completamente falsa com GIFs vermelhos pintados de verde para mostrar
para a gerência sênior.

O
que torna este estágio ainda mais constrangedor para todos os
envolvidos é que o trabalho decorrente costuma ser maior do que a tarefa
derealmente corrigir
o problema.

Quarto estágio: uma verdade inconveniente
E
por aí segue a rede de intrigas, que pode durar semanas ou meses, até o
ponto em que ocorre um erro crítico que não pode ser disfarçado (nem no
Photoshop). A essa
altura, você e o responsável pelo sistema estão no telefone com a equipe
de restauração do serviço, mais uma dúzia de engenheiros e alguns altos
executivos de TI, a fim de analisar, verificar e reiniciar tudo em
tempo real.

Nesse
momento, alguém pede para ver os dados de desempenho do sistema –
aquele que está inativo há um mês e meio, mas que apareceu como “ativo”
nos relatórios. Para
um responsável por sistema que desenvolveu o hábito de comprar tinta
verde por atacado, não dá mais para fugir ou se esconder.

Quinto estágio: burlando as regras
Supondo
que o responsável pelo sistema permanceceu com seu cargo intacto até o
quarto estágio, o quinto envolverá manter você à distância. As pessoas
menos sofisticadas
encontrarão maneiras de fazer o monitoramento sem de fato ter a
inconveniência de realmente ter que monitorar, enquanto as pessoas que
já estão na empresa há algum tempo solicitarão informações detalhadas
sobre exatamente quais permissões você precisa para
monitorar. Essas informações são encaminhadas para uma equipe de
auditoria de segurança inevitavelmente nova que nega a solicitação
categoricamente porque as permissões envolvem risco demais para serem
concedidas.

A
esta altura, você tem uma escolha: apresentar toda a documentação e
insistir que recebeu as permissões que já tinham sido combinadas ou sair
em busca de outro grupo
que de fato queira o monitoramento.

E
quanto ao responsável pelo sistema que começou dizendo “monitore tudo”?
Não se preocupe. Ele estará de volta depois da próxima interrupção do
sistema.

Com mais motivos para luto.

(*) Leon Adato é gerente técnico da SolarWinds