Já verificou o servidor? Não? Então começa por aqui
Toda grande história de terror no mundo da infraestrutura começa com uma frase clássica:
“Ué, mas tava funcionando ontem…”
E aí começa o CSI DevOps. Você abre 37 abas do terminal, 12 guias do navegador e, enquanto isso, tenta encontrar o log do log do log. Se você já viveu isso, parabéns, você já tem nível prata no RPG do caos de produção.
Portanto, para evitar o colapso emocional, a melhor solução é investir em monitoramento de verdade.
O que é observabilidade (sem parecer que veio do marketing)?
Observabilidade não é apenas um nome bonito para “monitoramento gourmet”. Na verdade, é a capacidade de entender o que está acontecendo no sistema sem precisar reiniciar com --verbose
.
A trindade sagrada da observabilidade moderna é:
- Métricas (tipo: CPU a 99%, mas “tá suave”);
- Logs (geralmente em tempo real… ou não);
- Tracing (quem tá chamando quem, quando, e por que diabos tá lento).
Dessa forma, você identifica problemas antes que eles se tornem manchetes no Slack.
Prometheus: o cara que coleta tudo (menos dívidas)
O Prometheus é o motor open-source que coleta métricas em tempo real via pull (sim, ele que vai até os alvos, tipo um dev stalker).
Ele é:
- Leve;
- Flexível;
- Possui linguagem de query própria (PromQL, ou “SQL com TPM”);
- E, além disso, funciona com qualquer serviço que tenha
/metrics
.
Quer saber a temperatura da GPU do seu Raspberry Pi? Prometheus responde. Precisa saber quantos 500 sua API jogou no colo do cliente? Ele também.
Grafana: o Tinder dos dashboards
Se Prometheus coleta, o Grafana seduz.
Com ele, você cria dashboards tão bonitos que, sinceramente, dá vontade de imprimir e fazer um mural na sala de guerra do time.
Além disso, Grafana permite:
- Gráficos de CPU por pod;
- Latência média por rota;
- Uso de RAM por namespace;
- E até temperatura ambiente (não julgo).
Assim, sua infraestrutura vira arte, e seu monitoramento deixa de ser “checar top de hora em hora”.
Alertmanager: o botão de pânico do DevOps
E quando dá ruim? Aí entra o Alertmanager.
Ele pega as regras definidas no Prometheus e, dessa forma, dispara alertas automáticos para e-mail, Slack, Discord, SMS, pager, e até sinal de fumaça (se tiver webhook).
Exemplo básico de alerta:
- alert: AltaCarga
expr: node_load1 > 5
for: 2m
labels:
severity: crítico
annotations:
summary: "Servidor com alta carga"
Assim, você é avisado antes do cliente abrir um chamado gritando “O SITE TÁ FORA DO AR!!!”.
Monitoramento sem observabilidade é só ansiedade disfarçada
Muita gente acha que ter um htop
rodando é suficiente. No entanto, monitoramento de verdade responde perguntas como:
- Por que meu app está lento?
- Quando começou a dar erro?
- Qual release causou esse caos?
- O que mudou nos últimos 15 minutos?
Enquanto isso, sem boas métricas, você vai apenas rezar para que esteja tudo bem.
Conclusão: se você não monitora, você só reza
DevOps sem observabilidade é como dirigir de olhos vendados e torcer pra acertar o caminho.
Portanto, ao adotar Prometheus + Grafana + Alertmanager, você ganha superpoderes: visualiza tudo em tempo real, detecta problemas rapidamente e ainda impressiona o time com dashboards dignos de Oscar técnico.
Curtiu o conteúdo? Compartilha com aquele colega que monitora a produção pelo WhatsApp do cliente.
Aproveita e dá uma olhada em outros posts sobre Infraestrutura, tem muita dica boa pra proteger seu projeto.
Ah, e se quiser trocar ideia sobre tecnologia, me segue lá no LinkedIn também!