Monitoramento com Prometheus e Grafana

Já verificou o servidor? Não? Então começa por aqui

Toda grande história de terror no mundo da infraestrutura começa com uma frase clássica:

“Ué, mas tava funcionando ontem…”

E aí começa o CSI DevOps. Você abre 37 abas do terminal, 12 guias do navegador e, enquanto isso, tenta encontrar o log do log do log. Se você já viveu isso, parabéns, você já tem nível prata no RPG do caos de produção.

Portanto, para evitar o colapso emocional, a melhor solução é investir em monitoramento de verdade.

O que é observabilidade (sem parecer que veio do marketing)?

Observabilidade não é apenas um nome bonito para “monitoramento gourmet”. Na verdade, é a capacidade de entender o que está acontecendo no sistema sem precisar reiniciar com --verbose.

A trindade sagrada da observabilidade moderna é:

Métricas (tipo: CPU a 99%, mas “tá suave”);
Logs (geralmente em tempo real… ou não);
Tracing (quem tá chamando quem, quando, e por que diabos tá lento).

Dessa forma, você identifica problemas antes que eles se tornem manchetes no Slack.

Prometheus: o cara que coleta tudo (menos dívidas)

O Prometheus é o motor open-source que coleta métricas em tempo real via pull (sim, ele que vai até os alvos, tipo um dev stalker).

Ele é:

Leve;
Flexível;
Possui linguagem de query própria (PromQL, ou “SQL com TPM”);
E, além disso, funciona com qualquer serviço que tenha /metrics.

Quer saber a temperatura da GPU do seu Raspberry Pi? Prometheus responde. Precisa saber quantos 500 sua API jogou no colo do cliente? Ele também.

Grafana: o Tinder dos dashboards

Se Prometheus coleta, o Grafana seduz.

Com ele, você cria dashboards tão bonitos que, sinceramente, dá vontade de imprimir e fazer um mural na sala de guerra do time.

Além disso, Grafana permite:

Gráficos de CPU por pod;
Latência média por rota;
Uso de RAM por namespace;
E até temperatura ambiente (não julgo).

Assim, sua infraestrutura vira arte, e seu monitoramento deixa de ser “checar top de hora em hora”.

Alertmanager: o botão de pânico do DevOps

E quando dá ruim? Aí entra o Alertmanager.

Ele pega as regras definidas no Prometheus e, dessa forma, dispara alertas automáticos para e-mail, Slack, Discord, SMS, pager, e até sinal de fumaça (se tiver webhook).

Exemplo básico de alerta:

- alert: AltaCarga
  expr: node_load1 > 5
  for: 2m
  labels:
    severity: crítico
  annotations:
    summary: "Servidor com alta carga"

Assim, você é avisado antes do cliente abrir um chamado gritando “O SITE TÁ FORA DO AR!!!”.

Monitoramento sem observabilidade é só ansiedade disfarçada

Muita gente acha que ter um htop rodando é suficiente. No entanto, monitoramento de verdade responde perguntas como:

Por que meu app está lento?
Quando começou a dar erro?
Qual release causou esse caos?
O que mudou nos últimos 15 minutos?

Enquanto isso, sem boas métricas, você vai apenas rezar para que esteja tudo bem.

Conclusão: se você não monitora, você só reza

DevOps sem observabilidade é como dirigir de olhos vendados e torcer pra acertar o caminho.

Portanto, ao adotar Prometheus + Grafana + Alertmanager, você ganha superpoderes: visualiza tudo em tempo real, detecta problemas rapidamente e ainda impressiona o time com dashboards dignos de Oscar técnico.

Curtiu o conteúdo? Compartilha com aquele colega que monitora a produção pelo WhatsApp do cliente.

Aproveita e dá uma olhada em outros posts sobre Infraestrutura, tem muita dica boa pra proteger seu projeto.

Ah, e se quiser trocar ideia sobre tecnologia, me segue lá no LinkedIn também!

FullStackOps