Monitoreo de servidores: guía práctica
Si no monitoreás tu servidor, no sabés si está funcionando bien hasta que un usuario se queja. El monitoreo proactivo te permite detectar problemas antes de que impacten.
¿Por qué monitorear?
Detectar problemas antes de que afecten usuarios, entender el uso de recursos para planificar escalado, identificar cuellos de botella, cumplir SLAs, y tener datos para post-mortems cuando algo falla.
Métricas esenciales
CPU: uso promedio y picos. RAM: uso y swap. Disco: espacio libre, I/O wait, IOPS. Red: tráfico in/out, errores, latencia. Aplicación: requests/segundo, tiempo de respuesta, tasa de errores.
Herramientas: Netdata
Netdata es la opción más simple: instalación en un comando, dashboard web inmediato, métricas en tiempo real, alertas preconfiguradas. Ideal para empezar o para servidores individuales. Consumo mínimo de recursos.
Herramientas: Prometheus + Grafana
El stack estándar de la industria. Prometheus recolecta métricas, Grafana las visualiza. Más complejo de configurar pero extremadamente potente y flexible. Ideal para múltiples servidores y equipos.
Alertas: qué alertar
CPU > 90% por más de 5 minutos, RAM > 85%, disco > 80% lleno, servicio caído (health check falla), tiempo de respuesta > umbral, y tasa de errores > 1%. No alertes por todo — alert fatigue es real.
Uptime monitoring externo
Además del monitoreo interno, usá un servicio externo (UptimeRobot, BetterStack, Pingdom) que verifique que tu servidor responde desde fuera. Si tu servidor se cae, el monitoreo interno también se cae.
Logs centralizados
Centralizá logs con Loki + Grafana, ELK stack, o servicios como Papertrail. Poder buscar en logs de múltiples servidores desde un solo lugar es invaluable para debugging.