Instalar Zabbix es la parte fácil. El valor real está en configurar las alertas correctas: las que te avisan cuando hay un problema de verdad y se quedan calladas cuando todo va bien. Un sistema de monitoreo que dispara cien alertas falsas al día termina ignorado, y un servidor sin alertas básicas es una caída esperando a ocurrir.
Estas son las cinco alertas que consideramos imprescindibles en cualquier servidor de producción, antes de entrar en métricas de aplicación más específicas.
1. Espacio en disco bajo
Un disco lleno tumba bases de datos, detiene logs y corrompe escrituras. Configura un aviso temprano cuando el uso supera el 80 por ciento y una alerta crítica al 90, con la suficiente antelación para actuar. Vigila también los inodos: un sistema de archivos puede quedarse sin inodos aunque aún tenga espacio libre, y ese caso es fácil de pasar por alto.
2. Uso de memoria y swap
La memoria agotada lleva al kernel a matar procesos a través del OOM killer, normalmente el proceso menos conveniente. Un uso sostenido de swap suele anticipar degradación de rendimiento. Alerta cuando la memoria disponible cae por debajo de un umbral seguro y cuando la actividad de swap se vuelve constante.
3. Carga de CPU sostenida
Un pico puntual de CPU es normal; una carga alta sostenida durante varios minutos indica un problema. La clave está en la duración: alerta sobre promedios prolongados, no sobre picos instantáneos, para evitar el ruido. Relaciona el umbral con el número de núcleos del servidor.
4. Disponibilidad de servicios clave
No basta con que el servidor responda al ping: lo que importa es que el servicio que presta esté vivo. Monitorea que los procesos críticos estén corriendo y que los puertos respondan: la base de datos, el servidor web, el balanceador, lo que sea que justifique la existencia de esa máquina.
5. Vencimiento de certificados SSL/TLS
Un certificado vencido rompe el servicio de golpe y daña la confianza de los usuarios. Configura una alerta que avise con varios días de anticipación, suficiente para renovar sin prisa. Es una de las caídas más evitables y, sin embargo, de las más frecuentes.
Con estas cinco alertas bien afinadas y entregadas por el canal adecuado, ya sea correo, Telegram, Slack o tu mesa de ayuda, cubres la mayoría de los incidentes que tumban servidores. A partir de ahí se construye el monitoreo de aplicación: tiempos de respuesta, colas, tasas de error y métricas de negocio.
Siguiente paso
¿Necesitas resolver esto en tu infraestructura?
Nuestros ingenieros operan a diario lo que escribimos aquí. Conversemos sobre tu caso y te proponemos el camino que corresponde a tu entorno real.