别等服务器挂了才后悔：香港轻量云服务器告警配置保姆级指南-华纳云

别等服务器挂了才后悔：香港轻量云服务器告警配置保姆级指南

时间 : 2026-02-28 17:05:54

编辑 : 华纳云

阅读量 : 765

香港轻量云服务器虽然便宜、配置简单，但它跟所有服务器一样，CPU会飙高、内存会爆满、磁盘会写满、带宽会被占光。如果没有提前设置好告警通知，等到用户反馈网站打不开才后知后觉，损失的就不止是修复时间，还有用户信任。

今天就手把手教你，怎么给香港轻量云服务器配上“哨兵”，让它在出问题的第一时间通知你，而不是默默挂给你看。

为什么要配告警？配哪些指标？

告警的本质是把“被动发现”变成“主动通知”。网站挂了、服务慢了、磁盘满了，你不用每隔几分钟刷一次监控面板，服务器会主动发消息告诉你。

对于香港轻量云服务器，以下五个指标是最值得设置告警的：

CPU使用率：持续飙高说明有程序在吃性能，可能是被攻击了，也可能是代码有bug

内存使用率：内存跑满会导致系统开始用swap，性能急剧下降

磁盘使用率：磁盘满的后果最严重——数据库写不进去、网站变只读、甚至系统崩溃

带宽使用率：突然跑满带宽，八成是被攻击了或者被人盗刷流量

服务存活状态：比如你的网站进程挂了，或者端口不通了

这几个指标里，磁盘使用率是最容易被忽视、但后果最严重的。很多轻量服务器的系统盘就40GB，跑个日志、装几个镜像，不知不觉就满了。

云厂商自带的告警功能：最简单的方法

如果你用的是主流云厂商的香港轻量云服务器，大部分都已经内置了监控告警功能，只是默认没开启。

华纳云轻量应用服务器接入了云监控服务，支持对CPU、内存、磁盘、网络流量等指标设置告警规则。配置路径是：用户管理后台→云服务器→轻量云服务器列表→实例流量预警。支持的通知方式包括邮件等通知。

用户为轻量应用服务器的网络流量包设置了默认告警：当剩余流量低于10%时，会自动触发通知。这对按量付费的用户来说非常实用。

用云厂商自带功能的好处是零成本、零维护，只要登录控制台点几下鼠标就能配好。缺点是灵活性有限，而且部分厂商的短信通知要收费（邮件通常免费）。

开源方案：Prometheus + Alertmanager

如果你喜欢折腾，或者想统一管理多台服务器的监控告警，可以用开源方案自己搭。这套方案用到的组件包括：

Node_Exporter：部署在服务器上，采集CPU、内存、磁盘等指标

Prometheus：定期从Node_Exporter拉取指标，并触发告警规则

Alertmanager：接收Prometheus发来的告警，负责去重、分组，并发送通知

这套方案的好处是完全免费、高度可定制，可以监控任何你想监控的指标，通知方式也能自由选择（邮件、钉钉、企业微信、Slack等）。

下面是一个简单的配置示例：

Node_Exporter下载二进制文件直接运行即可，默认监听9100端口。

Prometheus配置文件（prometheus.yml）里需要指定抓取目标：

```yaml

scrape_configs:

job_name: 'node'

static_configs:

targets: ['localhost:9100']

然后在Prometheus里定义告警规则。以CPU使用率为例，规则可以写成：

```yaml

groups:

name: node-alerts

rules:

alert: 高CPU使用率

expr: 100 (avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80

for: 5m

labels:

severity: warning

annotations:

summary: "实例 {{ $labels.instance }} CPU 使用率超过 80%"

Alertmanager的配置（alertmanager.yml）可以设置邮件通知：

```yaml

global:

smtp_smarthost: 'smtp.qq.com:465'

smtp_from: '你的QQ邮箱'

smtp_auth_username: '你的QQ邮箱'

smtp_auth_password: '你的QQ邮箱授权码'  # 注意：不是登录密码，是授权码

receivers:

name: 'email'

email_configs:

to: '接收邮件的邮箱'

QQ邮箱需要开启SMTP服务并获取授权码，具体步骤是：设置 → 账户 → 开启POP3/SMTP服务，然后生成授权码。

这套方案搭建起来稍微有点门槛，但一旦配好，基本就是一劳永逸。

更轻量的选择：Telegraf

如果你觉得Prometheus这套还是太重，可以试试Telegraf。这是一个用Go语言写的指标采集工具，单机部署只需10MB内存，非常轻量。

Telegraf的配置思路是：通过输入插件采集指标，通过处理器插件做异常检测，通过输出插件发送告警。比如配置一个简单的CPU告警：

```toml

[[inputs.cpu]]

percpu = true

totalcpu = true

[[processors.threshold]]

namepass = ["cpu"]

[[processors.threshold.fields]]

name = "usage_idle"

LT = 10.0

message = "CPU使用率过高"

[[outputs.exec]]

command = ["/usr/local/bin/send_alert.sh"]

当CPU空闲率低于10%（即使用率超过90%）时，就会触发告警，调用你写的脚本去发邮件或钉钉消息。

告警配置的几个“坑”和最佳实践

1. 阈值设得太敏感

很多人一开始喜欢把阈值设得很低，比如CPU超过50%就告警。结果一天收到几十条邮件，很快就麻了，真正出问题的时候反而忽略了。建议阈值设在真正危险的边界：CPU 90%、内存 90%、磁盘 85%、带宽 90%。

2. 没有配置“连续几次才告警”

如果设置“CPU > 90%就告警”，那系统偶尔几秒钟飙高也会触发。最好设置成“持续5分钟超过阈值才告警”，可以过滤掉大部分瞬时波动。

3. 忘了配置“告警恢复”通知

很多人在意的只是出问题时的通知，但问题解决了也应该知道。Prometheus和Alertmanager都支持send_resolved参数，告警恢复时会再发一条消息。

4. 告警风暴

如果同一时间多个监控项同时触发，或者同一个问题持续触发，会收到大量重复通知。Alertmanager支持分组（group_by）和抑制（inhibit_rules），可以把同一类告警合并成一条发送。