日常监控应覆盖链路与设备两大类指标。链路类重点包括:ICMP/业务延迟(RTT)、丢包率、抖动(jitter)、带宽利用率、丢包分布(持续/突发)。设备类关注接口错误/丢帧、CPU/内存、BGP邻居状态、路由表变化、MPLS/LSP状态。
还应监控业务感知指标:上游ISP切换、业务层SLA(HTTP/TCP建立/应用响应)、TLS握手失败率。对 香港、新加坡节点特别关注 BGP 路由波动与国际链路抖动。
因时区与物理链路差异,需按地区设定峰值阈值并记录日夜流量模式,便于区分周期性波动与异常。
建议把报警分为信息、警告、严重三个等级。信息类用于趋势提醒,警告用于短期需关注的异常,严重类触发人工响应和应急流程。通知渠道采用多通道并行:短信/电话(严重)、邮件/IM(警告)、Dashboard(信息)。
阈值既要避免漏报又要减少误报:结合历史数据设定静态阈值(如丢包>1%持续5分钟)与动态阈值(基于移动平均或季节性基线)。对延迟采用绝对+速率变化策略(如 RTT>200ms 或 30% 上升速率)。
启用抑制窗口(例如同一故障5分钟内只报警一次)、告警去重(按故障类型和资源聚合),并对链路抖动进行冷却期,避免频繁振铃。
常见故障包括物理断纤、链路拥塞、路由泄露、BGP邻居断开、CPE故障与DDoS。定位步骤:1)确认是否多点告警,判断是链路还是设备问题;2)用 ping/mtr 测试端到端延迟与丢包;3)查看设备接口 counters(input/output errors);4)查看 BGP 状态和路由表(show ip bgp summary / show bgp neighbors);5)检查流量异常(sFlow/NetFlow)以判断是否为攻击或突发流量。
常用命令示例:ping/traceroute/mtr,show interfaces,show ip route,show bgp summary,tcpdump 或 tshark 抓包以定位是否为业务层问题。
推荐组合:采集层用 Telegraf/Node Exporter + SNMP,时序数据库用 Prometheus 或 InfluxDB,展示与告警用 Grafana + Alertmanager 或 Zabbix。针对链路质量可并行使用 RIPE Atlas、ThousandEyes 或自建主动探测探针。
关键采集项:ICMP/TCP 探测、BGP 会话监控、接口流量(ifIn/ifOut)、错误计数、CPU/内存、应用层响应(HTTP/TCP握手)、NetFlow/sFlow 采样。把业务关键路径的探测放到不同地理点来捕捉 香港 和 新加坡 的地域差异。
应急流程需标准化:检测—分级—隔离—缓解—恢复—归档。每一步都要有负责人、联系方式、时间窗口与可执行命令。建立线路切换与流量旁路(BGP prepends、社区标签、SD-WAN 策略)预案,并准备回滚方案。
演练建议:定期做桌面演练与现场演练,覆盖链路中断、路由泄露、DDoS、设备宕机场景。演练后进行事后复盘并更新 Runbook,记录误报与漏报案例,优化阈值与抑制规则。