1.
目标与前置准备
- 目标:实现主用 CN2 线路到新加坡站点的高可用与自动切换;
- 前置:确认业务 IP 段、ASN、带宽需求、所在机房和已有交换机/路由器型号;
- 步骤:清点现有链路、准备联络清单(运营商、机房、对端工程师)、拟定 SLA 与切换窗口。
2.
架构设计概览
- 拓扑:主链路(China Telecom CN2 -> 新加坡 POP A)+ 备份链路(不同承载商或 Internet/L2VPN -> 新加坡 POP B);
- 多样性:物理路径、承载运营商、交换设备、机房电源要尽量不同;
- 备份类型:主动-被动(BGP 优先级)或主动-主动(流量分流 + 本地策略)。
3.
IP 与 ASN 规划
- 分配:确认对外公布的公网前缀与各链路的下一跳;
- ASN:若有自己的 ASN,确保与两个对端建立 BGP;若无,可使用承载商提供;
- 路由策略:为主链路设置较高 local-preference,备份链路使用 AS-Path prepend 或 community 控制进流。
4.
电路采购与物理接入
- 下单:按机房交付时间下单 CN2 电路并要求多 POP 布局(例如 SG-POP1、SG-POP2);
- 交付:确认光纤交叉连接、MDF/ODF 端口、VLAN/子接口号;
- 验收:物理链路测试(OTDR 或光功率)、回环测试、提供商链路报告。
5.
路由配置与 BGP 实施步骤
- 建立 BGP:配置对端 ASN、邻居 IP、keepalive/holdtime;
- 策略:实现 route-map 或 policy-statement,主链路设置 local-preference=200,备份 local-preference=100;
- 示例(思路):对主链路:set local-preference 200;对备份链路:set as-path prepend "ASX ASX"。
6.
加速故障检测(BFD/检测器)
- 使用 BFD:在两侧路由器启用 BFD,调低探测间隔(例如 50ms/3)以实现毫秒级故障感知;
- IP SLA/ICMP:对关键链路配置 IP SLA(目标为对端或网关)配合路由重配;
- 结合:BFD 触发 BGP 会话关闭,IP SLA 触发静态路由优先级调整。
7.
备份链路类型与配置建议
- MPLS/L2VPN 备份:和不同运营商建立 L2VPN,BGP peering 同步;
- Internet+SD-WAN 备份:构建加密隧道(IPsec/DMVPN)并在 SD-WAN 边缘做策略路由;
- 逻辑隔离:为备份链路配置独立 VRF 或路由表,避免回路与政策冲突。
8.
切换与回切策略
- 切换流程:自动切换(BFD+BGP)与手动回切(先人工确认)二选一;
- 回切条件:主链路连续稳定 N 分钟(例如 10 分钟)且无抖动再回切;
- 风险控制:回切前先在维护窗口或通知下游,避免震荡。
9.
测试与验证步骤
- 实验室验证:先在灰度环境模拟链路断开测试 BGP 行为与流量切换;
- 现场演练:安排时间窗口做现场断链、观测 BGP 收敛时间、应用响应;
- 指标:目标收敛时间(如 <1s/BFD 或 <30s 无感知),并记录 pcap、路由表快照。
10.
监控与报警
- 必备项:链路 UP/DOWN、BGP state、BFD session、流量统计、丢包/延迟;
- 工具:使用 Prometheus+Grafana、SNMP、NetFlow/sFlow 或厂商 NMS;
- 报警策略:按严重级别通知值班、运营商并自动生成工单。
11.
运维自动化与故障处理流程
- 自动化脚本:实现一键收集路由表、BGP 会话、链路日志的脚本;
- Runbook:编写故障排查步骤(链路->物理->接口->BGP->应用),并训练值班人员;
- SLA 升级:当自动化检测到无法恢复的故障,自动触发运营商工单并通知客户。
12.
问题1:为什么要用 CN2 作为主链路?
13.
回答1:CN2 优势与适用场景
- CN2 往返延迟、丢包表现通常优于公共互联网,适合对延迟敏感或金融类业务;
- 但仍建议配备不同承载商的备份以抵御单一运营商故障或国际光缆中断。
14.
问题2:BGP 配置中如何防止环路和路由抖动?
15.
回答2:防环路与稳定性策略
- 使用 AS-PATH 过滤、prefix-list 限制对端可接受的前缀;
- 通过合理的 local-preference、MED 与 route-map 控制优先级;启用 BFD 降低收敛时间同时避免频繁 flap 的抖动阈值。
16.
问题3:如何验证切换对业务无感知?
17.
回答3:验证方法与关键指标
- 在非高峰期做断链演练,监控应用层(HTTP/TCP 重传、会话中断率)、网络层(丢包/RTT)与用户体验指标;
- 设定成功标准(如 95% 请求在 <200ms 内返回、会话不中断),并记录日志作为回溯证据。
来源:结合新加坡电信cn2 设计容灾和备份链路的架构与实施步骤