首先要明确定位边界:是客户端到互联网出口、本地运营商,还是云端实例。常用的快速判断命令有 ping、traceroute(或 tracert)、以及使用浏览器访问或 curl 测试。
在本地终端运行 ping <目标IP或域名>,查看丢包和延迟;若 ping 不通,执行 traceroute <目标> 看路由中断点。
若本地怀疑运营商问题,使用手机4G/其他网络或在线端口检测工具(如 ping.pe、viewdns)对目标进行跨网段测试,判断是否为全球可达性问题。
在文档中把 运维清单 的排查顺序记录为:本地 -> 互联网中间链路 -> 云端,便于快速回溯问题源。
登录阿里云控制台,重点检查实例的网络与安全设置,包括 安全组、VPC 路由表、子网、弹性公网 IP(EIP)、NAT 网关和云防火墙规则。
查看安全组入方向/出方向规则,确认相关端口(如 22/80/443/自定义端口)是否允许源 IP 或 0.0.0.0/0(按需开放)。
检查 VPC 路由表,确认目标子网有正确的默认路由指向 Internet 网关或 NAT;如果使用专线/VPN,检查路由策略是否覆盖目标网段。
确认 EIP 是否正确绑定到实例或负载均衡器,且未欠费释放;查看弹性网卡(ENI)是否状态正常。
常用工具包括 ping、traceroute/mtr、tcpdump、telnet/nc、curl、以及阿里云提供的云助手/运维编排工具。
在实例上运行 sudo tcpdump -i eth0 host <对端IP> and port <端口>,观察是否有 SYN 到达或 RST 返回,用以判断服务是否在监听或被防火墙丢弃。
使用 telnet 或 nc -vz 测试 TCP 握手;curl 可用于 HTTP/HTTPS 请求和响应头检查。
mtr 结合 ping 与 traceroute,可查看链路各跳延迟和丢包,适用于分析间歇性网络抖动。
复现步骤要以最小权限和最小流量进行,同时记录时间线。先用 traceroute 定位到最后可达跳点,再排查云端路由或安全策略。
临时放行目标 IP/端口到安全组,或者创建允许规则做对比测试;若恢复连通,说明是安全组策略问题。
查看路由表是否存在错误的下一跳(例如指向不存在的 ENI 或本应在专线的路由未下发),修正后等待路由表生效并再次测试。
对任何变更先在非生产环境验证,并在变更单中记录回滚方案,避免生产中断。
运维清单应包含问题描述、影响范围、复现步骤、已完成的排查项、命令输出(如 ping/traceroute/tcpdump)及变更记录,便于向团队或阿里云支持提交工单。
提供实例 ID、EIP、安全组截图、路由表配置、tcpdump 报文片段和 traceroute 输出,清晰说明故障开始时间与波动规律。
阿里云云助手和云监控(CloudMonitor)可查看网络指标、告警与日志,必要时申请阿里云网络专项支持并授权远程诊断权限。
模板包括:问题标题、影响服务、时间窗口、优先级、复现命令与结果、临时绕过方案、最终处理措施与责任人。