广域网常见故障处理实战指南

公司早上开视频会议，画面卡成PPT，电话断线重拨好几次。IT小哥一查，又是广域网出问题。别以为重启路由器就万事大吉，很多“小毛病”背后藏着典型故障模式。

最基础也最容易忽略的一点：线路通不通。办公室到运营商机房这段链路，中间经过光猫、交换机、防火墙，任何一个接口松了，灯不亮，都会导致整个广域网瘫痪。别急着改配置，先去机柜前看看设备指示灯。绿灯常亮或闪烁正常，红灯或灭灯就得警惕了。

比如某次财务部打不开银行系统，排查发现是接入层交换机的上行口光纤被老鼠咬破了。换了线，秒恢复。所以，环境检查不能跳过。

网页打不开，第一反应是“DNS挂了”？不一定。广域网中，数据包得先能出去，才能谈解析。可以用命令测试连通性：

ping 8.8.8.8
ping www.baidu.com

如果第一个通，第二个不通，才可能是DNS问题。两个都不通，说明网络出口就有障碍，可能是默认路由丢失、NAT配置错误，或是运营商线路中断。

跨国分公司传文件慢得像蜗牛，测速却显示带宽充足。这时候得怀疑MTU（最大传输单元）是否匹配。不同运营商、不同链路类型对MTU要求不同，设太大导致分片，太小又降低效率。

常见值是1500字节，但用PPPoE拨号的线路通常要设成1492。可以逐步测试：

ping -f -l 1472 www.example.com

这里的1472是有效载荷，加上IP头和ICMP头正好1500。如果返回“需要分片”，就说明路径中有设备限制更小，得调低MTU。

某个部门突然上不了外网，换个IP又好了，过两小时再断。这种“玄学”问题，多半是防火墙或路由器上的访问控制列表（ACL）在作怪。比如一条规则写着“限制每IP每分钟超过100个连接就封”，结果视频会议+云盘同步+邮箱推送一叠加，刚好踩雷。

查日志就能发现线索，比如Cisco设备用：

show access-lists OUTBOUND_FILTER

看到命中计数猛增，基本就能定位。调整阈值或排除关键IP，问题迎刃而解。

大型企业用BGP做多线路冗余，但经常遇到邻居状态频繁切换。除了线路质量差，还有一个常见原因是Keepalive和Hold Timer不匹配。两端设备必须协商一致，否则会误判对方“死亡”。

标准是Keepalive=30秒，Hold=90秒。如果一端改成了60/180，另一端没同步，就会出现每隔90秒就重连一次。

日志时间对不上，排查时完全没法比对事件顺序。广域网设备建议统一启用NTP，哪怕只是指向内网时间服务器。

ntp server 192.168.1.10 source vlan10

一台路由器时间快了5分钟，可能导致安全策略误判证书过期，连HTTPS都打不开，查半天才发现是时间错位。

广域网不像局域网那么直观，但它撑着整个组织的对外通信。日常维护不用多复杂，定期巡检、记录基线、留好配置备份，真出事时才能快速回血。

广域网常见故障处理：这些坑你可能天天踩