广域网常见故障处理:这些坑你可能天天踩

公司早上开视频会议,画面卡成PPT,电话断线重拨好几次。IT小哥一查,又是广域网出问题。别以为重启路由器就万事大吉,很多“小毛病”背后藏着典型故障模式。

ping不通?先看物理层

最基础也最容易忽略的一点:线路通不通。办公室到运营商机房这段链路,中间经过光猫、交换机、防火墙,任何一个接口松了,灯不亮,都会导致整个广域网瘫痪。别急着改配置,先去机柜前看看设备指示灯。绿灯常亮或闪烁正常,红灯或灭灯就得警惕了。

比如某次财务部打不开银行系统,排查发现是接入层交换机的上行口光纤被老鼠咬破了。换了线,秒恢复。所以,环境检查不能跳过。

DNS解析失败,不一定是DNS的事

网页打不开,第一反应是“DNS挂了”?不一定。广域网中,数据包得先能出去,才能谈解析。可以用命令测试连通性:

ping 8.8.8.8
ping www.baidu.com

如果第一个通,第二个不通,才可能是DNS问题。两个都不通,说明网络出口就有障碍,可能是默认路由丢失、NAT配置错误,或是运营商线路中断。

延迟高?MTU设置背过锅

跨国分公司传文件慢得像蜗牛,测速却显示带宽充足。这时候得怀疑MTU(最大传输单元)是否匹配。不同运营商、不同链路类型对MTU要求不同,设太大导致分片,太小又降低效率。

常见值是1500字节,但用PPPoE拨号的线路通常要设成1492。可以逐步测试:

ping -f -l 1472 www.example.com

这里的1472是有效载荷,加上IP头和ICMP头正好1500。如果返回“需要分片”,就说明路径中有设备限制更小,得调低MTU。

间歇性断网,小心ACL误拦

某个部门突然上不了外网,换个IP又好了,过两小时再断。这种“玄学”问题,多半是防火墙或路由器上的访问控制列表(ACL)在作怪。比如一条规则写着“限制每IP每分钟超过100个连接就封”,结果视频会议+云盘同步+邮箱推送一叠加,刚好踩雷。

查日志就能发现线索,比如Cisco设备用:

show access-lists OUTBOUND_FILTER

看到命中计数猛增,基本就能定位。调整阈值或排除关键IP,问题迎刃而解。

BGP邻居老掉线?看Keepalive机制

大型企业用BGP做多线路冗余,但经常遇到邻居状态频繁切换。除了线路质量差,还有一个常见原因是Keepalive和Hold Timer不匹配。两端设备必须协商一致,否则会误判对方“死亡”。

标准是Keepalive=30秒,Hold=90秒。如果一端改成了60/180,另一端没同步,就会出现每隔90秒就重连一次。

最后提醒:别忽视时间同步

日志时间对不上,排查时完全没法比对事件顺序。广域网设备建议统一启用NTP,哪怕只是指向内网时间服务器。

ntp server 192.168.1.10 source vlan10

一台路由器时间快了5分钟,可能导致安全策略误判证书过期,连HTTPS都打不开,查半天才发现是时间错位。

广域网不像局域网那么直观,但它撑着整个组织的对外通信。日常维护不用多复杂,定期巡检、记录基线、留好配置备份,真出事时才能快速回血。