症状:
一台P4品牌PC机,内置英特尔网卡,一直以来用得挺好,浏览因特网,内网的通信都很正常。有一天,发现这台计算机在浏览因特网时时通时断,ping因特网上的地址时,也是通一下,断一下,但ping内网时什么问题也没有,和内网的通信也非常正常,就是和因特网通信时有这种现象,非常令人费解。这台电脑的IP地址为192.168.24.55,防火墙的IP地址为192.168.24.7。
故障分析一:检查物理链路
访问因特网的电脑都是通过Netscreen NS25防火墙来连接的,如果说是防火墙的问题,那其他的电脑访问因特网都挺正常,没有时通时断的现象。根据这台电脑ping的现象来看,问题似乎应该在下三层,而时通时断的现象好像是典型的物理层的问题,那么首先开始检查链路。
这台电脑接在一台Cisco三层交换机的某一个端口上,防火墙也接在这台三层交换机上,在三层交换机上启用了路由,配置上肯定没有问题。先检查电脑到交换机的网线,如果说这根网线有问题,那么这台电脑与内网的通信也应该有问题,通过对这根网线的测试证实没有问题。防火墙到交换机的跳线就更应该没有问题了,因为其他的电脑都没有问题。由此可以判断链路是没有问题的,网卡会有问题吗肯定也不会,因为它跟内网的通信是正常的,所以网卡肯定也没有问题。那么就可以排除物理层的问题了。
故障分析二:模拟数据通信
再看网络层,这台电脑能够访问因特网,只不过有丢包而已,似乎网络层也不应该有问题,那么所有问题似乎就集中在数据链路层了。数据链路层的问题会是哪里(
电脑自动关机)呢思考了几天,毫无头绪,最后只好仔细地想一想网络通信的过程,看能不能找到问题。
假设这台电脑有一个数据包需要发送到因特网,那么首先它会检查目的地址与本机地址是否在一个网络中,如果不在一个网络中,就会将数据包发送给默认网关。本案例中目的IP为因特网地址,肯定不在一个网络中,所以数据包会发送给默认网关。在这里(电脑自动关机)默认网关为那台Cisco三层交换机,IP地址为192.168.24.10。这时192.168.24.55这台电脑会检查本机的ARP表,查找192.168.24.10所对应的MAC地址,如果在ARP表中没有发现相应的ARP表项,它就会发送一个ARP请求包,并将它发送给网络中的所有设备来获得192.168.24.10的MAC地址。由于ARP请求包是以广播方式发送的,网络中的所有设备都会接收到这个包,然后传送给网络层检验。
当Cisco三层交换机接收到这个ARP请求时,就会检查本机的IP地址和ARP请求包中的目的IP地址是否相同,如果相同,交换机就会做出ARP应答,将它的MAC地址发送给源,也就是192.168.24.55这台电脑。这台电脑收到ARP应答包后,就会将交换机的IP地址(192.168.24.10)和MAC地址写入ARP表,然后将交换机的MAC地址作为目的MAC地址封装到数据包中,并将数据包发送到交换机。交换机在收到数据包后,就会检查目的IP是否在本网段中,若发现不在本网段中,就会查找路由表,看看有没有到目的IP的路由条目,如果没有,就会将数据包发送给默认路由。在本案例中这台交换机的默认路由是那台IP为192.168.24.7的防火墙。所以交换机就会发送一个ARP广播,以获得防火墙的MAC地址。防火墙做出ARP应答后,交换机就会将防火墙的MAC地址作为目的MAC地址封装到数据包中,数据包就会发送到防火墙,然后防火墙就会又重复上述过程,将数据包发送给因特网上的目的地址。这一切过程都是正常的,没有什么问题。在电脑和交换机的ARP表中都能找到相应的ARP记录,用tracert命令跟踪路由也是正常的。那问题究竟在什么地方呢看来还得继续分析。
故障分析三:过滤ARP表
在数据包到达了因特网上的目的地址之后,响应的数据包要返回到这台电脑,那么它也应该重复前面的过程。返回数据包先到达防火墙,在防火墙的ARP表中寻找目的IP地址所对应的MAC地址,如果没有,就会发送ARP请求,得到目的电脑的MAC地址,将电脑的IP地址和MAC地址写入防火墙的ARP表,封装后发送给这台电脑。这一切看起来都是正常的,但为什么会出现时通时断的现象呢由这台电脑在内网都是正常的现象来判断,在三层交换机上应该是没有问题的,只是在访问因特网时才出现问题,最后决定从防火墙上开始检查。
Telnet上防火墙,检查防火墙配置,一切正常;检查端口,一切正常;检查路由表,也是一切正常。疑惑中,似乎不知该从哪里(电脑自动关机)下手了。突然间,想起来为了防止内网用户盗用IP地址上网,在防火墙上做了IP地址和MAC地址的绑定!对,检查ARP表。于是输入命令get arp,显示一大串ARP表的信息,竟然全部是IP地址和MAC地址的静态绑定的信息,仅有一条动态的,那是防火墙的下一跳的IP地址和下一跳的MAC地址的信息,就是没有192.168.24.55的ARP表项,难道是ARP表的问题似乎看到了一线希望!
于是决定先清除几个静态绑定的ARP表项试试。先用unset arp命令一连清除了6条静态绑定的ARP表项,然后在那台电脑上ping因特网的地址,居然不丢包了!困扰我几天的问题难道就这样解决了吗我简直有点不敢相信,又让我的同事在这台电脑上面测试一下,登录QQ,浏览网页,收发邮件……居然一切正常,再也没有原来时通时断的现象了!再Telnet到防火墙上,执行get arp命令一看,192.168.24.55那台电脑的ARP表项赫然在目。看来问题真的解决了!高兴之余坐下来再好好想一想原因吧。
通信原理:
这台Netscreen NS 25防火墙最多支持128个ARP表项,如果不进行静态绑定,ARP表项会不断地进行更新,超时的自动会删掉,所以不会出现ARP表项被占满的情况。而如果是静态绑定,那么它永远就不会被清除,永远会占据一个ARP表项,留给动态使用的ARP表项空间就会越来越少,直到全部占满,导致我所碰到的情况。那么既然如此,有朋友会问了,既然都占满了,其他的电脑就会完全不通,为什么会出现时通时断的现象呢于是我将ARP表项数了一下,静态绑定的刚好达到127个,剩下一个给防火墙的下一跳的地址占用了,注意这个是动态的,当它的更新时间到了之后,就被删掉了,那台电脑就占用了这个表项,于是网络就通了,因为还有其他的电脑在不断地访问因特网,所以192.168.24.55的ARP表项一到达更新时间马上就会被防火墙的下一跳的地址所占用,这时网络就不通了。其实在这时,我单位的所有机器在访问因特网时都会出现时通时断的现象,只不过防火墙的下一跳的地址占用ARP表项的时间长,因特网中断的时间在大家能够忍受的范围内,都没有发觉罢了。因为防火墙的下一跳的地址占用ARP表项的时间长,192.168.24.55的ARP表项写不进ARP表,产生超时,所以它不通的时间就长一些,就出现时通时断的现象了
分析ARP,排除网络故障