在局域网刚刚组建的一段时间内,网络运行状态往往都比较稳定,这是因为网络设备都是新的,网络应用也比较少;可是运行时间长了之后,局域网中出现的网络故障就比较多了,例如Web站点不能浏览了,物理连接掉线了,网络连接速度变慢了,上网性能不稳定了等等。其中,一些网络故障由于具有特别明显的现象,排查、解决起来往往比较轻松;但是也有一些网络故障却非常奇怪,明明ping测试一切正常,可是网络传输速度异常缓慢,对于这类特殊的故障现象,我们必须要多点出发、全面排查,才能定位故障原因、解决故障现象。这不,笔者曾经遭遇一则上网不稳定的故障现象,经过多点、全面地排查,竟然发现该故障是由于路由器内存容量不足引起的,由于这种故障因素很少出现,在排查该故障的过程中很容易多走弯路,现在本文就将该故障的排除过程还原出来,供各位朋友参考交流!
案发现场
笔者单位的一个下属公司,共包含技术部、工程部、业务部、销售部这几个部门,每个部门大约有20台左右的普通计算机,这些计算机全部通过各自部门的BayNet品牌的普通交换机连接到局域网的CISCO路由器中,每个部门都拥有自己独立的工作子网,它们相互之间不能互相访问,普通计算机只能在相同的工作子网中进行共享、交流;但是,单位的文件服务器、打印服务器、Web服务器等,都是直接连接到路由器端口上的,所有部门的计算机都可以直接访问,并且它们还能通过路由器访问Internet网络。为了保证局域网网络的运行安全,下属公司的网络管理员还在路由器与Internet网络之间,架设了天融信硬件防火墙,来对整个单位的网络访问行为进行安全控制与监视。
平时,各个部门的普通计算机都能正常上网,并且这些计算机在各个部门的内网中,都能互相进行共享、交流访问;同时,由于工作需要,各个部门的上网用户几乎每天都要访问公司的Web服务器,从中查询、下载公司的一些内部信息。可是,最近一段时间,网络管理员发现各个部门的用户在访问Web服务器或Internet网络时,经常会出现上网不稳定的现象,也就是说有时候上网速度很快,有的时候上网速度很慢,甚至还会出现一会儿能上网,一会儿不能上网的故障现象。
排查故障
由于这种故障现象存在于各个部门,网络管理员估计这种现象多半与普通客户端系统自身的设置没有任何关系,那究竟有哪些因素会影响整个局域网的上网稳定性呢?网络管理员对故障现象再次进行了琢磨分析,认为该故障发生时几乎没有什么规律可遵循,上网有快有慢,网络有时能上有时不能上,这种无规律的故障现象很有可能是局域网中的网络病毒引起的,事实上许多由病毒造成的网络故障就是表现得如此没有规律。如果确认网络病毒的确是造成上网不稳定故障因素的话,那么网络病毒很可能造成了网络中某些重要通信端口数据流量的异常;依照这样的分析,网络管理员决定先用超级终端程序登录进入局域网路由器后台系统,然后利用该系统自带的扫描诊断功能,发现局域网中各个交换端口的数据流量并不是很大,这说明网络病毒并没有造成重要端口数据传输发生瓶颈现象。虽然如此,网络管理员还是有点不放心,要求各个部门的工作人员,立即登录到局域网中的网络病毒防御服务器,安装更新网络杀毒软件,并利用它对自己部门的计算机系统进行一次病毒查杀操作,可是这样的努力没有取得任何效果,看来局域网上网不稳定的故障现象与网络病毒无关。
考虑到网络管理员先前已经扫描过各个交换端口的流量情况,并没有看到有异常情况,这说明局域网中并不存在重要数据端口瓶颈现象,也就是说上网不稳定故障现象与端口瓶颈因素也没有关系。同时,重要交换端口的数据流量大小正常,也反映了局域网中不存在广播风暴或者网络环路现象,因为这些现象要是存在的话,我们应该能够看到重要交换端口的输出广播包大小应该不断增加才对,可事实却没有,这就意味着上网不稳定故障不是由网络广播风暴或网络环路现象引起的。
在初步排除了端口瓶颈因素、网络环路因素、广播风暴因素以及网络病毒因素后,网络故障还是不能消除,这让网络管理员万分的懊恼。以前提到上网不稳定故障,网络管理员可能会下意识地认为是网络连接不牢靠的因素,可是现在他怎么也不会怀疑到网络连接因素上,因为这种上网不稳定的故障几乎在各个部门的工作子网中都会出现,如果真的是网络连接不牢靠的话,那也不可能局域网中所有计算机都同时出现不牢靠现象吧。
有没有可能是网络设备自身性能不稳定,造成了上网不稳定现象呢?联想到夏天的时候,一些设备由于散热不好,造成自身工作性能下降,经常出现上网掉线或速度缓慢现象,为此网络管理员推断可能是局域网中的路由器或交换机过热,造成自身工作性能不稳定。于是,网络管理员立即来到公司机房,先是观察了路由器、交换机的信号灯状态,发现一切正常,之后用手触摸这些设备的表面温度时,也没有觉察到有什么异常现象。
在万般无奈的情况下,网络管理员决定登录进入局域网的防火墙系统,查看其中的一些运行状态信息,看看有没有什么值得怀疑的地方。让他感到非常意外的事情出现了,网络管理员看到局域网防火墙竟然记录了许多IP地址为0.0.0.0主机的通讯痕迹,那0.0.0.0究竟是什么样的主机地址呢?经过上网搜索,网络管理员发现该地址是Windows系统对所有未知IP的地址描述,包括网卡设备通过dhcp方式取得的地址,pppoe的IP地址,以及其它非本机指定的IP地址;此外,0.0.0.0地址也代表全零网络,它能帮助路由器发送路由表中无法查询的包。如果设置了全零网络的路由,路由表中无法查询的包都将送到全零网络的路由中去。 通过上面的描述,网络管理员认为该地址其实就是一个不存在的地址,那么究竟是什么因素让外网不停地与局域网中一个根本不存在的主机进行通信呢?如果真的是外网与0.0.0.0地址不断进行通信的话,那么外网的数据包是如何进入到局域网中的呢,因为单位局域网中的防火墙已经被设置,阻止那些使用明显虚假地址的主机进行通信的?
解决故障
经过进一步查看防火墙记录,网络管理员看到0.0.0.0地址没有进行任何通信操作,难道它们真的被防火墙拦截了?会不会是局域网遭到了非法攻击,攻击包在进入内网之后,将其IP地址乔装成0.0.0.0地址了呢?可事实情况是,那个IP地址为0.0.0.0的主机没有进行任何通信操作,那么非法攻击包即使在尝试攻击内网,也没有成功,如此一来它也不会造成上网不稳定的现象;为此,网络管理员断定不存在外网攻击的事情,那个0.0.0.0地址肯定来自局域网内部,那么这个不可能的IP地址究竟是怎么产生的呢?再次上网咨询相关信息,网络管理员发现一些重要网络设备的内存容量不够时,可能会在通信过程中丢弃一些数据包信息,造成某些上网内容无法有效组合在一起,此时就容易产生一些0.0.0.0地址。
依照上述理论分析,网络管理员推断0.0.0.0地址很可能来自内网,并且该地址很可能是由于局域网中的交换机或路由器内存容量不够引起的。由于上网不稳定故障在各个部门都存在,网络管理员估计问题多半出在与个工作子网都有关的路由器设备上,于是这一次准备通过远程连接方式登录进入局域网路由器后台系统,在远程登录过程中,网络管理员感觉到登录速度明显迟钝,看来路由器设备真的出现问题了。之后,他使用Console控制线直接连接到路由器后台系统,查看其内存的使用状态时,发现该设备的内存容量确实不足了,很明显在上网高峰期间,路由器的内存容量就更显不足了,如此一来路由器自然就无法正常转发数据信息了,这也正是各个部门上网不稳定的原因。
找到了故障原因后,网络管理员立即重新启动了一次路由器系统,发现各个部门的上网状态立即又恢复正常了,此时再次监控路由器的内存容量时,发现该内存占用率也在不断变大,看来要真正解决问题,还得需要升级路由器设备,要不然过一段时间,又要重新启动路由器系统了
新闻热点
疑难解答