朱创明--IDC机房的运行与维护

时间:2024.5.4

朱创明IDC机房的运行与维护

本科毕业论文(设计)

题 目: IDC机房的运行与维护

学 生: 朱创明 学 号: 2011-0511-0161 学 院: 信息科学 专 业: 信息管理与信息系统 入学时间: 2011 年 09 月 15 日

指导教师: 孙刚 职称: 博士

完成日期: 2015 年 02 月 26 日

IDC机房的运行与维护

摘 要:目前IDC机房的运行维护仍然会遇到很多问题,部分让人束手无策 为了更加便于IDC机房的维护,故以维护工作过程中可能遇到到的问题作为研究课题,详细,综合的说明解决方法,提高维护效率。

关键词:IDC ; 维护 ; 故障处理

目 录

1 绪论.........................................................3

1.1 IDC的简介...................................................3

1.2 IDC的重要性.................................................3

1.3 选题缘由.....................................................4

2 IDC机房注意事项................................................4

2.1数据的备份工作................................................4

2.2备用设备的选.择...............................................5

2.3安全管理工作..................................................5

3 服务器故障实例.................................................6

3.1 CPU故障.....................................................6

3.2 CPU风扇故障.................................................7

3.3 硬盘故障......................................................8

3.4 RAID容量识别错误............................................9

3.5 iDRAC地址设置后无法访问......................................9

3.6 内存故障.....................................................10

3.7 RAID 1 硬盘损坏..............................................11

3.8 Mac 地址漂移故障.............................................12

3.9 VLAN无法阻止广播风暴.........................................13

3.10 网络时断时续................................................15

3.11 子网掩码配置错误引起故障...................................16

3.12 无法获取正确的IP地址.......................................18

3.13 恢复丢失的MAC地址.........................................19

4 结束语.......................................................19

致谢............................................................20

参考文献........................................................20 1

1 绪论

1.1 IDC的简介

IDC是“互联网数据中心(Internet Data Center)”的首字母缩写,顾名思义,它控制着因特网大量的数据。可以为用户提供多种网络服务,例如:申请网络域名、租用虚拟主机、服务器的托管与租用,网络云主机等。

目前看来,对于IDC还没有出台统一标准,但是我们可以将其看做公用的,商业化的Internet机房,提供各种网络服务。

IDC有两个重要的特征:(1)在网络中的位置;(2)总的网络带宽容量。它是组成网络基础资源重要的一部分,这点和骨干网、接入网类似,它能提供高端的数据传输服务以及高速接入的服务。

1.2 IDC的重要性

IDC是IT界里重要的基础设备,电信部门使用他们的网络通讯线路和宽带,建立标准化的电信机房,为企业、政府部门提供服务;例如服务器的托管、维护等全方面服务。所以,如果客户使用电信IDC机房服务器托管业务,相关企业、政府单位就不用再自己建立专门的机房,架设通讯线路,雇佣网络工程师维护机房,只需要直接使用,省时省力省资金。客户需要做的是从电信部门申请使用互联网静态IP地址,验证之后,就可以发出自己的Web站点,然后把自己的产品以及服务发布上去,通过互联网平台宣传到全世界。

IDC不只是网络数据存储的中心,还是数据交流的中心,它存在于网络中数据交换最为集中的地方。随着Internet网络的高速发展,网站系统对于服务器的带宽,管理,维护的要求也越来越高,给相应的企业提出了严峻的挑战。所以,企业开始将网站托管的相关服务转交给专门提供Internet服务的IDC去做,把所有精力集中放置到增强企业核心竞争力的领域去。因此看来,IDC是现代化Internet企业分工细化的结果。

因此,IDC在电子商务日益普及的今天,起着无比重要的作用,如果把整个网络体系比作是一个人,那么IDC就是这个人的血液循环系统,没有IDC,整个网络体系就不可能存在。

1.3 选题缘由

正如上文所说,IDC机房作为当今互联网的中枢,其重要性不言而喻,一旦其出现了问题,将会给用户带去无法预估的损失。虽然机房的设备使用的都是业界一流的产品,但是再好的东西也有出问题的时候,一旦出现了问题必须立刻找到解决方法,不然轻则影响业务,重则影响一个区域的网络畅通。

在此背景下,笔者决定撰写一篇关于IDC机房维护方面的文章作为笔者的毕业论 2

文。

2 IDC机房注意事项

2.1数据的备份工作

机房内服务器硬盘上的数据都是十分重要的,大多是客户的数据资料以及网络机密文件,所以,骇客们常常会试图攻击服务器来盗取资料,瘫痪服务器,破坏数据,造成难以预料的经济损失。几乎每一台服务器每一天都在被骇客们“骚扰”着,不过借助于服务器安全软件,以及数据的备份,就可以把损失降低到最小。

比如,一个网络的核心交换机突然崩溃,如果对其配置做了备份,那么换了新的交换机上去,就可以很快恢复。又比如,储存处理企业核心业务的数据库服务器被攻击导致损坏,如果有备份,损失将会减小好多,有条件的话,建立热备的同时,主要的核心数据还要要采取冷被,刻录光盘,建立专用备份机柜都是不错的选择。如果能做异地备份,那么就是碰到地震等灾害也能很快的恢复业务。虽然这些都不大可能,但是,机房要求的是绝对的安全,确保万无一失。

备份方式:

(1)RAID备份;服务器内部通过硬盘阵列RAID进行备份,这是最基本的备份,比如RAID 1 模式,就可以实现最简单的备份,具体方式在此不过多叙述。

(2)自动备份;现在服务器的数据存储量指数倍增大,而且数据量变动很大,如果采取人工备份,不仅速度慢,而且容易出错,不容易管理。因此,可以通过相关软件给服务器添加备份计划,比如,白天的空闲时间自动进行数据增量备份,晚上空闲时进行数据的完全备份,此种备份方式和上述RAID 1 相似。

(3)WEB备份;机房的所有服务器正常情况下都有总控的机器,通过总控远程控制,笔者所在的机房就可以进行此种备份。机房有一个单独的房间,专供服务器备份,房间内有专用存储机柜,所有服务器的所有数据在会在专用存储机柜内进行备份,备份的机柜的安全必须严格保证,安全软件必须安装,随时检查更新。这样可以有效降低数据丢失,破坏等风险。

2.2备用设备的选择

机房最重要的要求就是要保持高度稳定,一旦遇到设备故障,使用备用的设备顶上去,然后再去查找问题发生的原因,那就是最快的故障处理方式。

当然这个还要占用一定的经济成本,毕竟机房用的设备大多价格昂贵,所以要取得一个两者之间的平衡。需要闲置的设备有:服务器整机,电源模块,硬盘,内存,主板,RAID卡,各种连接线,CPU,交换机。也许你也发现了,这些配件都可以组成一台完整的机器了。这其中,主板可以少一点,因为它坏的概率很小,笔者在机房几个月,没有遇到过主板损坏的情况,CPU,内存也是;但相比之下,硬盘坏的情况就多了,因为它的结构决定了它是最容易坏的,这也是相对,因为机房所用的硬盘都是企业级硬盘,MTBF都在100,000小时以上。

3

2.3安全管理工作

机房的部分设备都连接着Interent,安全工作没做好,轻点的话影响业务的处理,严重就会导致数据丢失,将会造成各种无法预见的严重后果。

所以在机房的工作人员必须树立很高的安全意识,因为我们只有在思想上引起重视,安全措施才会得到落实,不然就算采取再多的安全措施,也是徒劳。管理人员注意自身行为以后,还需要配合相应技术措施,这样就可以高效管理机房。 下面笔者就列举一些方面:

(1)根据业务的不同,如果用Windows服务器,就需要关闭一切不需要的端口,最好能做一个模版,就可以根据不同的业务对端口号进行对应的修改。

(2)对系统扫描和杀毒,尽量在非业务运行时间或者业务低谷期查毒,建议只查不杀,如果检查到了病毒,需要手工处理,因为服务器上都是重要数据,要防止误杀。

(3)设定远程控制服务的端口为非常规端口,修改远程桌面,VNC ,SSH 等端口为高等端口,同时还要限制允许登录IP以及MAC。

(4)设置复杂口令,并且定期更换。建议采取令牌认证等高级认证手段。

(5)重要数据从内部网传输,应用服务器和数据库服务器通讯要通过内网,不要走外网,一方面减小外网压力,另一方面,也是最主要的,就是安全性更高。

3.服务器故障实例

3.1 CPU故障

不久前笔者所在机房有一台Dell R820服务器前排面板上出现这个问题

“cpu0000 cpu1 internal error (IERR) contact support ”,有可能会导致服务器死机或者重启或无法正常启动,我们需要在BIOS中关闭该设置即可。

解决步骤

(1)将机器关机,切断电源;

(2)按住电源键20秒,等待1分钟左右,将电容残存的电量放空;

(3)接通电源,开机;

(4)开机后根据相关提示按下对应按键,进入系统BIOS设置;

(5)选择System Setup - System BIOS ,选择 system profile Settings,进入后将右边的 Performance Per Watt(DAPC)改为 Custom(自定义);

(6)然后可发现,下方的其他选项变为可选;

(7)将 CIE 和 C States 选项修改成 Disabled;

(8)按下ESC返回,然后保存设置,接着重新启动服务器。

终于,问题得以解决。

这次的经历,CPU并没有物理损坏,而是CPU节能设置上的问题,但是后来又有一台r410 下架,需要换2块硬盘,换上6IR的RAID卡做RAID 1 阵列并安装系统。很简单,我立马去做了,打开机盖,发现这个机器的内存查的不合理,明明有2个c 4

pu,但是内存却插在一个cpu内存插槽里面,对于有强迫症的我来说看不惯,就把内存平均分配给2个cpu,换好硬盘,开机的时候问题出现了,系统初始化后只能识别一半内存,所以笔者进行了一下操作:

(1)使用正常的内存条插上并开机,CPU2无法识别B2,B4内存;

(2)CPU 1 和CPU 2 对调,但是CPU2也无法识别B2,B4内存;

(3)将B2,B4内存换下,用测试正常的内存代替,开机仍然无法识别,排除内存问题;

(4)使用单个CPU插在一号CPU插槽,插上内存,两个CPU全部可以识别全部内存;

(5)由上一步骤,排除CPU本身问题;

(6)由此断定,是B2或者B4或者B2与B4内存插槽问题,因为他们在同一个通道上; 根据这件事以后笔者就知道,并不是所有问题都可以一眼看出来,需要去不停尝试,推测。

3.2 CPU风扇故障

服务器的运算速度快,但是随之而来的就是发热量大,所以散热一定要注意。但是笔者最近在组装一台兼容机的时候遇到一个问题。

系统软件硬件组装完毕,开机,系统自检时出现一个提示信息:“CPU Fan Error”提示按F1键继续,系统可以正常启动,这个提示意思是CPU散热器风扇出现问题。笔者猜想一定是电机坏了,或者是有线路挡住了散热风扇导致无法转动,这是个很严重的问题,如果散热不好就会使CPU热量无法散发,造成CPU温度过高,严重影响系统的稳定性和可靠性。

于是笔者断开电源,打开机箱,经过检查,没有线挡住风扇,用手轻轻转动风扇,很顺畅并没有旋转困难的表现。重新接上电源,开机,可以看到风扇立刻旋转起来,很正常,但是屏幕上依旧提示“CPU Fan Error”,按下F1进入系统,等待了5分钟关掉电源,摸了下散热片,温度一般,没有高温的现象。

想来想去,笔者觉得问题出在散热器上,所以笔者估计是安装时没有装好引起的,于是我就重新把散热风扇连同散热器一起拆下来,再次安装了一下,确定好了以后再次开机,但是“CPU Fan Error”依旧还在,这太奇怪了,于是笔者继续猜测,是否CMOS中设置出现问题?于是拔掉电源,扣下CMOS电池,将清除CMOS信息的跳线线帽由pins 1-2转接到pins 2-3上,5-10秒后再移回pins 1-2,并且安装好之前扣下的CMOS电池后再次开机,进入BIOS设置程序,在菜单中选择“Load Setup Defaults”来把BIOS设置恢复到默认值,再选择保存设置退出,重启。现在心里想,经过这么一系列的辛苦工作,应该可以解决了,但万万没有想到这个“CPU Fan Error”还是黏在屏幕上不走。

笔者百思不得其解,冷静下来想了想,这个故障是在刚开机时提示的,那时系统未启动,只是硬件启动并且在初始化,显然这个故障与系统是无关的,可能是硬件的问题。但是按下了F1键就能正常进入系统,说明内存条、硬盘驱动器、显示卡,主 5

板这些硬件是没有问题的。但为什么风扇明明安装到位也能正常工作的,却还是报错呢,难道是这风扇转速达不到要求所以才报警的?

笔者想到这里,我又重新进入BIOS里,进入Power电源管理菜单,在这里看到有关风扇的转速的速度有4000RPM,而且就一个风扇有转速信息,其他都是N/A(不存在风扇),这完全符合要求,但是,我突然发现了一个细节:关于风扇转速的数据是在“CHA FAN Speed”这栏里的,而“CPU Fan Speed”这栏里显示的却是“N/A”!“CHA FAN Speed”这个数值是表示机箱风扇转速的,但是机箱却没有安装风扇!笔者秒懂,一定是风扇的插头插错了,错误地把CPU散热风扇的接口接在了本该插机箱风扇的接口上了。想到这里我立刻检查主板风扇插口,果然,CPU风扇电源接在了主板CHA_FAN接口上。主板上的风扇接口都是一样,电压也是相同的,因此无论插在哪个接口上风扇都能工作,笔者装机的时候没有仔细看主板上接口的名字,所以接错了接口,而重新拆下散热器又装上时想得就是从哪里拆的就接哪里,由此导致忽略了检查风扇接口。

由此经历来看,工作中必须十分认真,不得马虎行事,鉴于此事,希望广大读者在以后工作中要细心。

3.3 硬盘故障

硬盘在计算机存储中占领着全部江山,一旦它损坏,那么就会造成无法挽回的结果,数据丢失,这对于机房中德服务器来说是致命的,所以我们需要时刻关注硬盘的健康。并且最好组建RAID。

硬盘故障在笔者维护机房的这段时间里是最为常见的,问题也是多种多样,但是最为常见的还是硬盘出现损坏扇区,读写速度不正常。

使用HD Tune 检测硬盘,最简单的方法是看“健康状态”,作为一个正常的硬盘,健康状态里面是没有黄色或者红色状态的,黄色代表警告,红色代表危险。如果有的话,也并不一定就预示着硬盘损坏,具体需要看属性,例如下图所示,此硬盘是笔者电脑上的,一切正常,但是健康状态显示为“失败”,但是红色项目是“气流温度”,所以对于正常使用是没有影响的。需要注意的是“健康”选项卡中的“等待重映射扇区”这个属性,它直接关系到硬盘的可靠性,需要格外注意。

使用硬盘专业检测工具例如“HDTune”检测硬盘的读写速度,对于速度波动特别大,这种硬盘有两种情况:1,硬盘并没有物理性损坏,只是逻辑损坏,对此我们只需要将其低级格式化一下就可以解决。2,另一种情况是物理性损坏了,在硬盘还能读取数据的时候尽快备份数据,因为这是硬盘要完全损坏的前兆。这一点笔者亲自经历过,请读者切记。

注意:目前许多服务器开始使用“固态硬盘”,这类硬盘好处是省电,轻便,读写速度快。但是笔者需要提醒各位读者的是,这类硬盘要么不坏,要坏就突然坏掉!并没有传统机械硬盘“临死前的挣扎”。无论怎样,请对重要的数据做好备份工作。 6

3.4 RAID容量识别错误

此类问题在近期开始出现,许多新人觉得这是硬盘的问题,其实不然,那是因为机器所使用的RAID卡或者SAS卡版本过于成就,近几年硬盘的容量也从GB级别过度到TB级别(1TB=1024GB),过于庞大的容量让许多早些时候的硬件感觉“受不了”,所以就产生了错误,无法正确识别。可以从如下图中看出:

下图为笔者使用ASUA DSBV-SAS 主板自带的RAID卡测试一块3000GB的硬盘,显示容量却是“2097151MB”,只能识别到2100GB,因为测试硬盘的容量超过了主板硬件所能识别的范围。

朱创明IDC机房的运行与维护

下图是笔者使用ASUS Z8NA-D6 主板以及自带的RAID卡测试3000GB及4000GB的硬盘,显示所识别的容量正常。

许多品牌服务器也需要读者们注意,例如DELL R410 R420 自带的阵列卡都无法识别超过2TB的硬盘,需要更换,笔者所在机房所使用的是H700阵列卡,如果不需要过大的硬盘容量,6 I/R 也是不错的选择。

3.5 iDRAC地址设置后无法访问

这种情况也比较让人头疼,设置远控的初衷是为了方便管理。有的服务器例如DELL R420出厂没有独立远控端口,默认是与LOM 1 合用的,如果设置不当,会造成远控无法访问。

症状是端口黄灯。解决方法如下:

(1)查看前面板远控卡IP,Gateway,DNS设置是否正确

(2)检查交换机之间是否存在环路

(3)检查网线是否制作正确:白橙,橙,白绿,蓝,白蓝,绿,白棕(黑),棕(黑)

(4)将笔记本网卡IP设置为61.160.*.*,处在同一个内网,测试是否能ping通内网服务器

(5)重启远控失效的服务器,按ctrl+e 将远控卡管理恢复出厂设置,如果不能重启,则选择“system identification”

(6)NC Selection选项中选择 Dedicated(专用)

7

原因:加了远控以后,由于机器没有独立远控卡,设置之前,默认合用,加了远控后需要把端口改成专用

注意:R420出厂没有独立远控端口,默认网口1和远控合用,需要重启f2修改专用网口,设置启用nic

3.6 内存故障

笔者在工作中,遇到的内存问题不在少数。大体上分为两类,一类是品牌机内存问题,另一类是组装机(兼容机)内存问题。

品牌机:

笔者接触的大多是DELL的机器,如果内存有故障,开机检测硬件的时候就会提示,意思是以下列出内存存在故障,被减去。由于当时只顾处理问题,所以没有拍下来,请读者见谅。机器是一台DELL R710 内存插法是 A1,A3,B1,B3。但是开机提示B1,B3无法识别,笔者进行以下操作:

(1)关机,更换B1,B3为新的可用内存,同样提示无法识别

(2)关机,把原本报错的B1,B3与A1,A3,互换,B1,B3无法识别,排除内存条故障

(3)关机,讲B1,B2内存拆下,装到A2,A4,拆下CPU 2 ,开机正常

(4)断电,把CPU 2 ,装到CPU 1 位置,开机正常,排除CPU 问题

(5)目前只剩下一种情况,就是主板上的内存插槽有问题,要么B1插槽问题,导致B1,B3都无法识别,要么B1,B3插槽同时损坏。

经过以上尝试,通过排除法,逐步排除内存,CPU的问题,最终只可能是插槽问题。希望读者也多加尝试

兼容机:

品牌机价格贵,所以备有一定兼容机也是必须的,不过兼容机出现问题比较难确定。笔者遇到一台兼容机问题,主板是ASUS Z8NA-D6 ,CPU2的内存无法识别。于是笔者做了以下步骤查找问题:

(1)关机,把CPU 1 内与存CPU 2 内存交换,开机,CPU 2 内存任然无法识别,排除内存条问题

(2)断电,拆下CPU 1 ,将CPU 2 装到CPU 1 位置,开机,屏幕不显示,也就是无法开机,笔者推测是CPU 2 问题。

(3)断电,装上之前的CPU 1 ,在CPU 2 底座上装上一块全新的CPU ,开机一切正常。断定是之前CPU 2 损坏导致无法识别内存。

总结:通过以上例子读者应该知道了,内存无法识别的问题,可能原因一般就是内存本身,CPU,DIMM插槽,只要使用排除法,就可以找到原因。

3.7 RAID 1 硬盘损坏

就在昨天,新年刚过几天,第一天上班,有一台服务器由于电源故障,导致一块 8

硬盘烧毁,幸运的是该服务器上有两块硬盘组建了RAID 1 ,所以用户的信息保住了,所以笔者去更换了电源,数据线,以及硬盘,最后突然有一个问题困扰了,老板让笔者测试一下ASUS Z8NA-D6 的主板会不会自动备份硬盘数据。于是笔者展开一下测试:

(1)找一台主板为ASUS Z8NA-D6的主板,接上两块300G SAS 硬盘

(2)开机CTRL+C进入RAID控制器,建立RAID 1 阵列,保存退出并关机

(3)开机进入维护PE 系统,打开DISK Genius 会看到只有一块278GB的硬盘,名称是虚拟磁盘,在磁盘中放入一个50MB文件,关机

(4)拔掉2号硬盘数据线,开机,进入RAID控制器,删除1号硬盘RAID信息,1号硬盘被格式化,数据全部删除,保存退出,关机

(5)接上2号硬盘数据线,开机,笔者任然进入U盘系统,但是不做操作,5分钟后关机

(6)拔掉2号硬盘数据线,开机,这次进入U盘系统打开之前被格式化的1号硬盘,看到了那个50MB文件。

(7)得出结论,ASUS Z8NA-D6主板RAID控制器会自动同步

3.8 Mac 地址漂移故障

笔者所在机房昨天有一台交换机故障了,换上一个不同型号的交换机暂时代替以后,问题就出现了。笔者先简单绘制一下该子网的网络拓扑结构,如下图:

朱创明IDC机房的运行与维护

9

总端网络设备为S3610三层交换机,设置有Vline10和Vline20,链接端口分别为E1/1和E1/2口。相应地址等已给出。

由于总节点的S3610故障,于是笔者就更换为一台S3600-E1暂时顶用,那么,问题来了。笔者发现新换上的S3600-E1交换机有时可以ping通部分交换机的测试地址,并且下面的交换机也经常无法ping通总交换机的网关,网络瘫痪了。于是笔者做了尝试:

(1)使用命令查看交换机接口,显示数据包CRC校验正常,没有错误的数据包,于是排除了错误数据包的可能。

(2)于是笔者又查看了交换机的ARP表,其中也没有异常。

(3)更换一台新的S3600-E1,故障依旧,因此笔者觉得交换机本身没有坏。

(4)再换上一台新的S3610以后,什么都不用改,故障就消失了,笔者觉得,这应该是不同型号交换机之间的某种差别造成的,但是究竟是什么差别,目前我还无法解释。

(5)断开分部1,只连接分部2,故障消失,一切正常,断开2,只连1,依然没有故障,只有当分部1,2同时打开,就会有问题。

(6)根据上一步的现象,笔者估计问题可能出在分部的交换机中,于是笔者分别连接VLAN10和VLAN20, 进入交换机,查看ARP映射表,突然发现两个交换机的网关物理地址居然是一致的。这个现象有点奇怪,网关的地址不同,代表了不是同一个网关,既然不是同一个网关,那么MAC地址就不应该一样啊。

(7)于是笔者接上新的S3610,一次查看了其ARP映射表,这次在两个分部交换机中显示的网关MAC地址是不同的。

最终,找到了问题所在,确认了这个故障就是因为MAC地址漂移引起的。当笔者使用S3600交换机的时候,Vline10和Vline20的网关物理地址是同一个,当两个分部同时接入光传输设备后,光传输设备收到了两个不同的网关地址和同一个MAC地址,导致光传输设备不知道到底该发送哪一个,造成了Mac地址漂移,从而引发故障。在使用S3610交换机时,两个VLAN使用的是不同的MAC地址一切正常。如果需要使用S3600交换机,则需要修改其端口工作模式为透传模式,而且要关掉端口的MAC地址学习功能。

3.9 VLAN无法阻止广播风暴

广播风暴相信大家都听说过,是一个很多IT人士熟悉的网络故障,不严重的话,只是影响信息业务的使用,网络延迟大,严重的话就会造成全部网络瘫痪。笔者所在的IDC机房是中国电信常州市的分机房,有许多公司的服务器常年“驻扎”在这里,因为客户多,所以一旦有客户的服务器被“黑”,那么整个网络都会受到影响。有一句俗话说得好“千防万防,家贼难防。”黑客如果想从外部直接攻击机房的的核心交换机,攻破可能性微乎其微,但是,攻破在核心交换机下某个分支交换机下的某个服 10

务器就容易的多。

笔者刚来的那个月就发生了此类事情。这次攻击受影响的网络的拓扑结构绘制如下:

朱创明IDC机房的运行与维护

骨干网是由两台Cisco 6509中心交换机组成,每个客户都通过Cisco 3500交换机连接到骨干网,各个客户都有其独立的VLAN,并且所有的VLAN和路由信息都配置在中心交换机上,而且配备冗余。

一旦发生广播风暴,需要做的就是尽快确定广播源。当发生广播风暴的时候,进入交换机输入命令去查看异常流量端口这并不是一个好方法,因为那个时候交换机的CPU使用率很高,已经有大量的报警信息在滚动,而且响应速度已经很慢了,通过命令行方式已经很难操控。

所以笔者推荐一种最为简便的方式,不过进行之前需要告知客户。笔者采用断网的方式,对每个公司逐个断网,如果断网以后整个网络故障消失,那么就可以确定广播源在该公司。继续细查,则采用相同的方法,最后就可以确定广播源是哪一台计算机。

事后笔者网上查阅了相关资料,为什么VLAN无法阻止广播风暴的原因。笔者特别好奇,为什么只是一个子网的子网中的一台计算机导致了整个网络受到影响,而不是只影响那个子网呢?经过分析,原来这与网络拓扑结构以及交换机配置有关。 11

机房的两台核心交换机是Cisco6500交换机,其特点是交换和路由功能都在一起。其配置都一样,只是优先级不同。优先级是为了保证在一台交换机出现故障的时候另一台可以接管。这也是导致广播风暴影响整个网络的原因。当其中一个客户的机器变成广播源,则该客户的子网就会回出现大量广播包,从而引起管理该VLAN的交换机以及路由器的使用率急剧上升,从而引起整个网络陷入瘫痪。

关于广播风暴,笔者在请教公司“元老”以后,给出了一些可以控制广播风暴的有效方案。

(1)网络接入管理

由于广播风暴都是由某台服务器中毒,用户操作不当引起的,为此我们在管理上需要注意。首先做好防病毒工作,并且进行集中式管理。设置适当的操作权限,防止有人员胡乱接入,只允许通过各子公司网管室接入。并且最好使用安全性较高的操作系统,目前使用最多的就数CentOS了。

(2)调整VLAN部署

由于整个网络的VLAN信息都在两个中心交换机上,所以发生广播风暴的时候会直接冲击两台中心交换机。所以要减小广播风暴的影响范围,最好的方法就是将每个客户的Vline和路由信息放在下层交换机上。

(3)用Cisco交换机就启用其广播数据包抑制分析

Cisco是交换机中的大品牌,因此Cisco公司在交换机中设置了广播抑制特征,我们可以通过对交换机进行相关配置,当遇到广播数据包比较多时,可以不接受超过限制的广播数据包,也可以直接丢弃。

3.10 网络时断时续

这种情况是最让人头疼的,一般有硬件,软件两方面的问题。如果同一个网络中的一台计算机出现此类故障,问题可能出在交换机,线路,路由器,终端等任何一个环节,但是如果一批计算机出现问题,那么多半是网络设备问题。

故障现象很单一,就是网络时断时续的。下面是笔者解决问题的步骤:

(1)排除交换机本身故障以及网线故障

(2)登陆上层交换机,dis log查看日志,发现其中存在一行信息“loopback does exist on Ethernet0 /33 vlan 137 ,please check it” 很明显是因为交换机中存在环路了,并且环路存在的地方也知道了,直接去看,原来是因为另一名维护人员在接线的时候接错了,重新接好,故障消失了。

当然,接错线导致网络不稳定还是好的,如果是因为中了病毒导致网络不稳定,那样就极不安全。

曾经就有一个机柜,其中一台交换机以下的所有服务器莫名其妙的中断,由于那是游戏服务器,所以在经过客户同意后,重启了服务器和交换机,问题得到了解决,本以为是因为交换机突然死机造成的断网,问题不大,但是没过几天,问题再次发生 12

了,客户也很无奈,再次求助。于是笔者觉得这可能是中病毒的问题。询问客户,客户表示服务器一切正常,没有中毒的表现,可笔者不这么认为。之前遇到过由于计算机中毒导致其不断在网络中发送广播包造成广播风暴,是网络瘫痪。于是笔者立刻进入交换机控制中心查看,但是此项属性正常,“broadcast-suppression 10”限制了广播包不超过10%,应该没问题的啊。请教了公司里的同事,他们一时间也没有办法,还说继续重启机器使其恢复正常,下次再说。但是笔者不愿意,坚决要找出问题所在,不可能无缘无故的网络中断。于是笔者继续在交换机中寻找问题,观察流量图可以看到有一台服务器流量很大,但是哪来的那么多数据呢?广播包最多也才10%,那些其余的也不见得是服务器的数据啊,最终,万能的“度娘”提醒了,在笔者搜索广播包的时候,相关推荐里出现了“单播包”以及“多播包”,多播包类似于广播包,不过广播包可以被交换机所控制,但是多播包(multicasts)缺没有限制的选项。于是笔者断定问题出在那台流量异常大的服务器,将其断网以后,网络就正常了,由此看来,是那台服务器中了某种病毒,使其不断发送多播包,这样交换机无法限制,于是就造成了网络阻塞。

3.11 子网掩码配置错误引起故障

机房新上了几个机柜,作为公司内部使用,所以相关工作就交给我这个新手去做。迅速装好相关系统,并且配置完成。可是就在测试的时候问题出现了。PC1可以ping通网关,但是ping外网却不行,ping S2交换机也不行,所以笔者初步怀疑是交换机S1和交换机S2之间存在问题,但是通过直接在S1上ping S2却又可以ping通,于是笔者就被困扰了,心想反正不急着用,慢慢找问题,这次的网络拓扑结构为下图所示:

13

笔者可以确定的是,网线制作正确,而且完好,因为使用前的测试过。因此,最有可能是S 1出现故障。登陆交换机控制面板以后,显示其配置了VLAN 10 ,VLAN10指的就是PC1和PC2的网关地址,而E0/0/1是TRUNK链路模式,G1/0/1是路由接口模式,他们都配置了IP地址,并且一切似乎都正常,没什么问题。而且在交换机S 1上可以ping通自己的两个端口,端口指示灯也是正常,那么,难道是地址什么的配置的不对?

于是笔者上网查阅了关于IP地址以及子网掩码方面的资料后发现,一台机器在与外界通信的时候,首先将自己的IP地址和子网掩码进行相关操作,得到一个结果A,然后再把目标的IP地址和自己的子网掩码进行同样操作得到结果B,再比较A和B,如果一样,那么两者就处在同一网段,就会查阅本地ARP缓存,把数据直接发送到目标。如果ARP中没有相应的记录,则向网络中发送ARP请求,得到了对方的应答之后再进行转发。如果两者不同,那么说明目标不在本地局域网中,那么就会把数据发送到网关,让网关去转发。

通过这种计算方法,笔者试着自己计算,将PC1的IP地址和自己的子网掩码操作后的到192.168.32.0,然后再将S1的IP地址与255.255.248.0进行同样的操作,结果让人豁然开朗,居然是一样的!这就明白了,这个S1的IP:192.168.36.1应该

朱创明IDC机房的运行与维护

14

和PC1不在同一个网段,可是计算结果居然是的,因此PC1以为目标就在自己的网段,自己在网段里发送ARP请求,结果没有回应,所以导致了ping不通S1的G1/0/1端口。

经过仔细缝隙,笔者将原来的子网掩码进行修改,将PC1,PC2的掩码改成

255.255.252.0,将S1上VLAN的地址也做相应修改,使他们不再同一个网段,这样,故障终于得到了解决,内网组建完毕。

3.12 无法获取正确的IP地址

DHCP服务器在局域网中为网络管理员提供了很大的便利,但是也会带来一些问题,比如网络带宽会受到影响,客户机经常无法获取正确的地址信息。笔者在公司内部就遇到了这样的问题。症状表现是网络连接的图标上有感叹号,并且只有发送数据没有接收数据。点击“修复”计算机提示“Windows无法修复问题由于下列操作无法完成:续订你的IP地址”。既然是多台计算机出现问题,那么基本可以排除驱动,网线等问题。查看正常的计算机,IP地址都是正确的,但是查看无法联网的计算机,其IP地址居然是169.254.0.0,这是B类地址公司内部使用的是C类,这一定不对,推测可能是DHCP服务器有问题,导致了给客户机分配了错误的IP地址。

笔者首先对所有故障的计算机重启,但是故障任然无法消除,那么这就是IP地址租期的问题,当过了租期,客户机需要向DHCP服务器申请新的地址。现在的问题就是客户机自己认为自己的地址没有过期,所以导致了两遍的地址不一样,所以无法和DHCP服务器沟通。

于是,笔者在DHCP服务器的地址池中删除了那些故障计算机的信息,并且重新启动DHCP服务器,这样,问题就解决了。当然,并不是只有一种方法,上述方法其实不是很稳妥,但是适用于很多客户机无法联网的问题,可以一次性解决,缺点是那样会使所有的客户机暂时断线,如果有业务不能断线则不能使用。还有一种方法比较安全,就是一个一个操作故障客户机,运行CMD命令,输入ipconfig查看所获取的IP,如果不对,那么执行ipconfig/release释放当前的地址,再次输入ipconfig查看IP地址状态,应该都是0.0.0.0,被清空了。再执行ipconfig/renew重新获取DHCP信息,这样问题也可以解决,缺点就是太麻烦,需要一台一台操作,工作量大,当然,也可以写一个脚本,让故障计算机自动执行。

3.13 恢复丢失的MAC地址

上文说到一种状况,是网络状态是只有发送没有接收,那是因为DHCP服务器的问题,而这次要说的问题,表现的也是一样。不过在MS-DOS窗口中输入ipconfig /all以后却惊奇的发现网卡的物理地址是00-00-00-00-00-00,这是一个不正确的地址,原来的物理地址丢失了!而出现问题的服务器因为一次维护中无意间碰到了其电源,导致其突然断电,推测是因为电流的冲击导致保存在主板BIOS中的网卡MAC地址丢失,MAC地址是允许修改,那么问题来了,笔者根本不知道它以前的物理地址是什么, 15

如果随便填写一个就很可能与其他计算机冲突,在地球上所有的计算机里,MAC地址是一定不同的。

经过笔者多方面查阅资料,终于找到一款名为Mac地址修改器V1.27的软件,借助它就可以方便修改计算机的MAC地址,最主要的,可以还原。

打开软件从网卡列表中选择需要恢复的网卡,点击其中的还原按钮,就可以回复网卡以前的MAC地址,很是方便。

当然也有网友表示可以通过刷新主板BIOS来恢复,不过此种方法风险太高,不建议服务器使用,如果刷新过程中突然断电,则会造成无法挽回的结果,很可能报废主板。

还有一种最为渐变的方法,如果主板上有PCI-E插槽,那么久直接加一个网卡,最为省事,而且网卡也不贵,操作又简单

4.结束语

经过两个多月的努力,关于IDC机房运维的论文终于完成,在整个撰写过程中,出现过很多的难题,但都在同事帮助及自己的研究下顺利解决了,在不断的研究学习过程中我体会到:

写论文也是一个不断学习的过程,从最初刚写论文时对IDC机房的服务器问题的难以下手到最后能够对其快速高效解决,我体会到实践对于学习的重要性,以前只是明白理论,实践的不多,对相关知识的理解不够明确,通过这次的实践学习,真正做到理论与实践的相结合。

总之,我通过这次实习,深刻体会到了一个道理,那就是要做好一件事情,不仅需要系统的思维方式,还需要对待要解决的耐心、随机应变能力,并且要善于运用已有的知识解决问题。同时我也深刻的认识到,我们在对待一个新的问题时,一定要先从整体考虑,安排好处理问题的步骤,哪一步需要先进行,这样才能更高效快速得解决问题。

致谢

感谢我的导师孙刚博士,这篇论文的每个细节步骤,都离不开您的细心指导。而您豁达的个性加上宽容的态度,帮助我很快融入一个新的集体。

感谢我的辅导员周红志老师,您做事严谨、细致,并且一丝不苟的作风让我在学习生活中很是崇拜;现在还记得初到大学那年您对我循循善诱的教导,给予我无限的启迪。

还要感谢我的5个室友,我们从五湖四海来到这个陌生的城市里,共同建立了兄弟般的感情。四年前,我们汇聚到一起,仿佛就在昨天。四年里,我们红过脸,吵过嘴,打过架,俗话说得好,不打不相识。遗憾的是,今后我们恐怕难得再聚到一起,不过没关系,我们各自奔向前程,各位保重。我们在一起的时光,我会铭记在心。 差点忘了,最感谢的还是我的父母,给与了我这次生命,23年养育之恩,让我不 16

知如何回报,我最大的心愿就是你们能够永远健康快乐。

参考文献:

[1] Oracle2000 . IDC . [2014]./subview/4684/9075759.htm.

[2]孙浩峰 . 网络运维与管理2014超值精华本 . 2014-06-04(1-1)

[3]Smile_nagios . IDC机房运维工程师职责:[1]如何应对机房安

全.[2012]./article/ad310e80a370941849f49ece.html.

[4]Smile_nagios . IDC机房运维工程师职责:[2]像苦力的上下

架.[2012]./article/642c9d34fceba0644a46f7fe.html.

[5]Smile_nagios . IDC机房运维工程师职责:[3]每个系统都要熟

悉.[2012]./article/5bbb5a1b2b3a0213eba179fb.html.

[6] Smile_nagios . IDC机房运维工程师职责:[4]处理各个系统故

障.[2012]./article/c843ea0b87906f77931e4afd.html.

[7] jifangsheji . 电信运营商IDC安全建设方案 .

[2010]./view/c33324eef8c75fbfc77db235.html.

[8] 想丁克的小a . IDC机房设备的维护及管理 . [2014] .

/link?url=plRamQdD0TFqT3K8uhj830nt2ArEYVanSeLW6rj7BZ1mfgXgh1ZULi54NAHw2iI0JKsqHVLrsfxIR5i-Ro16gaD7Yy-kZ12fb7tMkS7mwYi.

[9]WS小壮 . IDC机房服务器故障处理方案 . [2013] . /zt/545/.

[10] 策划营销 . IDC机房应急预案 . [2014]./p-0741911537673.html

[11] ENIDC . 数据中心机房安全防范措施 . [2014] . /idcnews/Article/20140724/5714

[12] linuxpro . DOS命令大全

/link?url=V187A3qvIdwk0CXzBKWCTBzxzCjKJ5KJbajDErc7EUhbtNRL-4Lxq0SA7YWfxepzfrv_y2ppmQgZpS2zTvxQaa

17

更多相关推荐:
机房维护总结

海洋学院信息工程系毕业设计说明书设计题目学院河北农业大学海洋学院专业班级07级计算机系统维护2班学号20xx093160212学生姓名董立祥指导教师二OO年月日119目录综述31硬件资源管理311合理分配硬件资...

计算机机房管理工作总结

谢盛璋一年转眼间过去了,作为一名兼职机房管理人员我总是害怕没有足够的时间去完成这一项任务。因此我首先严格要求自己、不怕吃亏充分利用课余时间、午睡时间、节假日等时间对计算机等设备进行维护及维修。全面的了解,熟悉业…

机房管理工作总结

20xx-20xx年度机房管理工作总结门楼下瑶族乡学校卢红20xx.01时光荏苒,转眼间跨过了一个年度之坎,又迎来了新的一年,回首过去的20xx年,内心不仅感概万千,时间如俊,回首过往,虽然没有轰轰烈烈的成果,…

机房管理员工作总结

管理机房,做好机房辅导工作已经成为我义不容辞的责任。一年来,我的工作都是以机房辅导为主,上半年,只是辅导上机,不用给学员讲课,工作量不大,只是到晚上8:00关机房了,我才能休息。下半年,试用期过后,我开始备课带…

宝云实业机房20xx年度工作总结

宝云实业机房20xx年度工作总结尊敬的公司领导:您好!时间匆忙而过,紧张而有序的一年又要过去了,忙碌的一年里,在公司领导及各部门各同事的帮助下,我顺利的完成了本年度的工作。为了今后更好的工作,总结经验、吸取教训…

机房管理工作总结

机房管理工作总结随着新的一年的到来在这辞旧迎新的日子我对本学期的机房管理工作总结如下今年机房管理提高要求要同时管理多个机房和多个多媒体我结合以前的管理经验圆满的完成了学校安排的管理任务一配合实训课做好机房上机的...

机房管理员工作总结

即将过去的20xx年,是极不平凡的一年。在领导的正确领导下,在办公室其他成员的帮助和配合下,一学年来,能比较积极的学习业务,比较认真的履行工作职责,较好的开展和完成了自己的工作。在这一学期里,虽然没有轰轰烈烈的…

机房管理工作总结

机房管理工作总结随着新的一年的到来在这辞旧迎新的日子我对本学期的机房管理工作总结如下今年机房管理提高要求要同时管理两个机房我结合以前的管理经验圆满的完成了学校安排的管理任务一配合实训课做好机房上机的服务工作保证...

机房管理工作总结

密码1020xx3yu机房管理工作总结随着新的一年的到来在这辞旧迎新的日子我对本学期的机房管理工作总结如下今年机房管理提高要求要同时管理多个机房和多个多媒体我结合以前的管理经验圆满的完成了学校安排的管理任务一配...

机房工作总结

经过自己的不断努力自己在维护方面有了一定的进步小问题能够很快解决转眼间12个星期的实习即将过去在导师和同学们的帮助下我顺利的完成了本次实习的工作回顾这12周既忙碌又充实有许多值得总结和反思的地方在此我对这一年的...

运行维护部20xx总结(草)

运行维护部20xx年上半年度工作总结一个人岗位主要职责主要工作职责协助杨主任做好运维部工作兼任网管监控中心治理工作1负责每日24小时网络监控2治理网管监控中心日常生产工作3定期分析网络运行质量及业务响应工作情况...

机房20xx年终工作总结

机房20xx年终工作总结时间过得很快转眼间就过了一个学期回首过去的这一学期一路走来内心感概万千回首走过虽然没有轰轰烈烈的成果但也让我经历了一段不平凡的考验和磨练非常感谢领导及主管老师给我这个成长的平台接纳我到信...

机房维护总结(38篇)