弱电系统维护标准
一、 日工作
1、 每天9点前记录机房环境参数;
2、 每天9点前记录电源参数;
3、 每天9点前检查互联网运行情况;
4、 每天10点前检查服务器运行状况(外观检查硬盘、电源);
5、 以上填写巡检记录(记录存放在机房)。
二、 周工作
1、 每周一检查邮件服务器、梭子鱼工作情况;
2、 每周二检查入侵防御设备运行情况;
3、 每周三检查所有服务器系统软件运行情况,并更新补丁;
4、 每周四检查局域网设备运行状况,包括核心交换设备、接入交换机;检查广域网运行状况;
5、 每周五下班后,打扫机房卫生;
6、 双周(按月)周五提交检修和耗材采购清单,并对价格进行核对;
7、 以上工作均应按照维护协议要求周期和格式填写《巡检记录》,具体格式见附件。
三、 月工作
1、 月末最后一周周一下班后,清洗空调滤网;
2、 月初3个工作日内提交上月运维工作总结电子版;
3、 月初3个工作日内提交上月运维记录表(纸质)并归档,(具体格式见《运维协议》)。主要包括:包括以下几个部分:
l UPS电源;
l 程控交换设备;
l 网络系统;
l 时钟、门禁;
l 机房环境设备;
四、 季度工作
1、 下季初5个工作日内提交本季运维费用清单,并核对报价;
2、 下季初5个工作日内提交本季电脑桌面维护记录,并归档;
3、 下季初5个工作日内打扫弱电间设备卫生;
4、 下季初5个工作日内提交本季邮件系统维保巡检报告。
五、 半年工作
下月初10个工作日内提交半年运维总结。
六、 年度工作
次年初10个工作日内提交年度运维总结。
以上条款为运维工作最低标准,实际工作中发现问题,或如与国家、厂家标准不符等,应予及时修正和补充。
附件:弱电系统维护记录表(十二个)
**国际信息部
20##年5月
附表一:
UPS设备维护记录表
维护日期 年 月 日
附表二:
程控交换机设备维护记录表
维护日期 年 月 日
附表三:
大屏显示设备维护记录表
维护日期 年 月 日
附表四:
时钟设备维护记录表
维护日期 年 月 日
附表五:
安防设备维护记录表
维护日期 年 月 日
附表六:
机房运行环境检查记录表
维护日期 年 月 日
附表七:
网络设备维护工作表
维护日期 年 月 日
附表八:
PC、外设维护记录表
维护设备名称 维护日期 年 月 日
附表九:
服务器维护记录表
维护设备名称 维护日期 年 月 日
附表 十:
程控交换机系统变更记录表
维护设备名称 维护日期 年 月 日
附表十一:
电声、视频会议设备维护记录表
维护日期 年 月 日
附表十二:
UPS电池组季度检查项目表
电脑维护标准
(201005第一版)
1、 返回信息部维护的电脑,应填写《电脑维护记录》,具体格式见下表;
2、 不需要返回信息部维护的设备,参照本标准执行;
3、 新电脑参照本标准执行;
4、 《电脑维护记录》应由**集中保存,按月归档。
5、 记录中的项目为基本项目,实际工作中发现不足,应及时修正和补充;
附表:电脑维护记录
20##年5月
电脑维护记录
日期: 年 月 日
处理人签字: 使用人签字:
第二篇:数据中心场地基础设施运维管理标准
现代数据中心网(D)
现代数据中心网(D)
前 言
随着大数据、云计算、智慧城市、移动互联网和物联网等应用的快速发展,各行各业对于数据中心场地基础设施的需求也越来越大。数据中心单体规模越大、系统越复杂,其脆弱性也越高,对于数据中心运行维护管理水平的要求也就越高。中国数据中心产业发展联盟为了提升整个数据中心行业在数据中心场地基础设施的运维管理水平,特发起了本标准的制定。
本标准适用于:政府及企业信息化管理负责人、数据中心负责人、数据中心场地基础设施的运维管理人员。
本标准可为以上人群进行数据中心场地基础设施的运维管理提供系统性的建议,也可作为用户评价数据中心场地基础设施运维服务水平的参考。
本标准专注于数据中心场地基础设施层面。
本标准从安全、人员、设施以及运行四个角度关注以上界定的场地基础设施,以达到高可用性及经济运行的目标。考虑到标准的篇幅限制,也考虑到不同数据中心间运维目标等级不同、规模不同、配置的巨大差异性,因此,本标准注重于具有普适性的运维管理系统框架的完整性。考虑到标准需要为数据中心行业提供更加具体的指导,我们将陆续提供一系列的最佳实践文档作为本标准的补充。
本标准由中国数据中心产业发展联盟发起,由以下个人及单位共同完成。
起草人:
程小丹、张广明、吕军、曹洁、李良、康楠、蔡欣、张炳华、喻茂萍、
陈炎通、张凯、张永萍、石葆春、李润生、李崇辉、尼米智、李红坤、
文静、张艳辉、吴铁刚、袁晓东、姜俊海、曹存义、杨智丹、王茜、左
天祖、苏旭江、许志德、李宁、邹松、丁结良、彭飞、刘俊梅、郑圆圆、
赵磊。
参与单位:
北京中科仙络咨询服务有限公司
百度在线网络技术公司
宝德科技集团股份有限公司
北京德拓天全信息技术服务有限公司
北京云泰数通互联网科技有限公司
国富瑞数据系统有限公司
华为技术有限公司
联通云数据有限公司运维与服务部
上海斐讯数据通信技术有限公司
施耐德电气信息技术(中国)有限公司
1
世纪互联数据中心有限公司
曙光云计算技术有限公司
招商银行股份有限公司
中国电信股份有限公司云计算分公司
中国移动通信集团公司政企客户分公司
支持单位:
北京企商在线数据通信科技有限公司
蓝汛首鸣数据中心
南京诚赢软件科技有限公司
润泽科技发展有限公司
山东银澎百盛云计算技术有限公司
上海迪佑拂科技咨询服务有限公司
上海数讯信息技术有限公司
苏州国科综合数据中心有限公司
太极计算机股份有限公司
万国数据服务有限公司
中铁程科技有限责任公司
广州宽带主干网络有限公司
中金数据系统有限公司
本标准将定期更新,以适应数据中心技术及管理最佳实践发展的新趋势。相关单位及个人对于本标准有任何改进建议或意见,请发邮件至秘书处,联系邮箱:mishuchu@chinabda.org。
2现代数据中心网(D)
目 录
一、规范性引用文件.....................................................................5
二、术语和缩略语.........................................................................5
2.1 术语.................................................................................52.2缩略语.............................................................................7
三、管理范畴................................................................................8
3.1管理目标..........................................................................83.2参与数据中心建设过程....................................................83.3测试验证.........................................................................93.4技术文档.........................................................................103.5管理边界.........................................................................10
四、安全管理和质量管理.............................................................11
4.1人员安全.........................................................................114.2物理环境安全..................................................................114.3质量管理.........................................................................12
五、人员管理................................................................................13
5.1组织及人员......................................................................135.2培训及认证......................................................................145.3运维外包服务商..............................................................15
六、设施管理................................................................................16
6.1资产数据库......................................................................166.2预防性维护......................................................................166.3操作流程.........................................................................176.4工具及备件管理...............................................................186.5供应商管理 ......................................................................186.6生命周期管理..................................................................196.7运维管理系统..................................................................19现代数据中心网(D)3
七、运行管理................................................................................20
7.1 运行管理制度..................................................................207.2设施监控、巡检、及交接班管理 .....................................217.3机房清洁管理..................................................................217.4 标签标识管理..................................................................217.5变更管理.........................................................................217.6事件管理.........................................................................227.7应急响应.........................................................................227.8容量管理.........................................................................237.9能效管理.........................................................................237.10预算管理.......................................................................24
八、附录:数据中心场地基础设施运维管理最佳实践...................25
附录A 测试验证的最佳实践..................................................25附录B数据中心市电断电应急预案.......................................39附录C 数据中心机房基础设施运维人员架构图.....................44附录D数据中心场地基础设施运维中易犯的十大错误..........45
4现代数据中心网(D)
一、规范性引用文件
下列文件对于本文件的应用是必不可少的。凡凡是注明日期的引用文件,仅注日期的版本适用于本文件。凡是不注明日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB 50157 电子信息系统机房设计规范
GB 26860 电力安全工作规程 发电厂和变电站电气部分
DL 408 电业安全工作规程
二、术语和缩略语
2.1 术语
2.1.1数据中心(Data Center)
主要功能为容纳一个计算机房和该计算机房的各个支持区的一栋建筑或者一栋建筑的一部分。包括容纳信息技术系统的主机房、支持信息技术系统运行的辅助区和行政管理区。
2.1.2 场地基础设施(Site Infrastructure)
数据中心内为信息技术系统提供运行保障和运行环境的场地设施。包括容纳IT系统的主机房,支持IT系统运行的供电系统、制冷系统、消防系统、安防系统、监控系统及其路由等配套设施及维护IT系统的辅助设施。
2.1.3 运维管理( Operation and Maintenance Management)
对数据中心场地基础设施进行日常运行和维护,确保各项基础设施系统安全稳定地运行。运维管理包括制定运维制度和计划、执行运维计划、响应场地基础设施故障、突发事件等紧急情况。
2.1.4 生命周期(Life Cycle)
通常指数据中心从投产到经济寿命结束的全过程。但也有将投产前的规划期、设计期、建设期、测试验证期作为生命周期一部分(孕育期)的说法。
2.1.5 测试验证(Commissioning)
验证并记录数据中心设施作为一个整体及其所有的设备、子系统满足用户的设计目标和运行要求。
2.1.6 健康评估(Health Assessment)
全面系统性地对机房现有使用状态、设备运行情况、运维管理制度及流程等进行全方位的检查。
5
2.1.7 预防性维护(Preventive Maintenance)
为降低产品发生失效或功能退化的概率,按预定的时间间隔或按既定的准则实施的维护。
2.1.8 风险评估(Risk Assessment)
针对运行的设备所面临的威胁、存在的弱点、造成的影响,以及三者综合作用所带来风险的可能性的评估,同时确定风险是否可容许的全过程。
2.1.9 容量管理(Capacity Management)
对于基础设施在空间、电力承载能力、制冷能力等方面的评估,以满足IT数据存储和处理的需要容量。为了实现其目标,容量管理需要与业务及IT战略流程保持密切的联系。
2.1.10 资产管理(Asset Management)
对于数据中心基础设施中每个资产建立独有的标识,并详细进行资产描述、制造商、型号、安装日期、保修期等信息的记录管理。2.1.11可用性(Availability)
在所有要求的外部资源得到提供的情况下,数据中心在规定的时刻或规定的时间段内处于能执行要求的功能状态的能力。它是衡量数据中心等级、运维水平的重要指标。
可用性的计算如下:
2.1.12 绿色运行(Green Operation)
指数据机房中的制冷、照明和电气等能取得最大化的能源效率和最小化的环境影响。
2.1.13 负载(Load)
指连接在电路中的电源输出的设备。负载是把电能转换成其他形式的能的装置。
2.1.14 气流组织(Air-Flow Organization)
指在机房内对冷热气流的流向按一定要求进行疏导和组织。
6现代数据中心网(D)
2.2缩略语
2.2.1 PUE(Power Usage Effectiveness,电力使用效率)
PUE是评价数据中心能源效率的指标,是数据中心消耗的所有能源与IT负载使用的能源之比。
PUE = 数据中心总设备能耗/IT设备能耗
PUE是一个比值,越接近1表明能效水平越好。
2.2.2 SLA(Service Level Agreement,服务等级协议)
服务提供商和客户之间签署的、描述服务范围和约定服务级别的协议。2.2.3 MOP (Method Of Procedure,维护作业程序)
MOP是维护作业程序,用于规范和明确数据中心基础设施运维工作中各项设施的维护保养审批流程、操作步骤。
2.2.4 SOP (Standard Operating Procedure,标准操作流程)
SOP即标准操作流程,是将某一项工作的标准操作步骤和要求以统一的格式描述出来,用来指导和规范日常的运维工作。
2.2.5 EOP ( Emergency Operating Procedure,应急操作流程)
EOP是应急操作流程,用于规范应急操作过程中的流程及操作步骤。确保运维人员可以迅速启动,确保有序、有效地组织实施各项应对措施。2.2.6 CMMS ( Computerized Maintenance Management System,计算机 化维护管理系统)
用以系统性地设置并跟踪运维任务的执行情况,存储操作流程及相应运维人员的操作权限等维护工作相关信息。
7现代数据中心网(D)
三、管理范畴
3.1 管理目标
数据中心场地基础设施运维团队应与业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。制定目标时,应综合考虑数据中心所支持的应用的可用性要求、数据中心场地基础设施设施的等级、容量等因素。目标宜包括可用性目标、能效目标、可以用服务等级协议(SLA)的形式呈现。不同应用的可用性目标的数据中心,可设定不同等级的数据中心场地基础设施的运维管理目标。
3.2参与数据中心建设过程
数据中心运维团队应充分了解自己将要管理的场地基础设施。对于新建数据中心,应尽早参与数据中心场地基础设施的建设过程,以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中得到充分的考虑;同时为后期做好运维工作打下基础。
3.2.1 应参与规划设计
数据中心的规划设计是一个谨慎和严谨的过程,需要所有参与数据中心建设的相关方共同完成,才能确保规划和设计的有效性、实用性等要求。其中,场地基础设施运维团队应提出运维要求,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。3.2.2 应参与相关供应商遴选
数据中心场地基础设施运维团队应参与数据中心基础设施设备供应商选择的全过程,及时地了解各种产品及服务的品牌、型号、规格等关键参数,使之更能满足运维的要求。并就在安装、调试过程中的注意事项等提出建议,还需要对后续的设备保修等服务提出要求。
3.2.3 应参与建造管理
数据中心的场地基础设施运维团队应积极参与数据中心场地基础设施的建造工作,并协助做好建设项目的项目管理工作,着重关注工程建造中如材料的使用、工序、建造过程等工作,重点关注隐蔽工程的安装工艺和质量。数据中心场地基础设施运维团队应充分了解施工过程中的工艺。对于新建数据中心,从施工质量和日后运维方便性出发,尽早发现施工过程的问题,及时纠正,方便日后运维和节省日后整改成本。
8现代数据中心网(D)
3.3测试验证
数据中心场地基础设施投产前的测试验证是确保数据中心场地基础设施满足设计要求和运行要求的关键环节。
3.3.1 时间和预算
数据中心的业主应设立测试验证专项预算,预算应包括外部测试验证服务提供商的相关费用,以及在测试验证阶段产生的电费、水费、油费等相关费用。
应制定测试验证的工期规划,以更准确地预测数据中心场地基础设施交付投产的日期。
3.3.2 测试验证参与方
项目建设管理部门可作为测试验证工作的主体责任单位;运维管理部门可作为测试验证工作的主体审核单位;第三方测试服务商可作为测试验证的实施单位及整体组织工作的协调单位。但运维管理部门应要求测试服务商预先提供测试方案,在运维管理部门审核后方可进行。数据中心场地基础设施运维团队可参与测试验证工作,在此过程中熟悉设施和设备,可建立相关运维技术文档库,为后期的运维工作做好准备。
数据中心关键设备提供商及工程总包商,应积极配合测试验证工作,应在供应商合同中对此项有明确要求。
3.3.3 测试验证内容
验证应覆盖所有关键子系统和设备应具备的功能和关键的操作程序,确保满足设计要求,必要时可做故障情景模拟来检验。
测试验证中发现设计或者建设阶段的问题,应该在报告中充分体现;可以改造的部分,应要求建设单位进行改造;不能改造或暂时不需改造部分,应作为风险点在运维过程中予以特别的重视,并制定相关预案。3.3.4 设施健康评估
当接手已在运行的数据中心场地基础设施的运维工作前,运维团队应对设施的情况进行健康评估,了解潜在风险点,其中能够改造的部分,应该申请予以优化改造。不能改造的部分,应该作为风险点在运维中予以特别的重视,并制定相关预案。
9现代数据中心网(D)
3.4技术文档
完整并准确的技术文档是后期运行、维护、维修、故障诊断、优化改造的基础。运维团队在开展运维工作前,应从业主或者原运维单位得到场地基础设施的全套相关文档,包括但不限于:数据中心的规划设计资料及竣工图纸、反映机房最近一次改造后真实现状的图纸、全套设备的清单及相关操作文档和保修保养资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、验收测试文档、数据中心所在建筑的建筑设计资料、竣工图纸。
整体文档应在限定时限内进入运维管理知识库,并按照质量管理的原理和要求设定文档的起草、变更、审核、批准、保存、分发等职责权限。
3.5管理边界
为了明确管理责任,数据中心场地基础设施运维团队应将可能影响数据中心场地基础设施运维目标达成的外界因素整合成管理边界报告,提交业主管理层并组织研讨,形成明确的决策,制定完整的协调沟通机制及权责界限。这些因素包括但不限于:不归本部门负责,但可能对于本部门有重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统。
10现代数据中心网(D)
四、安全管理和质量管理
4.1人员安全
数据中心场地基础设施运维团队要编制正式的数据中心生产环境(工作场所)的安全方针,设定严格的安全生产规范;并根据安全方针制定有效的、明确的安全计划,来教授和培训安全原则、危险识别、纠正缺陷和控制风险。并加强对于该部分规范的合规度的培训、考试和审核检查,以确保数据中心运维人员的人身安全。
相关安全生产规范主要包括:
●
●
●
● 数据中心生产环境安全管理规范; 数据中心场地基础设施各系统安全管理手册; 数据中心场地基础设施涉及安全的应急预案; 数据中心场地基础设施管理过程涉及的技术方案中的安全管理策略。
数据中心场地基础设施中与电气相关的工作存在着固有危险。设施运维团队应当创建一份正式电气安全计划,以最小化所有工作人员受到电气伤害的风险,确保现场电气系统达到相关法规标准。电气安全计划中的条款应规定电气工作人员在有资质和具备合理安全工作流程的前提下才能进行操作,并应利用防护设备和其他控制手段,如上锁挂牌设备。此计划的创建旨在防止员工受到电击、烧伤、电弧和其他潜在电气安全隐患,同时要求其遵守法规标准。相关国家、行业规程包括但不限于:
●
● GB 26860 电力安全工作规程 发电厂和变电站电气部分; DL 408 电业安全工作规程。
4.2物理环境安全
应了解周边社会环境信息,评估潜在的安全风险并制定预案。这些信息宜包含但不限于:周边交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。可建立周边社会环境管理资料库。
应了解数据中心所在地的历史自然灾害情况。包含但不限于GB 50174及TIA-942中提到的所有评估机房选址的外部因素,并制定相应的管理预案。应建立并执行严格的数据中心设备、人员、车辆进出管理制度。
应设立不同安全区等级(参考ISO27001信息安全管理中的物理安全控制)并制定访客管理制度,用以有效管理访客。
11现代数据中心网(D)
4.3质量管理
在数据中心场地基础设施运维过程中建立完善的质量管理体系,是保障以上数据中心场地基础设施运维趋于卓越的重要因素和手段。数据中心场地基础设施运维团队的所有关键工作应包括以下的质量管理要素:
4.3.1 质量保证
● 过程制定;
● 程序制定;
● 过程审核和批准;
● 过程和程序培训。
4.3.2质量控制
● 事件回顾;
● 质量检查和检验;
● 定期质量审核。
4.3.3 质量改进
● 故障分析;
● 经验教训;
● 优化及创新计划。
12现代数据中心网(D)
五、人员管理
5.1组织及人员
5.1.1 组织架构
数据中心运维团队应有清晰的组织架构,同时对各岗位有明确的岗位职责说明并在计算机化维护管理系统(CMMS)中实现权责匹配,同步更新。
中大型数据中心场地基础设施运维团队中除现场负责人外,可按照工作内容分设以下几个主要职能岗位:
● 运维巡检团队
主要职责:对基础设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理程序的执行者。
● 技术管理团队
主要职责:对数据中心场地基础设施提供运维技术支持,解决技术问题,承担数据中心场地基础设施一般性的优化改造工程的项目管理工作,宜包括电气、空调、弱电等系统的技术人员。
● 物理环境安全管理团队
主要职责:对物理环境安全进行管理,进行安全巡检等工作。5.1.2人员配制
场地基础设施运维人员的配备应根据运维管理目标或SLA来确定。中高等级的数据中心,可按照7X24的运行要求配置运维人员。上岗人员应具备国家要求的相应资格证书。应在运维管理程序中明确规定资质等级与操作权限的一致性。
高等级以及具有一定规模的数据中心,每个班组应配备具有电力、暖通、弱电专业能力的运维人员,以达到“即时应急响应”的工作状态。等级相对低的机房,每个班需要至少配备一人,达到“即时报警”的工作状态。
运维团队的关键岗位应有人员备份和储备。
数据中心场地基础设施运维管理团队的关键管理人员或关键岗位人员在正常运维工作开展中应采用A、B角色配置,日常工作中应注意角色的分配和工作的配合。其它岗位人员宜建立良好的循环机制,人员可进行岗位轮换和交叉培训,使所有人员掌握全面的基础知识。
13现代数据中心网(D)
5.1.3绩效管理
为了提高运维人员的技术技能、职业素养和提倡团队合作精神,专业地、高效率地运行和维护场地基础设施,有必要建立人员的关键绩效指标,定期对所有人员的短期和长期绩效进行评估,奖优罚劣,推动整个运维团队技术和素质的发展和改进。
5.1.4 人员管理制度
为了保障场地基础设施运维团队的创新性、稳定性、持续性,应通过建立合理的人员管理制度,约束人员的工作态度、行为规范,提高人员的工作热情、工作效率和执行力,激发人员正面影响,使团队一直保有活力来共同努力达成服务等级协议的要求,运维团队应该建立运维人员的各项管理制度。这些管理制度应该主要包含(但不限于):●
●
●
●
●
●
●
● 《日常活动管理制度》; 《人员安全操作制度》; 《运维人员基本素质养成管理制度》; 《安全运行奖惩制度》; 《节能运行奖惩制度》; 《技术创新奖励制度》; 《人员晋升制度》; 《人才储备制度》;
5.2培训及认证
5.2.1 员工培训及资格认证计划
对于场地基础设施运维团队新员工应进行完整及严格的培训,以确保其尽快具备岗位需要之知识及能力。培训内容应包括数据中心基础设施的所有系统的工作原理、操作流程、应急预案、以及管理制度等;对于所有运维人员宜设定以知识更新、技能提高为目标的年度培训及认证计划。 宜要求运维人员不断提升理论知识,以便于在缺乏操作程序的应急状态下进行正确的处置。
可借助行业第三方专业培训及职业技能鉴定平台,积极开展运维人员任职资格的评定工作。
5.2.2历史事件分析学习
运维团队应将数据中心基础设施历史事件的总结分析作为培训的重要素材,进行全员培训;对于新员工应在上岗前予以培训,以避免相同的事件再次发生。
5.2.3组织学习
运维团队管理者应积极参与行业交流,了解行业最佳的运维管理实践,并从行业故障案例中总结经验,做好自身整改。
14
5.3运维外包服务商
5.3.1基础设施运维外包服务商的选择
数据中心场地基础设施属于关键性设施,选择外包运维团队时应考察其数据中心基础设施的运维服务的资质、能力和经验。如数据中心作为商业物业的一部分整体外包运维,应要求外包运维机构针对数据中心基础设施设施部分设立专门的有数据中心基础设施运维经验的团队,并严格按数据中心基础设施的运维规程规范执行。
5.3.2运维外包服务商的管理
对于外包服务商的员工的管理原则应该参照运维团队内部员工同等要求,相关人员只有在进行培训并得到相关的认证后才能从事相关的工作。
外包服务商需要严格遵循数据中心基础设施既定的操作流程和安全守则。
数据中心基础设施运维管理的最终责任承担者是数据中心管理者,责任无法外包。因此,数据中心应保留运维核心管理人员,对于外包团队的工作进行审核、监督和绩效评估管理。
15现代数据中心网(D)
六、设施管理
6.1资产数据库
数据中心应建立完整及实时更新的资产数据库。数据库应包括所有关键基础设施设备的清单,还应记录设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。
资产数据库应最少包括以下信息:
资 产 ID:
种 类:
子 类:
描 述:
制 造:
型 号:
规 格:
位 置:
购 买 人:
序 列 号:
安装日期:
保修期限:
更 换:
维护频次:
6.2预防性维护
6.2.1预防性维护计划
预防性维护是为了延长设备的使用寿命和减少设备故障的概率而进行的有计划的维护。其目的是通过定期检查和保养,使设备的某些缺陷或隐患在变得更严重之前被发现。
运维团队应根据系统设备情况与供应商进行沟通,按照供应商的建议提前制定年度、季度、月度预防性维护计划。各专业运维人员需按照各设备系统特性、维护流程及规范,及时、完整地落实维护工作,并形成客观实际的记录和报告予以存档。运维团队还应定期对设备的运行状态数据进行统计和趋势量化分析,对于异常的趋势,做出报警及相关预案。每个资产的唯一标识号一级分类(如电气、制冷、消防系统)二级分类(如UPS、电池、PDU等)资产的文字说明资产的制造厂家制造厂家的产品型号资产的规格或者标称值位置ID(房间或区域)资产维护的负责人制造厂家的序列号资产的投产日期保修到期的日期预计的资产更换日期年检、季检、月检等
16
预防性维护包括并不限于以下系统设备或内容:
●
●
●
●
●
●
●
● 冷水机组、精密空调; UPS,开关、和发电机组; 消防系统和监控系统检验; 蓄电池放电测试; 配电装置(高低压配电装置)的绝缘性定期试验; 二次保护定值实验; 柴油发电机启动测试; 每年雨季之前进行的数据中心防雷接地装置测试等。
6.2.2工单管理
运维团队应建立预防性维护及保养的工单管理系统,工单应列出工作内容、完成相应工作需要的工具及备件、工作预计完成的时间、工作负责人等信息。
计算机化维护管理系统应该对每份工单从产生到完成进行全程的跟踪。6.3操作流程
数据中心基础设施的所有操作,均应事先制定详细的操作流程,经过审核后存档并在后期运行阶段严格执行。
6.3.1维护作业程序MOP:
对数据中心关键基础设施设备的每次维护、维修、安装操作,都应事先制定一份MOP。可要求设备供应商提供MOP的建议,但对于MOP最终确认审核的责任在于运维团队,批准责任在于运维管理团队。6.3.2标准操作流程SOP
所有关键基础设施设备在各种情况下都能执行的常用操作都应制定标准操作流程SOP。例如手动启动发电机组的操作流程,或将UPS转换到旁路的操作流程等。
17现代数据中心网(D)
6.3.3应急操作流程EOP
应急操作流程适用于有可能发生的严重故障情况。以下为部分严重故障的例子:
●
●
●
●
●
●
● 一路市电供电时中断; 双路市电供电时同时中断; 发电机组启动失败; 发电机在带关键负载时故障停机; 单个冷却塔时故障停机; 全部冷却塔都故障停机; 单台UPS时故障停机。
6.4工具及备件管理
运维团队应根据资产分类清单及其分类制定最低备件库存清单并及时补充备件。
测试分析仪器仪表方面可配备进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、设备运行温度测试、风速测试、环境温度测试、噪音测试等的仪器仪表。仪器仪表应该定期校准。
应制定相关规定对操作工具、仪器仪表实行人员负责制或者交接班负责制等管理制度。备件和工具应定期进行盘点。
6.5供应商管理
应该按照数据中心基础设施运维的资质、以往的经验、业界的口碑等因素,以注重预防性和预测性维护和提高可用性的相同标准来选择合格的供应商。所有供应商到达场地执行维护程序之前,应通过场地相关规程的培训,获得场地运维团队和运维管理层的批准。在执行维护活动的过程中要严格遵循操作流程。操作时需由运维团队的人员陪同并监督记录流程的执行情况。供应商的每次场地维护活动都应该提交现场服务报告并存档。
运维团队应该建立供应商的绩效评估方案,并定期对供应商进行绩效评估。应设立供应商管理文档, 记录所有供应商的联系方式、服务承诺(SLA)、工作范围、针对设施的培训和认证情况等信息。
18现代数据中心网(D)
6.6生命周期管理
应基于设施设备的合理生命周期,结合风险评估,制定设备维护、升级或更换的计划及预算,及时报告给运维管理部门。
风险评估主要评估内容包括:
●
●
●
●
● 资产重要性识别; 资产威胁识别; 资产脆弱性识别; 风险值的计算。 在评估更换设备的方案时,可综合考虑原有设备的维护费用以及新设备在能效方面的改进,做好综合投资回报分析。
● 对于冗余设备宜设立轮换运行机制,以延长整体设备的生命周期。6.7运维管理系统
数据中心可建立自动化维护管理系统(MMS),集中实现资产管理、维护调度、信息安全、文档管理、工单管理的职能并记录所有的运维工作任务及完成情况。
19现代数据中心网(D)
七、运行管理
7.1 运行管理制度
数据中心场地基础设施运维团队应建立并严格执行运行管理制度,包括:7.1.1巡检相关管理制度
●
●
●
● 日常巡视巡检管理制度; 值班管理制度; 交接班管理制度; 通知矩阵。
7.1.2工作流程相关管理制度
●
●
●
●
●
● 工单处理流程; 例会制度; 工作总结报告制度(日、周、月、季、年总结报告); 交付管理规范; 运维质量管理办法文档管理制度; 工具备件管理制度。
7.1.3安全相关管理制度
●
●
● 机房出入管理制度; 机房现场管理制度; 机房卫生管理制度;
信息安全相关管理制度。●
7.1.4故障处理管理制度
●
●
●
●
●
● 设备操作管理制度; 设备故障处理流程; 应急准备和应急响应流程; 维护作业计划管理制度; 故障隐患跟踪反馈管理制度; 紧急事件汇报流程。
20现代数据中心网(D)
7.1.5经营相关管理制度
●
● 员工行为规范; 考勤管理制度;
人员管理考核制度。●
7.2设施监控、巡检、及交接班管理
应配备环境、动力、安防等监控系统以便于运维人员及时了解设施各系统及设备的运行状态和及时发现异常情况。
应规定相应的运行人员对设施运行状态的巡视频次、巡视工作内容及规范。运行人员交接班时应对当班执行的操作、变更及观察到的任何异常数据或现象进行交接和签收。
7.3机房清洁管理
应划定保洁区域,定期做好机房保洁工作,保证地板及地板下的无尘状态。重要区域进行保洁工作时应有运维人员现场监督和指导。
7.4 标签标识管理
应建立针对数据中心场地基础设施设备和物理环境完整的、清晰的标签标识管理系统。应至少包括:
●
●
●
●
● 设备标识:包括设备名称、型号、编号、资产编号等; 线缆标识:包括起始端信息、终止端信息、设备名称等; 警示标识:如“设备已带电/危险”、“禁止合闸”、“禁止分闸”等; 物理环境标识:如位置标识、区域标识等 系统图展板标识:如电气、暖通、消防、弱电系统图展板。这类标识便于运维人员清晰、快捷地掌握区域及整个数据中心系统的配电、制冷、消防、弱电的原理及关键点位。
7.5变更管理
任何对于设施运行状态的变更应进行预先的风险分析,并基于风险等级,设定相应级别的事前审核流程。在变更方案及变更时间窗口确认后,应进行相应范围的告知。变更结束后,应向相应范围部门通报变更结果。
21现代数据中心网(D)
7.6事件管理
应制定事件管理流程,明确不同等级事件下相应的处理流程。7.6.1事件等级定义
一般事件:任何没有达到数据中心设计和运行标准的异常事件;
严重事件:任何没有达到数据中心设计、运行标准的事件,且对提供的服务造成中断的事件;
重大事件:任何没有达到数据中心设计、运行标准的事件,且对提供的服务造成中断,且影响范围大的事件。
7.6.2事件升级
当事件暂时无法排除,需要逐级报告,进入事件升级流程。
如遇特殊情况,与直接主管联系不上时,可越级向上一级主管报告。7.7应急响应
7.7.1设施应急预案演练
运维团队应针对应急操作流程EOP进行定期的演练工作,主要包括: 沙盘演练:参与演练的运维人员集合,并分别口述在发生紧急情况下自身所应承担的职责及将会执行的方案及步骤;●
跑位演练:参与演练的人员跑位到模拟故障现场,模拟处理故障,参与人员应清晰地说出故障的处理方案及步骤。●
应急演练的演练原则是:尽量接近真实情况,在条件允许的情况下尽量真实地处理故障。在运行中的一些特定场景下也可以进行应急演练,如发电机带载实验等。
7.7.2人员安全应急流程
数据中心场地基础设施运维团队应针对影响运维人员健康的人身事故制定应急流程并定期演练。 应急流程可包括设置现场急救包以及联系当地医疗急救机构的方式等。
7.8容量管理
容量管理可包括但不限于以下方面:
7.8.1空间容量
●
●
● IT设备摆放空间; 基础设备设施摆放空间; 综合布线线路空间,配线架管理。
22
7.8.2能力容量
●
●
●
● 电力供应容量; 空调供应容量; 综合布线信息点容量; 互联网接入容量。
设施运维团队应与IT部门定期沟通,动态了解IT需求的预测,并通报设施容量的使用情况。可制定3个月至36个月周期的IT需求及设施可用容量两者的对比分析表。
当场地基础设施不能满足IT增长的需求时,应提前制定并上报扩容或者新建数据中心的计划。
7.9能效管理
7.9.1能效监测
数据中心场地基础设施运维团队应了解并记录数据中心在不同工况及不同外界气候条件下的电力使用效率PUE的变化情况,从中发现趋势,以不断优化运行方案。
7.9.2了解IT 设备运行特征
数据中心基础设施运维人员应具备一定的IT设备相关知识,了解服务器、网络、存储等设备的运行特点和功耗情况。还应了解客户或用户的业务基本情况,了解IT设备的运行峰谷期。
应与客户或用户相关部门做好沟通,针对高密度IT负载的部署做出预测,并制定相关应对方案。
7.9.3管理气流组织
应封堵设施建筑所有可能的漏风口,维持设施的正压。
应疏导设施内气流的流向、封堵所有可能的漏风口、对机柜内所有空闲U位安装盲板、关闭不必要的出风口、保证冷空气的最佳使用效率。7.9.4运行阈值设定
应基于安全性及运行效率的综合考虑,建立运行阈值设定指南,设置监控报警阈值、空调回风温度等。
7.10预算管理
运维团队应做好运维财务预算,上报主管领导及财务部门,并做好预算必要性的沟通解释工作。
23现代数据中心网(D)
预算应包括但不限于以下内容:●
●
●
●
● 基于SLA的人力预算; 备件及工具、仪器采购费用; 应急维护材料费用; 专业外包维保和应急服务费用; 政策性等强制检测服务费用;● 整改或节能改造预算;● 突发问题备用金。
24现代数据中心网(D)
八、附录:数据中心场地基础设施运维管理最佳实践
附录A 测试验证的最佳实践
北京中科仙络咨询服务有限公司-王茜
数据中心的测试验证是业主对于数据中心建造质量进行确认的一个过程。在欧美的建筑行业,测试验证作为工程质量管理的规定步骤已经存在了30多年。近10年来,欧美的数据中心客户已经把测试验证作为数据中心工程质量管理的规定动作,国内近几年建设的大型数据中心也都开始把测试验证作为必须的要求。但相对起国外,行业人士预计还有80%的国内数据中心没有聘用专业的第三方机构进行数据中心的测试验证,这为数据中心的稳健运行埋下了隐患。
一、数据中心测试验证概述
ASHRAE(美国采暖、制冷与空调工程师学会)对数据中心测试验证的定义是:数据中心测试验证是一个系统性的质量验证过程。此过程验证并记录该数据中心设施作为一个整体及其所有的设备、子系统满足用户的设计目标和运行要求。测试验证处在数据中心建设和投产运行的关键的、承上启下的节点。数据中心的规划、设计、建设阶段投资大,周期长,测试验证是确保投资达到预期目标的最重要手段,可以看作是数据中心建设的终点。于此同时,测试验证也是数据中心运行的起点,一个专业和完善的测试验证可以极大降低数据中心在其运行早期的故障率,并为其全生命周期的稳健运行奠定基础。数据中心生命周期如图1所示。
图1数据中心的生命周期
一个数据中心,无论前期的规划、设计、建造阶段投资多么巨大,工期多么漫长,它们的最终目的都是要数据中心在上线之后能够持续稳定运行,满足用户
25现代数据中心网(D)
的运行要求。而在数据中心生命周期的任何阶段,都有可能因为规划的不合理、设计的失误或者建造质量的不合格,产生诸多问题,影响到未来的正常运行。测试验证的目标就是发现数据中心当前的问题(比如断路器的线可能接反;线路标识不全;或者是电路接点没有拧紧),并且提醒业主所有的单点故障点(供配电及制冷系统上可能引起系统中断的点),为潜在的问题敲警钟。
测试验证所处的关键时间节点决定了它的重要价值。对于一个数据中心来说,测试验证不仅是唯一验证系统性能、测试设备极限负载能力、降低基础设施设备早期故障率的机会,也是运维人员了解和实际接触将来管理对象、验证运维操作流程是否正确的过程,所以运维人员应该积极参与到测试验证中,借此机会熟悉系统和设备,并为以后的运维工作积累实际操作和应急情况处理的经验。
部分数据中心的建设者认为测试验证与工程监理、设备开机调试类似,是否还有必要将此过程单独进行?其实工程监理主要关注于工程的安全、进度、预算、材料质量的把控,现场人员比较少,一般只有1-2人,他们的专业多数是通而不精,也不需要专业的仪器,不能对机房整体输出性能负责。设备开机调试由设备供应商进行,主要关注于单一设备的输出指标达到供应商的投标承诺值,并且确保设备处于良好的状态,但设备调试不做故障的模拟,不对数据中心整体系统进行测试。而测试验证与工程监理相比较,主要关心最终的整体工程结果的性能符合设计要求和运行要求,现场人员多(大型项目10人左右),验证人员为各专业的专家,借助大量专业仪器、假负载来验证机房实际运行的效果;与设备开机调试相比较,测试验证由第三方专业公司进行,关注单一设备的同时,更关注整体系统的性能符合设计要求和运行要求,并通过假负载模拟故障情况,检验系统的抗故障能力,设备调试只是测试验证工作内容的一个重要组成部分。所以测试验证的作用对于整个数据中心机房的建设和运行不可替代,应该成为每一个数据中心建设工程的标准流程。
二、确保测试验证实施效果的关键因素
确保数据中心的验证效果有三个关键因素:选择一家专业的第三方验证服务机构是确保高质量验证结果的第一要素。美国绿色建筑委员会(USGBC)明确要求验证机构应该是没有参与数据中心项目设计和建造的独立第三方机构。只有专业的第三方机构才能保证测试验证结果的正确性和公正性,真正为业主负责,为机房未来的稳健运行把关。
准备合理的预算是确保验证效果的第二要素。专业和周密的测试验证需要许多专家和测试工程师的介入,需要大量精密的测试仪器和假负载,模拟测试时需要耗电,柴油机测试需要耗油,这些都需要数据中心建设的项目管理者及早为测试验证留足预算资金。
为测试验证留出时间是确保验证效果的第三要素。很多工程项目管理者往往因为建设工期紧、领导急于投产而没有留出验证的时间,这会为后期的安全运行埋下诸多隐患,所以要尽早准备验证工作,为测试验证留出时间。
26现代数据中心网(D)
三、测试验证的内容
数据中心的规模越大、设计等级越高、设备配置越复杂,需要测试验证的内容也就越多。测试验证的内容可以按照实施的顺序和验证的对象两种方式来划分。1.按照实施的顺序
测试验证工作从建造阶段就应该开始介入,直到数据中心上线之前结束,是机房上线运行前的最后一道工序。按照实施的顺序,我们可以把测试验证分为厂验、到货及安装、功能元件测试、功能系统测试、系统联调及故障模拟五个阶段。(1)厂验
厂验是在设备发货之前,在设备原厂或者第三方的实验室进行的设备
运行和功率容量的基础验证。厂验的对象是机房的主要设备,包括发
电机、UPS、冷水机组、空调等。这些设备对机房整体系统有至关重要
的影响,所以发货前必须按照厂家或者行业标准的条件和步骤进行厂
验,目的就是验证设备的性能参数符合招投标文件,功能满足设计要求,避免设备发货前就有无法弥补的缺陷。测试验证的机构需要全程参加
厂验,测试报告由厂家提供,测试验证团队审核。
(2)到货及安装
测试验证团队应该在设备到达安装现场时进行到货检查,检查的对象
包括发电机、UPS、冷水机组、空调等主要设备,检查的目的是确认到
货设备与厂验中的设备一致,无损坏无更换。
在主设备安装完成后,测试验证团队需要对安装质量进行检查,确保
设备的安装满足设计、组装、使用、维护、人身安全和当地法规等要求。设备的安装质量直接影响以后的运行稳定性,很多设备故障都是由于
安装不合格引起的。比如在风冷空调的安装过程中,如果安装管路过长、落差过大就容易在运行中造成烧压缩机的严重故障,所以安装质量是
测试验证过程中非常需要关注的内容。
可以说厂验和到货、安装检查是测试验证进入核心工作的必要前提。
(3)功能元件测试
测试验证团队需要在功能元件测试阶段完成设备的性能测试和启动测
试,并验证设备能够在基础负载下运行,这个阶段是针对单体设备的
测试验证,是为后面的系统测试验证做准备。
由于数据中心的设备非常繁杂,这个阶段的测试验证关键就是要保证
核心设备和核心系统的每个链条上的原件和路径都得到实际的测试和
验证。对于主要系统功能元件的测试验证内容,我们将在按照验证对
象的划分方式中详述。
27现代数据中心网(D)
(4)功能系统测试
功能系统测试是针对由单体设备组成的子系统来进行的测试验证工作。主要内容包括验证子系统是否已经做好与其他系统联合运行并支持数据中心运转的准备;测试、调整制冷系统,以保证风量和冷冻水流量满足设计要求;分别在正常、维护和应急模式下,通过监控系统验证设定点、报警、功率数和性能状态的反馈是否正确。
数据中心基础设施中对于可用性及可靠性影响最大的子系统是供配电子系统。随着数据中心热密度的上升,空调系统的重要性也随之上升。而安防监控的参数设置可能影响以上两个系统的动作,因此这三个子系统的测试验证也是数据中心验证的主要工作。
(5)系统联调及故障模拟
系统联调及故障模拟在测试验证工作中是最后一个环节,也是验证数据中心机房作为一个整体能否满足设计要求和运行要求的最主要手段。这个阶段要求测试验证机构对于机房的设计有深刻的理解,对于运行中可能出现的故障有丰富的经验,对于应对特殊情况的回退措施有充分的准备,是保证验证效果难度最大的阶段。
系统联调及故障模拟的主要工作包括验证数据中心的各个子系统是否能在不同设计负载的条件下正常匹配运行;验证各系统对不同动作、维护工作或者故障所做出的反应是否满足设计和运行要求;验证设备和系统对计划内或者计划外的事件所做出的反应。
2.按照测试验证的对象
数据中心基础设施主要由电气系统、暖通系统、安防与监控系统、消防系统和装饰装修系统组成,测试验证的工作内容按照验证对象来划分也需要映射到这五大系统中。另外我们将故障模拟单独列出,其实这项内容是包含在各个子系统中的,但它们又具备一定的共性,所以单独总结出来便于给读者更清晰的概念。
(1)电气系统
数据中心基础设施的电气系统不但承担着保障IT设备电力供应和电能质量的任务,还要解决空调设备、机房照明、应急照明、消防、监控等其他设备的用电问题,是基础设施中最为重要的子系统,也是为数据中心提供运行动力的基础,所以对电气系统的测试验证工作尤为重要。
电气系统的测试验证工作主要是验证电气设备及相关元器件的性能和运行参数是否符合设计要求,验证电气系统是否能对设计负载提供稳定、高质的电力供应,验证电气系统作为一个整体是否能满足运行要求并与其他系统匹配运行,验证电气系统在故障情况下是否能做出预期的反应并有一定的抗故障能力。电气系统的测试验证主要具体工作内容见表2。
28现代数据中心网(D)
表2 电气系统主要测试验证内容
测试对象
母线
测试内容
检测母线温升情况,温度达到恒定值后1h温升的变化。检查接地系统的接线是否完整、是否有明确标识,在主配电室、UPS配电室、主机房等位置的等电位接地端子箱处测量接地电阻,在各级配电柜处及主要设备末端(如PDU列头柜)测量零地电压。
检查各级系统电缆接线是否牢固,是否有标牌,标牌是否正确。在带载情况下测试开关端子及接线端子温度,作为接线是否牢固、有无虚接的判断依据。
通过开断墙面开关确定所有开关与灯具组的对应关系,通过开断照明配电箱断路器确定每个微断与墙面开关以及灯具的对应关系,通过开断应急配电箱断路器确定每个微断与应急灯具的对应关系,检查所有回路是否有标识,检查所有标识是否正确。在带载情况下测试开关端子及接线端子温度,作为接线是否牢固、有无虚接的判断依据。
检验发电机的启动功能及运行稳定性。记录每台发电机在不同负载率下(25%,50%,75%,100%,110%)的面板显示及实测的输出功率、输出电压、输出电流、功率因数、谐波、转速等电气参数,并同时监测环境温度、水温、油温、油压、充电电池电压、耗油量等。箱式发电机需要测量集装箱进出风的温湿度及噪声。
检验UPS带载运行情况及性能。UPS单机及并机运行状态下,记录在不同负载率下(25%,50%,75%,100%)的输入输出电流、电压、功率、功率因数、谐波等实测电气参数,计算UPS效率,同时记录UPS面板显示相关参数。检验电池后备时间是否满足设计要求。记录每台UPS的后备蓄电池在放电过程中的负荷电流、负荷功率、测量每块电池的电压及端子温度,同时记录UPS主机上显示的相关参数。
测量机柜相序、机柜带载运行时的零地电压、地线电流、PDU列头柜中分回路的空开端子温度。ATS稳态、发热运行检查,模拟转换,设定检查机房内电气设备三级防雷,机柜及设备接地阻值测量。
测试仪器
热成像仪、红外测温仪、手持式温湿度计绝缘电阻测试仪、万用表
等电位接地系统
供电系统接线万用表、红外测温仪
照明系统接线 万用表
柴油发电机
万用表、三相电能质量分析仪(FLUKE 435)、红外测温仪、噪音计、温湿度计、风速仪
万用表、三相电能质量分析仪(FLUKE 435)
UPS单机和并机系
统
蓄电池组
万用表、红外测温仪、温度传感器
万用表、漏电钳形表、钳式万用表、相序表、红外测温仪
假负载、热成像仪、红外测温仪钳形万用表
机柜运行电气参数
ATS防雷接地系统机房区、设施区、辅助办公区正常照明及应急照明机房区(开启精密空调)、设施区、辅助办公区、楼顶设备区域(开启冷却塔、箱式发电机)
在各区域抽取有限个采样点进行照度测试,与设计指标对比。 照度计
在开启全部空调设备的房间内随机选择5个点,使用噪声仪
测量噪声,计算出平均值与标准值进行对比。
噪音计
29
现代数据中心网(D)
(2)暖通系统
IT设备在运行过程中会产生大量的热,数据中心暖通系统的任务就是消除这些热量,营造一个适合IT设备运行的稳定环境,对于该环境的要求主要包括温度、湿度和洁净度三方面。虽然暖通系统不直接作用于数据中心的产出(对IT业务的支撑),但却是数据中心产出的重要保证,如果暖通系统不能正常工作,数据中心在短短几分钟可能就会陷入瘫痪,所以对暖通系统的测试验证工作也是非常重要的。暖通系统的测试验证工作主要是验证空调及相关设备的性能和运行参数是否符合设计要求,验证暖通系统是否能满足设计负载对制冷量的要求,验证系统作为一个整体是否能满足运行要求并与其他系统匹配运行,验证系统在故障情况下是否能做出预期的反应并有一定的抗故障能力。有关暖通系统的测试验证主要具体工作内容,见表3。
表3 暖通系统主要测试验证内容
测试对象
新风机
测试内容
新风机及其管道的安装是否满足国家标准,符合设计规范,新风的温湿度和风速能否满足国家标准和设计规范,正压值是否符合国家标准和设计规范,检查新风口处是否有结露现象。测试机房地板出风量与精密空调额定风量的差异。测试精密空调的实际制冷量与额定制冷量的差异。
通过人工调节EC风机风量,100%-30%,测试EC风机的输入功率。
将精密空调相对湿度设定为较高值,使空调处于加湿状态,测试精密空调冷凝水排水是否顺畅
测试冷通道地板出风口温度的均匀性,测试冷通道机柜垂直温度的均匀性
测试冷水系统(含离心冷水机组、冷冻水泵、冷却水泵、冷塔风机、精密空调)在冷水机组负载率100%、75%、50%、25%条件下的COP值。冷水机组断电重启时间。
采集现场冗余测试时的温度变化数据,使用散热专用软件工具输出机房温度变化曲线图。
测试市电断电后机房内冷热通道温升
空调全部开启(备用机组不开),风量100%运行,风口地板全部开启,新风机开启,全速运行,冷通道完全封闭,测试机房密闭门内外侧压力差是否满足设计要求。测试电池室是否处于负压状态
检验机房内精密空调轮值,延时启动等设置
测试仪器
温度计、风速仪热线风速仪、辅
助风管温湿度计电量仪、电流表
目测温湿度计、流量
计系统调试
精密空调风量精密空调制冷量
EC风机空调排水系统冷热通道
冷冻水系统
气流组织机房环境温升机房环境正压电池间轮值设置
散热专用软件温度计、计时器
微压计微压计
30
现代数据中心网(D)
(3)安防与监控系统
安防系统是运用安全防范产品和其它相关产品所构成的入侵报警系统、视频安防监控系统、出入口控制系统、防爆安全检查等的集成电子系统或网络。监控系统是对数据中心现场设备的工作状态、运行参数、历史数据等进行实时的监控,完成强大的系统联网管理功能,同时也是报警传递的第一途径,对于运维人员及时发现故障、快速处理解决问题都有不可取代的作用。
安防与监控系统的测试验证工作主要是验证系统相关设备的性能和运行参数是否符合设计要求,验证系统作为一个整体是否能满足运行要求并与其他系统匹配运行,验证监控系统是否能正确的反映被监控设备的工作状态、运行参数、历史数据,验证安防系统是否能起到有效保障数据中心安全的目标。有关安防与监控系统的测试验证主要具体工作内容,见表4。
31现代数据中心网(D)
表4 安防与监控系统主要测试验证内容
测试对象
从BMS中读取的设备运行参数,
设备包括发电机组、UPS、离心式
冷水机组、CRAH、水泵风机变频
器等。
从BMS中读取的机柜电流、电压、
频率。
从BMS中读取的机房区、配电室、
电池间等区域的温湿度。
机房区、配电室等安装的漏水检测
系统测试内容确认BMS系统正确反映设备实际工作状态和参数检测机柜在带载运行状态下本地电量仪显示电流数值与运维值班室监控设备显示数值以及实测数值的一致性。各区域温湿度传感器的测量精度和准确性。允许的误差范围温度:±0.5℃;湿度:±3%漏水检测系统报警显示漏水位置是否与实际位置相符。
测试全部读卡器(静脉识别)、电磁锁、出门按
钮功能。
测试门禁软件功能,包括密码设置、权限设置、
数据存储等。
室内、室外摄像机的图象清晰度、图像变形度,
室外快球摄像机的操控性能和变焦性能。检测存
储系统的回放功能和视频存储质量。
检测精密空调在运行状态下本地温度、湿度、加
热、加湿和报警信息等与运维值班室监控设备显
示数据的一致性。
检测UPS在运行状态下电压、充电电流、放电
电流、功率因素和报警信息等与运维值班室监控
设备显示数据的一致性。
检测新风机组的温度、湿度、送风口的温度和报
警信息等与运维值班室监控设备显示数据的一致
性。
检测各软件是否能正常运行、操作、存储、备份。
确认BMS系统正确及时触发报警,报警信号响
应速度≤3秒(电话和短信报警响应速度可稍
慢),从现场告警发生到监控中心接受到告警信
息的时间间隔不大于10秒。测试仪器漏电钳形表温湿度计所有安装门禁系统的出入口。室内、室外安装CCTV系统的全部区域精密空调UPS系统新风机组软件基本功能BMS系统的报警功能
(4)消防系统
数据中心如果发生火灾,会毁坏计算机设备,中止正常的系统运行,甚至危及工作人员的生命,所以消防系统非常重要。对于消防系统的测试验证工作主要就是检查报警系统、灭火系统、排烟系统是否能够在早期发现火灾隐患,准确及时报警,在火灾发生后快速灭火,并将有害气体排出。有关消防系统的测试验证主要具体工作内容,见表5。
32现代数据中心网(D)
表5 消防系统主要测试验证内容
测试对象
消防火灾报警系统
吸气式极早期烟雾探
测系统
消防联动测试测试内容检测温感、烟感是否正常,消防主机是否能正常发出报警信号,声光报警器是否能正常。检测设备是够能正常吸气并检测烟雾发出报警信号。检测消防主机发出报警信号动作后能否按规定正常切断联动
设备电源,包括新风系统,门禁系统、视频监控。测试仪器
(5)装饰装修系统
数据中心基础设施为用户的业务需求提供支撑,同时它也是一个建筑主体,需要满足设备、人员对装饰装修方面的相关要求。装饰装修系统的测试验证工作主要是对地板、吊顶、门窗、墙体等是否符合规范的检查。有关装饰装修系统的测试验证主要具体工作内容,见表6。表6 装饰装修系统测试验证内容
测试对象
所有铺装抗静电地板
的区域测试内容铺设平整,走在地板上不应该有晃动感;地板腿与地面固定,不规则墙柱面应按实际尺寸切割,切割处有支撑固定;现场切割的地板其切割面光滑、无毛刺;地板与设备连接处是否缝隙过大;地板块
无色差。
吊顶装饰面板表面平整、边缘整齐,拼接处严密美观;吊顶与墙面、
柱面等交接处符合设计要求,应严密美观;吊顶符合设计标高,吊
点满足要求,无虚接现象;检修口的位置及大小应满足实际使用要求;
吊顶板穿孔处有装饰盖板;吊顶板无有色差。(吊顶内异物检查)
门体安装平整、牢固、开闭自如、推拉灵活、接缝严密;门体开启
方向符合设计要求;防撞条、密封条每樘门都安装到位;门吸满足
实际使用要求;外墙新安装门体严密性满足防水、防尘效果。
石膏板隔墙无裂缝;乳胶漆墙面线脚平直方正;乳胶漆墙面表面光滑、
洁净,平整,颜色均匀,无明显抹纹;墙面开洞做密封处理;不锈
钢墙柱护角符合设计要求;贴近线管的墙面有遗漏刷漆等。
踢脚装饰面板表面平整、边缘整齐,拼接处严密美观;坡道满足实
际使用要求;排水沟盖板安装平稳,满足实际使用要求;地漏排水
是否通畅;吊顶内、地板下无杂物;挡鼠板,防鸟网满足实际使用
要求;地面、墙面瓷砖(大理石)无裂缝、破损现象;所有管线洞
口恢复及预留是否符合表面平整、边缘整齐。测试仪器所有安装吊顶的区域所有新增、改造门窗所有新增、改造墙体其他检查项目
(7)故障模拟
故障模拟测试是借助假负载营造数据中心上线后的实际运行情况,然后模拟机房运行中可能出现的故障,来验证各系统在出现故障情况下的反应是否符合设计预期,从而判断机房的抗故障能力和设计等级。故障模拟测试不但是验证机房实际运行能力的重要手段,也为运维团队提供应对紧急状况的实践经验,运维人员应该在故障模拟测试过程中了解系统的薄弱环节、总结有可能出现的故障特征、制定最佳应对流程,才能在以后的运维工作中遇到故障不慌乱,及时准确地采取措施,将故障对系统运行的影响降到最低。有关故障模拟的测试验证主要具体工作内容,见表8。
33现代数据中心网(D)
以上按照验证对象来划分的测试验证工作并不能覆盖所有内容,针对项目做具体的方案时还应该考虑设计图纸、设备配置、客户需求等因素来增减条目,才能真正贴合验证系统是否满足运行要求的目标。
四、常见问题及案例分享
1.测试验证中出现的常见问题
在测试验证过程中,一些设备性能、系统联动方面的问题就暴露出来,这也正是我们做测试验证工作的目的。如果这些问题不及时发现,进行整改,机房上线后就可能出现无法弥补的损失。按照验证对象分类角度,列举相关系统测试验证中出现的常见问题及其危害,分别见表9至表13。
34
现代数据中心网(D)
表9 电气系统测试验证常见问题分析
测试对象
常见问题
10KV电缆进线孔封堵不严
变压器
变压器室未安装挡鼠板变压器室通风不佳切换时间设置为同一数值
ATS
系统单线设计
柴发电伴热采用发电机电源
柴油发电机
进口发电机组运输至国内后皮带轮
紧固不合格
室外发电机无接地
UPS上口及下口采用相同开关及
相同整定值集中旁路柜电压采样信号接反UPS与地板之间缝隙过大
UPS及电池
电池监控系统参数误差值较大电池放电时间不满足设计时间电池开关柜采用交流开关
机柜底端无防堵
PDU与配电柜出线开关不对应
机柜及PDU
机柜无接地机柜正面安装机柜门
标签
标签与实际不符
若有漏电可能会造成人员伤亡,并可能引起火灾。
机柜内温度较高易造成服务器宕机。维护时误操作造成正常运行设备断电,严重者将
导致服务器宕机。
不能参考监控参数。不能准确计算电池的后备时间。
分断短路电流困难,造成电池爆炸;开关灭弧功
能较差容易烧毁。
漏风严重,远端机柜易造成局部热点。运维时误操作造成正常运行服务器宕机。因系统为单线,ATS维护时将造成系统断电,无
法进行在线维护。不启动发电机无法进行加热,导致冬季不能正常启动。长时间带载时水温升高,导致发电机停机。
发生漏电时可能会导致人员伤亡。整定时未考虑充电负荷及UPS效率。超载125%后,UPS不会正常关机。导致漏风不利于节能,形成局部热点。
风险隐患
变压器室漏水造成故障。
若老鼠钻进配电柜中将造成短路,导致断电,严
重者将引起火灾。
环境温度升高容易造成变压器故障。断电重启时冲击电流过大,容易造成上级开关跳
闸。
35
表10 暖通系统测试验证常见问题分析
测试对象
冷水机组
常见问题
施工完成之后冷水机组并入管道冲洗
过滤网洁净度差室内机内有线头
同一机房内空调室内机来自于同一路电源过滤网未固定
水管或铜管安装于空调前方回风空间不够
风险隐患
冷水机组内铜管损伤导致无法正常使用。机房制冷量达不到设计要求。
运行时容易掉落可能会导致线路短路。
若断电时发电机启动延误将导致机房温度在几分钟之内达到40度。容易导致过滤网飞出空调。风阻增大导致远端机柜局部热点。气流短路造成局部热点。正常使用时易晃。
冷凝水易从保温不严处滴下,可能导致配电系统故障断电。
阀门的胶垫容易被损伤造成管道漏水,进而制冷系统无法正常使用。运维时发生误操作。造成机房内灰尘较大。
应安装在空调上端,否则容易造成冷凝水进而损伤机房内设备或线路。
空调数量较多时,排水不通畅。容易造成积水。容易造成积水。
空调
水泵水泵安装不紧固保温不严
管道
阀门安装不合格管道标识中水流方向错误过滤网不合格
新风系统
新风出风口位置安装不合理地漏设置数量少
排水系统
挡水坝内坡度不合格接水盘坡度不合格
36
现代数据中心网(D)
表11 安防与监控系统测试验证常见问题分析
测试对象
门禁门禁CCTVCCTVCCTV监控监控监控
常见问题
门禁控制器固定不可靠门禁地图与现场门编号不一致
安装位置不合格有强电线槽阻挡视线地图编号与现场编号不一致实际参数与监控数值误差较大监控界面有报警提示,但无报警信息监控中编号与实际编号不一致
风险隐患
容易松动造成通讯故障记录混乱不易辨识不能完全拍摄到人像不能完全拍摄到人像人为增加后期的运维难度
不能准确判断电池实际参数,增加运维工作量
不能准确判断故障原因不能准确判断故障内容
表12 消防系统测试验证常见问题分析
测试对象
联动探头广播联动联动
常见问题
消防报警后,门禁未切断探头地址与主机不对应消防报警后声光无反应消防报警后,应急照明还有开关控制烟感温感报警后电磁阀无动作
风险隐患
火灾发生时人员不易撤离现场
不能准确判断故障地点周边人员不能及时发现火灾已发生
线路仍带电造成增大火灾不能及时灭火,增加损失
表13 装饰装修系统测试验证常见问题分析
测试对象
地板墙面门窗地板
常见问题
列头柜地板横梁未固定
新风口无防鸟网配电室未安装挡鼠板机柜未安装底板
风险隐患
地板容易松动造成人员受伤鸟类易进入机房造成故障配电室易进入老鼠造成故障造成冷风短路形成局部热点
2.案例分享
北京某大型IDC数据中心,总建筑面积25552.51平米,地下1层,地上2层,建筑高度(最高处)19.9m,是原有建筑改造工程。该项目共分三期进行,以二期的第一阶段为例,测试验证工作共涉及4个机房,766个机柜。
测试验证团队针对电气系统、空调系统、智能建筑系统、消防系统、装饰装修系统进行了测试验证工作,共完成77大类测试项,实时记录4809个数据,其中4400个数据在正常范围内,409个数据偏离正常值。经过对非正常数据的分析,总结出19个问题,主要包括:UPS室空调气流短路,无法有效地给
37
现代数据中心网(D)
UPS散热;UPS室上面线槽距离UPS太近,UPS散热效果不好;4个机房均为负压,机房密闭性差;PMS、BMS无法正常显示监控数据,仍需继续进行调试;变压器失电后,PMS系统中UPS上口配电柜没有声光报警;机柜运行参数中通讯故障,监控室无数据显示:CCTV系统摄像头编号未编写,软件中无法看到是在什么房间什么位置;CCTV软件中无地图,无法判定是什么位置的摄像头;门禁系统软件地图个别地方与实际不符,需要重新调整,需要添加房间编号;门禁系统延迟时间太长,门状态改变之后至少需要1.5分钟之后,软件中的状态方能改变;温湿度监控系统现场没有标签,误差值较大;干接点测试中变压器模拟故障时,干接点系统未声光报警;空调的过滤网没有进行固定。这些问题如果不在机房上线前解决,将为机房运行带来非常大的隐患,也为运维工作增加了难度。
用户在收到这些问题反馈之后,及时进行了整改,复测全部合格。目前该数据中心二期已经上线运行,运行状况良好,测试验证工作达到了预期的目标。
五、小结
测试验证是一个确保系统设计、安装、功能测试、系统联调、运行状态与设计意图相符合的过程,是设施获得良好功能和可靠运行过程中的重要组成部分。一个好的测试验证不应仅满足“测试”相关的设备功能指标,更重要的是“验证”系统是否可以满足运行阶段的要求。运维人员也应利用测试验证的过程,熟悉未来的管理对象,验证设备操作流程的正确性,增加实操和应对突发事件的经验。
另外,部分用户认为测试验证工作只与新建项目有关,其实不尽然,测试验证同样也适用于扩建、改造项目和日常的维护活动。对已经运行的数据中心做测试验证,通常我们称为“健康评估”,就是通过仪表测量、观察、分析等方式,找出隐藏的运行隐患,确保基础设施达到功能要求,实现预期的可靠性和可利用性。用户应考虑将“健康评估”作为一种常态的测试验证形式,融入到日常的操作和维护工作中。
38现代数据中心网(D)
附录B 数据中心市电断电应急预案
北京云泰数通互联网科技有限公司李良
一、电力系统运行方式
1.数据中心单路市电进线能力≤10000kVA。
2.数据中心总负荷>10000kVA,电力系统运行方式为单路市电断电启动柴油发 电机组。
3.柴油发电机组启动模式控制开关常时位于“1档”,即单路市电掉电启柴发。 变压器低压出线柜旋钮开关在“手动档”,低压母联旋钮开关处于“停止位”。
二、故障过程描述
1.电力监控系统报警,10kV 201进线停电,4#母线失电。
2.变压器TR-1A、TR-3A、TR-5A、TR-7A、TR-9A、TR-12A主进线失电。3.确认断电报警、启动应急预案,通知应急小组成员“高志强、王鹏”。
三、人员分配
1.值班组长携带对讲机现场确认“10kV配电室A”及“10kV柴油机配电间A1”各断路器分合闸情况;柴油发电机供电后现场操作TR-1A到TR-7A变压器出线开关合闸;
2.电气人员携带对讲机中控室核对电力系统监视画面运行情况,联系应急组小组成员;
3.暖通人员携带对讲机到柴油发电机房A、B、C、D及并机柜面板核查8台柴发启机及并机情况;确认后联系值班组长操作TR-9、TR-12A变压器出线开关合闸,最后到冷冻站复位及启动制冷系统。
四、处理过程(75S内)
1.环控室留守人员工作职责
(1)核对水系统界面蓄冷灌进出水阀门打开,蓄冷灌处于放冷状态,B路负 荷水系统运行正常。(0-75s时)
(2)通过电力监控画面核对201断路器确认断开。(5s时)
(3)核对电力监控PLC是否自动断开馈线开关(2秒一个)211,212, 213,214,215,216,217,218。(7-21s时)
(4)核对8台柴油发电机出线断路器K211、K212、K213、K214、K215、 K216、K217、K218是否合闸成功。(5-30s时)
(5)核对K201-A应急进线合闸。(35s时)
(6)核对馈线断路器216,217,218,215,211, 212,213,214是否 依次合闸。(40-75s时)
39现代数据中心网(D)
(7)核对1AA1、3AA1、5AA1、7AA1、12AA1、9AA1变压器出线柜断路 器是否随现场操作显示合闸。
2.暖通人员工作职责:
(1)暖通人员到达“柴油发电机房A-D”协助确认:
●
●
● 柴油发电机机房C并机柜确认柴油发电机组(8台)正常启动。 现场确认柴油发电机组(8台)正常启动。 确认油路控制系统自动补油,各日用油箱间液位高于500mm,记录地下储油罐液位。
确认柴发机房进出风百叶是否正常打开。冬季启动注意使用回风装置控制柴发使用温度。
40● 现代数据中心网(D)
(2)现场操作:
● 对讲机联系值班组长得到指令后操作:12AA1、9AA1变压器出线开关合闸。
供电系统恢复后,重新依次启动冷却水泵、一次泵及冷水机组。
●
值班组长工作职责
41现代数据中心网(D)
(3)值班组长到达“10kV配电间A”、“10kV柴油机配电间A1”协助确认
●
● 查10kV进线断路器201确认断开。(5s时) 查PLC是否自动断开馈线开关(2秒一个)211,212,213,214,215,216,217,218。(7-21s时)
● 查8台柴油发电机出线断路器K211、K212、K213、K214、K215、K216、K217、K218是否合闸成功。(5-30s时)
查K201-A应急进线合闸。(35s时)●
● 查218、217、216、215、211、212、213、214断路器依次合闸。(40-75s时)
● 核对1AA1、3AA1、5AA1、7AA1、12AA1、9AA1变压器出线柜断路器是否随现场操作显示合闸。
42现代数据中心网(D)
(4)现场操作
● 与暖通人员确认8台柴油发电机启动成功及油路控制正常。
值班组长按照1AA1、3AA1、5AA1、7AA1顺序(10s一个)依次
合变压器出线柜断路器,并将所有低压侧断路器合闸情况通知各组员。●
五、事后确认系统正常运行
1.水系统非UPS带载负荷由断电方市电供电,检查备份系统正常,并确认其他设备供电正常。
2.检查各低压配电室UPS的工作状态,确认运行正常。
3.检查各启用的精密空调是否正常开启。
4.检查油路控制室各日用油箱的液位情况,确认油位超过500mm,记录储油罐的液位。
5.检查失电侧变压器送电后的运行情况,确认设备运行正常。
6.检查检电气控制室电池运行情况,确认运行正常。
7.检查水系统是否运行正常。
8.检查所有ATS柜运行状态,确认设备运行正常。(特别电信接入间配电和电信接入间空调运行情况)。
9.检查电池间设备运行情况,确认设备运行正常。
10.与IT人员确认机房IT设备正常运行。
六、联系汇报
1.与公司应急小组当日值班人员联系,记录通话时间,联系人姓名。
2.断电如非本数据中心原因,通知供电局,确认来电时间。
3.向上级领导汇报。
七、文件附件
1.附件1《单路市电断电点检表》
2.附件2《恢复记录表》
3.附件3《系统失电处理报告》
八、应急小组成员联系电话
高志强: XXXXXXXXXXX
王 鹏: XXXXXXXXXXX
43现代数据中心网(D)
附录C 数据中心机房基础设施运维人员架构图
北京云泰数通互联网科技有限公司李良
电气工程师暖通工程师消防、弱点工程师......
......
......44
附录D数据中心场地基础设施运维中易犯的十大错误 —施耐德电气旗下APC公司全球数据中心服务高级总监Robert Woolley
—施耐德电气旗下APC公司全球数据中心服务大中华区经理张永萍
第一大错误:将数据中心场地基础设施运营团队排除在设施设计过程中
采用能够平衡初始资金投入和运营成本支出与公司需求的总体拥有成本(TCO)方法,是打造最有效、最经济和高效数据中心的第一步,其中包括根据公司的具体情况确定数据中心的设计标准并确定其性能特性。
根据我们的经验,如果在数据中心场地基础设施设计阶段将运营团队排除在外,其结果往往在数据中心交付以后需要对基础设施进行整改和维修。譬如,遇到以下情况,我们不得不对一个崭新的数据中心进行整改。
●
●
● 没有设计足够多的分支电路,导致各种维护作业;发电机组设计和安装不合理,导致简单的维护作业也很困难;由于楼宇设计缺陷,导致空气处理单元无法为数据中心提供所需要的气流。如果在设计过程中考虑到运营计划,这些错误本来是可以避免的。当您让运营人员参与到设计阶段时,就会“在设计时胸有成竹”。这就是TCO方法的实质。第二大错误:过分依赖于数据中心的设计
许多企业认为,如果设计了高度的冗余,便可减少在运行和维护计划方面的投入,这种看法是极其错误的。对数据中心中发生的停机的各种研究得出的结论都相同:人为错误才是罪魁祸首。正确的运营(而非设计)既可维持设施正常运行、又可控制成本,既能保护公司投资,又能保护公司的声誉。许多公司错误地将大量的资金投入到稳健的、冗余的设计中,却忽略了适当地投入到运营的预算,这种情况屡见不鲜。
比如,许多企业将关键设施运营交由专门维护写字楼的物业公司执行,而这些公司根本不具备运行或维护关键设施的专业技术。
典型的办公室空间设施运营都是基于这样的理念,就是系统可以停机进行维护或维修。短暂的办公楼系统故障只可能给内部工作人员带来不便,但如果数据中心发生严重的停机事故则可能危及公司的企业使命。建造数据中心基础设施和组建其运营团队时,公司都应该牢记的唯一目标就是:最大限度地延长正常运行时间。传统的设备维护计划无法充分满足任务关键环境的以下特殊功能和需求:
●
●
●
● 性能——持续运营是核心业务的要求;可用性—— 100%的正常运行时间,不允许任何的系统停机发生;系统复杂性——冗余系统、故障自动转移、紧急恢复程序;责任制——过程文档化、变更控制和可供审计的记录。
满足以上需求的关键在于通过正确的方法论打好关键设施运营的基础。
45现代数据中心网(D)
质量体系
过程与程序
文档和记录
培训
人员
为了确保满足这些关键需求,一开始就应确定完全合格的数据中心场地基础设施运营人员。选择错误的员工或让运营人员在设计后期才参与进来将让您错过打造运营卓越的数据中心的机会。
第三大错误:人员配置不当
许多公司根据一般楼宇管理标准估计数据中心场地基础设施的运维人员配置需求。在数据中心环境中,如果低估了人员配置的需求,就会有导致出现紧急情况时无人在场的风险。人员配置应建立在风险预测和预算的基础上。公司应综合考虑应急响应、设备维护和供应商管理等因素,建立时间表来以最佳方式部署人员。
同样,雇佣并留住合适的人才也至关重要。招聘具有专业技术知识的优秀人才极具挑战性。公司需要仔细甄别未来团队的成员,不仅要对其进行传统的背景调查,而且必须了解他们是否具备合格的技术能力、管理能力和沟通能力。所有这些技能在关键设施运营中具有至关重要的作用。然而,仅仅挑选出合格的操作人员只是第一步。
第四大错误:人才培训和培养不足
一旦找到合格的人才并招至麾下,最重要的就是为他们提供适当的支持、培训和职业发展的机会。营造积极的工作环境可显著提高员工的留存率。数据中心人员流动过于频繁会导致知识流失,这对大多数运营计划都会造成巨大的风险。
训练有素的员工了解整个数据中心系统是如何运行的、知道如何对其实施安全的运行和维护、而且一旦出现异常也懂得如何应对。设施建设完毕后,通常由参与现场施工的供应商和承包商提供培训,其培训范围仅限于特定的组件,而不能涵盖整个数据中心各个系统的运行。
通常情况下,供应商和承包商的技术人员通常只对少数运营员工进行最基本的培训。在典型的在职培训(OJT)环境中,这些刚刚“培训”出来的员工又开始培训其他员工。如此一来,就会很容易在这样的工作环境中造成差强人意的方法论和不正确的程序变成了标准化的东西了。
因此,数据中心需要建立一套计划,为员工提供有效培训,并以确保所有员工提高专业技术水平的方式进行培训:
46现代数据中心网(D)
●
●
●
● 第1级:具备在监督下进行基本操作的资质;第2级:具备可进行日常操作与维护的资质;第3级:具备可进行高级操作与维护的资质;第4级:具备相关领域的专业技术。
执行培训计划
制定培训计划的时间和费用不足是培训计划失效的最常见原因。但大多数管
理者都没有意识到的是:尽管在制定典型的培训计划方面投入了适当的费用和努
力,但都会通过大大延长正常运行时间、降低维护成本和员工流动得到多倍的回
报。
持续的培训计划必须作为总体业务中的一项投资进行评审。
第五大错误:缺乏持续的演练和测试技能
士兵、消防员和急救员一遍又一遍地反复进行演练,直到正确响应成为“第二自然反应”,即便是在最极端的情况下。数据中心场地基础设施运营的技术人员也应如此,因为在他们工作的环境中发生紧急情况时,分分秒秒都异常宝贵。出于安全和经济两方面的原因,紧急情况成为了最后一个没有准备好应对的地方。
在紧急情况下,您有责任确保自己的员工和训练有素的急救人员一样随时准备好作出快速的反应,因为他们的生命可能有赖于此。关键就在于重复重复再重复:持续地留出时间来开展演练。所有团队成员均应参与这些演练,以便每个人都确切知道发生实际的紧急情况时如何正确应对。
但培训绝非单纯的演练,需要设置一套完整的课程。为数据中心场地基础设施设置一套有效的培训课程的必要步骤如下:
●
●
●
●
● 针对各种紧急操作程序设置演练;针对主要设备/系统开发运行理论课程;针对运行和维护程序创建培训模块;针对各个培训等级设置考试。量化演练和测试结果对鼓励持续改进是必不可少的。
第六大错误:未将运营计划落实在文件化的过程和程序上
数据中心场地基础设施的所有行动都必须记录在案,而且文件的价值必须通过评估预期结果、为纠正措施或促进主动的、持续的改进奠定基础来体现。
供应商移交的文件是数据中心运营的重要组成部分,但为数据中心运营团队制定需要执行的详细的程序也同样重要。这些程序包括设施巡视、常规操作、预防性维护、纠正性维护和应急响应,等等。此外,精确的竣工图纸对于安全可靠地运营场地基础设施极其重要。诸如设备清单、维护工作范围以及维护计划表等信息看似简单,但有需要时,要么不知去向、要么不够准确或者不够充分。
所有这些信息的报告对于实施变更是至关重要的。
47现代数据中心网(D)
第七大错误:未能执行恰当的过程和程序
关键环境运营中必须使用变更控制过程,来确保所有的系统变更在实施之前得到了评估和批准。要做到这一点,唯一的方法是建立一套正式的、遵循通用的变更和配置管理原则的过程和程序。
1.程序
几乎所有在数据中心内开展的工作都应当制定有一套书面的程序。最常用的程序类型是:
2.标准操作程序(SOP)
标准操作程序(SOP)可以是功能性的,也可以是管理性的。它详细地描述了一个固定的操作程序,并且在任何需要的时侯进行参考和引用。
3.作业指导书(MOP)
作业指导书(MOP)是一份详细的、一步一步的程序,在任何能够直接或者间接影响到关键负载的设备上及其周围作业时使用。数据中心应针对有计划的维护操作、纠正性维护和安装活动制订相应的作业指导书并汇编成库。
紧急操作程序(EOP)
一份紧急操作程序就是一个对一种潜在的或者以前经历过的故障模型的响应程序。它包括如何实现一种安全状态、恢复冗余、和隔离故障。
4.供应商管理
如果事先未制定全面的供应商管理计划,当有供应商加入时,会带来不必要的风险。所有供应商的活动必须受到监管,并按照标准操作程序、作业指导书和紧急操作程序的政策和程序进行标准化。再次重申,人为错误是造成停电的头号原因。如果没有编写适当的文件和供应商监督程序,停电发生的风险将呈指数提高。
5.应急响应
应急响应和应急反应的正确行为方式对于最大程度缩短停机时间是必不可少。无论准备工作多么充分,不可预测的事件都难以避免。一个精心设计的上报过程能够防止或减少损害,而详细的事件报告、故障分析和经验教训程序则有助于防止类似事件的再度发生。
所有上述程序构成了卓越质量体系的基础。
第八大错误:未制定和实施质量体系
许多公司错误地认为,过程一旦经过验证便万无一失了。而事实上只有通过持续改进才能确保数据中心场地基础设施的高效、可靠地运营,并符合成本效益。质量体系计划包括两个原则:
● 质量保证(QA):确保不将错误引入系统的过程。
质量控制(QC):在过程不同阶段为主动识别可能导致系统故障的问题而采取的措施。●
48
要达到零停机时间的卓绝水平并不容易实现。任何过程或程序都不是完美的,尤其在早期执行阶段。制定持续的过程改进计划,为过程的完善提供微调机制至关重要。比如,所有现场文件均应包含反馈环节,用以记录执行或改进该程序需要做的变更,然后将这些变更写入新版本的程序中,并通过质量保证的审核。
质量改进质量保证
质量控制
一旦以最佳方式建立了公司的各个过程,便可专注于过程自动化的力量来取得更好的结果。如果没有过程的自动化,几乎不可能捕捉关键数据元素来建立知识库,并利用知识库创建趋势模型和决策模型。
第九大错误:未使用软件管理工具
放弃软件管理工具可以轻松削减成本。但是,运行一个成功的运营计划所需要的文件数量异常庞大,而且必须可以快速获取。电子表格可能管用一时,但文件管理不善可能让您所有的努力面临风险。表 1为一个占地4,600平方米的数据中心三个月内几种
活动的报告举例。每项活动都需要大量的协调和详细的文件记录。
表 1一个季度内执行的典型的现场活动一套执行良好的计算机化维修管理系统(CMMS)可以帮助您调度、分派和追踪所有的设施维护活动。这些活动的记录可以用于生成有关设施健康、程序效果和资源利用的重要统计结果。如果将计算机化维修管理系统和质量体系结合使用,你将能够实施更先进的做法,例如预见性维护和故障建模。这些将进一步降低数据中心的成本和风险。
第二种软件管理工具是文档管理系统(DMS)。文档管理系统用于提供对重要的
49现代数据中心网(D)
设施文件(如作业指导书、应急响应程序、单线图、安全方针、维护计划表、设施报告,等等)的电子储存和检索。建立信息的归档是绝对至关重要的,因为这些信息可以促进持续的改进,并可以作为变更管理的平台。任何需要接受外部评估和审核的数据中心必须要有一个文档管理系统,作为该数据中心综合质量体系中的一部分。
完整的数据中心管理需要获得组织的全力支持。
第十大错误:认为建立一套一流程序与建造一个数据中心同样快捷
许多人不了解建立一流程序需要具备哪些条件。大多数人严重低估了从零开始建立一套程序所需的时间。您是否拥有足够的时间和资源?您内部是否具备专业知识,尤其是数据中心不是你的核心业务时?
大多数企业都不具备以上条件,也不具备多年积累的数据和经验作为制定程序的基础,预算则更少。但如果你的公司确实拥有资源和专业技术,则应当在以下几个方面做好大量投资的准备:
人员:运营计划是否具有生命力,关键在于技术人员、质量保证专员、培训专员、以及机械制冷、电气和控制系统领域的主题专家;●
● 培训:必须在您的员工身上投资,使其保持最高的工作效率;
软件管理系统:运营计划依赖于执行得当和维护良好的计算机化维修管理系统和文档管理系统,随着时间的推移,这些系统能够为你的预见建模程序提供宝贵的信息数据库;●
程序开发与质量体系:运营计划必须记录所有关键工作的程序,而质量体系则确保其性能稳定;●
过程整合:运营计划必须不断利用所有以上元素的优势以实现预期目标并建立最佳实践。●
您如果具备有效资源和专业知识,还必须拥有充足的时间。如果您正面临着经常性断电或其它问题,或者您的公司正计划在未来12个月内建造一个新数据中心,切莫指望运营平台能够按时搭建,因为建立一流的程序需要耗时数年,涉及以下诸多方面:
一流运营程序的关键特性
1.人员管理
●
●
●
●
●
●
● 评估团队规模/各岗位技能要求招聘技术评定背景审查雇佣和人员配置人才挽留职业发展
50现代数据中心网(D)
2.培训计划
● 认证/再认证● 任务/证书匹配● 应急响应演练3.文件
● 竣工图
● 资产数据库
● 预防性维护的工作范围● 维护计划
● 关键设施工作规范● 安全计划
● 设施报告
● 巡视检查清单4.过程与程序● 变更控制过程● 标准操作程序● 作业指导书
● 应急程序
● 供应商管理程序5.应急响应
● 上报过程
● 事件报告和分析● 经验教训计划6.质量体系
● 质量保证
● 质量控制
● 质量改进
7.计算机化维修管理系统● 工单管理
● 预防性维护调度● 纠正性维护调度● 统计报表
51
8.文档管理系统
●
●
● 电子文件储存与检索文件审查与批准流程文件归档
9.法规符合性
结论
各公司的当务之急是,必须认识到可持续运营计划的重要性。要实现可持续运营,各公司必须立即行动,评估各自当前的运营计划,并开始制定能够避免犯常见错误的运营方法论。一个完善的运营程序应当以既能促进质量保证又能持续改进的方式将人员、过程和系统有机地整合在一起。
那些没有条件快速设计优质程序的公司应当寻求关键任务方面的主题专家的帮助。另谋出路只能招致不必要的耽误、风险和开支。通过执行一流的运营程序,你不仅可以保护自己的资本投资,还能确保年年获得丰厚的投资回报。
52现代数据中心网(D)