IT运维行业员工流失的现状和对策

时间:2024.4.20

浅析IT运维行业员工流失的现状和对策

摘 要:本文从高离职率对行业的影响、离职的原因和对策3个方面进行分析,阐释了运维企业如何通过选人、育人和留人来保证运维团队的稳定,从而实现运维企业的可持续发展。

关键词:it运维管理;员工流失;对策

it运维行业既是服务密集型也是技术密集型行业,业务系统的维护需要大量有专业特长、经验丰富、工作认真负责的员工。可以说,运维企业的核心价值就是所拥有的人力资源,技术服务给企业直接创造了80%以上的财富利润。所以,运维企业要生存、要发展,就必须有效地保持运维队伍人员的稳定。但大部分的it运维服务公司的人员流失率普遍在25%~30%之间,有些公司的基层员工流失率在特殊年份甚至高达40%,这对整个行业发展带来不利的影响。本文在对其中原因分析的基础上,提出对策。

一、员工流失对运维企业的影响

首先,员工的离职会降低企业的服务能力。个别员工的离职会影响所从事的it系统的正常运营,即使企业能够马上补充新的员工接手这部分业务,但由于经验不足,对it系统的熟悉需要时间,都会带来it系统对客户业务支撑能力的下降。特别是当离职率过高的时候,人员青黄不接,积累下来的运维经验和知识无法有效地延续,it系统出现问题无法解决,影响客户it系统的正常运行,最终失去客户的信任而导致市场机会的丢失。

其次,一名员工的离职,就意味着企业要么把工作量分配给其他员工,要么重新招募和培训新员工。把工作量分配给其他员工,短期内虽然不会增加企业的人力资源成本,但会因为增加了额外的工作量,员工的积极性降低,离职的风险增加,从而可能引发离职的多米诺骨牌效应。而招募新员工必然会增加企业人力资源的成本,而招聘来的新员工是否胜任工作、是否能融入企业都具有不确定性。

再次,员工的流失往往具有的“示范”作用,会使剩下的员工心态不稳、士气低落、工作效率下降。从企业流出的员工很多都是因为对企业的不满才离开,这种负面的意见往往在留下的员工中得到共鸣,从而引发集体跳槽的情况,严重时会导致整块的业务瘫痪。

二、员工离职的原因分析

1、行业因素

每个行业都有其自身的特点,如果员工不能适应该行业的特点,或者对行业缺乏认同感,都可能引发员工离职。相比其他行业,it运维企业缺乏成就感,整天和冰冷的it系统打交道,繁琐、重复劳动的比重高,劳动强度大,一个员工往往要负责几个系统的运行维护,加班加点在这个行业几乎是司空见惯,精神压力大,员工精神高度紧张。

2、企业因素

从企业方面讲,员工离职的主要原因是企业的工作环境,特别是人文环境和员工的期望有相当大的落差,所以根本上说还是一个企业管理的问题。公司缺少共识的价值观、不重视人才、管理者素质不高、员工激励机制不健全、企业内部分配不合理等都是导致员工流失的因素。另外,企业不能提供有市场竞争力的薪酬,通常是引起员工流失的直接原因。按照赫兹伯格的双因素理论,薪酬是最关键的保障因素,低于市场价值的薪酬将引起员工对企业的不满意。

3、员工自身的因素

员工出于经济压力和个人职业发展前景的考虑离职的情况越来越多。近年来“北上广”等一线城市房价高企,生活压力越来越大,很多优秀的运维人才选择回原籍发展。而且,伴随着互联网企业的蓬勃发展,海量应用的维护越来越重要,人才之争日趋激烈,优秀的运维员工作为稀缺资源越来越受到关注。人才的稀缺程度越高,人员流出的拉力越大。许多企业不惜用高薪高职、高福利等优厚条件猎取、吸引传统it运维行业的优秀员工,这也是员工离职的一个重要原因。

三、应对员工流失的对策

员工的离职原因是多方面的,要保持员工队伍的稳定,就需要在选人、育人、用人、留人方面下工夫,建立统一共识的企业价值观、科学的人员招聘制度,把员工的职业规划和企业的发展战略结合起来,提供多元化的薪酬激励机制等系统的人力资源体系,彻底扭转把员工视为成本中心的陈腐观念,把保持员工队伍稳定可持续发展、实现企业的人力资本增值提高到企业战略的高度上来。

1、建立优秀的企业文化,强化员工对企业的认同感和归宿感

对运维行业企业来说,企业的目的是在为社会提供优质的运维服务,保障已有的it系统健康稳定运行,从而支撑客户业务的正常运营。同时,使员工和企业获得共同的提高和发展,将企业由行政管理转变为员工自觉行为的自我管理。全体员工有着共同的价值观和认同观,这是维系一支高效运维团队的根本所在。

企业文化管理的最终执行者是企业广大员工,企业的价值理念是通过企业文化建设塑造出来,企业文化一个关键问题正是企业的理念能否为广大员工所接受,能否得到广大员工的支持。尤其是在运维行业企业,企业提供的主要产品就是员工提供的服务,如果没有普通员工的理解和行动,要取得成功几乎是不可能的。

企业要留人,就必须真正建立充满人文关怀的工作环境。真诚对待员工、尊重员工,要用心关注他们, 保持平等、公正、开放的沟通。如笔者所在的企业,要求每个部门每周都要安排一次例会,例会中除了沟通工作进展情况外,还要安排无主题的交流活动,创建宽松的文化氛围及流畅的沟通渠道,为每一位员工提供了交流思想和展示个人价值的机会,让员工能感受到个人价值在企业中获得认可。

2、科学的人员招聘和培训制度

运维企业建立科学的员工招聘制度,有利于在源头上避免今后员工流失带来的问题。以笔者所在的企业为例,企业在招聘新员工时对候选人进行3个方面的测试:技术能力测试、职业性向测试和情商测试。技术能力测试主要考查候选人的工作能力和素质;职业性向测试即候选人是否具有在企业长期工作的愿望以及个人的性格能否与本行业的特点契合;情商测试考察候选人沟通能力,与他人合作的态度,是否具有建立良好人际关系的能力,运维工作主要和客户打交道,良好的情商和出色的沟通能力是做好运维工作的基本条件。事实证明,通过这3方面测试的求职者都有较高的忠诚度,整体的离职率较以前有明显的降低。另外在面试时,要向求职者提供客观和全面的工作环境信息、职位相关信息,促使员工建立正确的预期,避免入职后因心理落差过大,造成的工作积极性降低,甚至入职不久就办理辞职的后果。

3、制定合理的职业生涯发展规划

制定合理的职业生涯发展规划对员工和企业都有非常重要的意义。对员工来说,能够帮助员工树立明确的职业目标,运用科学的方法、切实可行的措施,发挥个人的专长,开发员工的潜能,克服生涯发展困阻,避免工作陷阱,不断修正前进的方向,最后获得事业的成功。对企业来说,良好的员工职业生涯管理体系可以充分发挥员工的潜能,给优秀员工一个明确而具体的职业发展引导,满足公司持续发展对人力资源稳定性成长的要求,从人力资本增值的角度达到企业价值最大化。

运维企业应根据自身的实际情况,关注员工的职业生涯发展,提供职业生涯机会的评估,帮助员工设定职业生涯目标,并制定具体的行动计划和措施,营造运维企业与员工共同成长的组织氛围,让员工对未来充满信心。具体来说,对员工职业生涯设计中,运维企业要帮助员工具体设计个人合理的职业发展规划。要根据员工能力、兴趣及岗位特征进行分析评价,根据其当前绩效评估发展潜力,然后予以合理的目标定位,并提供各种支持,帮助员工有能力和有信心实现职业目标。在设计员工的职业生涯时,要注意员工对其职业生涯的自我认知,使个人有可能选择一条适合其核心能力和价值观的职业道路。以笔者所在的企业为例,企业提供了管理、业务和技术3个提升通道,为员工建立了多重职业发展阶梯。

4、多元化的薪酬和激励机制

企业的薪酬和福利制度好坏将直接影响整个企业的效益,所以制定合理的薪酬和福利制度是吸引和留住员工的一种重要手段。企业必须为员工提供有竞争力的薪酬,建立一套“对内具有公平性、对外具有竞争性”的薪酬体系,并且应根据人才市场的变化,不断进行完善和调整。运维企业员工的薪酬和激励模式目前主要是岗位工资+年底奖金、基本工资+项目提成和专项奖励等。

无论采用哪种模式,都需要遵循以下原则:一是能够体现员工对企业的贡献,员工能够感受到自身的价值得到认可、自己的付出得到合理的回报;二是能够体现企业内部分配的公平性,贡献大的员工理应得到更好的薪酬待遇;三是具有薪酬的竞争力,运维现场往往有多家运维企业,员工一旦得知自己所得低于做同样工作的其它企业的员工,将会明显出现情绪低落,积极性下降乃至跳槽到竞争企业。

参考文献:

[1]陈爽.软件外包企业员工离职的影响因素及对策研究[d].北京交通大学,2009.

[2] 郭伟刚、李国华.企业核心员工的管理机制[j].现代企业,2006,(06).

[3] 姜焕凤.谈国有企业人才流失的原因和对策[j].商场现代化,2011,(18).

[4] 王素珍.饭店企业留住核心员工的对策探讨[j].企业经济,2008,(02).

[5] 王宗坑、朱文娟.实现企业社会责任与企业核心竞争力结合的对策[j].经济师,2010,(02).


第二篇:IT行业:运维工程师的职责和前景


运维工程师的职责和前景

运维中关键技术点解剖:1 大量高并发网站的设计方案 ;2 高可靠、高可伸缩性网络架构设计;3 网站安全问题,如何避免被黑?4 南北互联问题,动态CDN解决方案;5 海量数据存储架构

一、什么是大型网站运维?

首先明确一下,全文所讲的”运维“是指:大型网站运维,与其它运维的区别还是蛮大的;然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂性角度考虑,如网站规范、知名度、服务器 量级、pv量等考虑,其它因素不是重点;因此,我们先定义服务器规模大于1000台,pv每天至少上亿(至少国内排名前10),如sina、baidu、 QQ,51.com等等;其它小型网站可能没有真正意义上的运维工程师,这与网站规范不够和成本因素有关,更多的是集合网络、系统 、开发工作于一身的“复合性人才”,就如有些公司把一些合同采购都纳入了运维职责范围,还有如IDC网络规划也纳入运维职责。所以,非常重要一定需要明白:运维对其它关联工种必须非常了解熟悉:网络、系统、系统开发、存储,安全,DB等;我在这里所讲的运维工程师就是指专职运维工程师。

我们再来说说一般产品的“出生”流程:

1、首先公司管理层给出指导思想,PM定位市场需求(或copy成熟应用)进行调研、分析、最终给出详细设计。

2、架构师根据产品设计的需求,如pv大小预估、服务器规模、应用架构等因素完成网络规划,架构设计等(基本上对网络变动不大,除非大项目)

3、开发工程师将设计code实现出来、测试工程师对应用进行测试。

4、好,到运维工程师出马了,首先明确一点不是说前三步就与运维工作无关了,恰恰相反,前三步与运维关系很大:应用的前期架构设计、软/硬件资源评估申请采购、应用设计性能隐患及评估、IDC、服务性能安全调优、服务器系统级优化(与特定应用有关)等都需运维全程参与,并主导整个应用上线项目;运维工程师负责产品服务器上架准备工作,服务器系统安装、网络、IP、通用工具集安装。运维工程师还需要对上线的应用系统架构是否合理、是否具备可扩展性、及安全隐患等因素负责,并负责最后将产品(程序)、网络、系统三者进行拼接并最优化的组合在一起,最终完成产品上线提供用户使用,并周而复使:需求->开发(升级)->测试->上线(性能、安全问题等之前预估外的问题随之慢慢就全出来了)在这里提一点:网站开发模式与传统软件开发完全不一样,网站一天开发上线1~5个升级版本是家常便饭,用户体验为王嘛,如果某个线上问题像M$ 需要1年解决,用户早跑光了;应用上线后,运维工作才刚开始,具体工作可能包括:升级版本上线工作、服务监控、应用状态统计、日常服务状态巡检、突发故障处理、服务日常变更调整、集群管理、服务性能评估优化、数据库管理优化、随着应用PV增减进行应用架构的伸缩、安全、运维开发工作:

a 、尽量将日常机械性手工工作通过工具实现(如服务监控、应用状态统计、服务上线等等),提高效率。

b、解决现实中服务存在的问题,如高可靠性、可扩展性问题等。

c、大规模集群管理工具的开发,如1万台机器如何在1分钟内完成密码修改、或运行指定任务?2000台服务器如何快速安装操作系统?各分布式IDC、存储集群中数PT级的数据如何快速的存储、共享、分析?等一系列挑战都需运维工程师的努力。

在此说明一下其它配合工种情况,在整个项目中,前端应用对于网络/系统工程师来说是黑匣子,同时开发工程师职责只是负责完成应用的功能性开发,并对应用本身性能、安全性等应用本身负责,它不负责或关心网络/系统架构方面事宜,当然软/硬件采购人员等事业部其它同事也不会关心这些问题,各司其职,但项目的核心是运维工程师~!所有其它部门的桥梁。

上面说了很多,我想大家应该对运维有一些概念了,在此打个比方吧,如果我们是一辆高速行驶在高速公路上的汽车,那运维工程师就是司机兼维修工,这个司机不简单,有时需要在高速行驶过程中换轮胎、并根据道路情况换档位、当汽车速度越来越快,汽车本身不能满足高速度时对汽车性能调优或零件升级、高速行进中解决汽车故障及性能问题、时刻关注前方安全问题,并先知先觉的采取规避手段。这就是运维工作~!

最后说一下运维工程师的职责:”确保线上稳定“,看似简单,但实属不容易,运维工程师必须在诸多不利因素中进行权衡:新产品模式对现有架构及技术的冲击、产品高频度的升级带来的线上BUG隐患、运维自动化管理承度不高导致的人为失误、IT行业追求的高效率导致流程执行上的缺失、用户增涨带来的性能及架构上的压力、IT行业宽松的技术管理文化、创新风险、互联网安全性问题等因素,都会是网站稳定的大敌,运维工程师必须把控好这最后一关,需具体高度的责任感、原则性及协调能力,如果能做到各因素的最佳平衡,那就是一名优秀的运维工程师了。

另外在此聊点题外话,我在这里看到有很多人要sina、QQ、baidu,51.com等聊自已的运维方面的经验,其实这对于它们有点免为其难:

a、各公司自已网络架构、规模、或多或少还算是公司的核心秘密,要保密,另外,对于大家所熟知的通用软件、架构,由于很多公司会根据自已实际业务需要,同时因为原版性能、安全性、已知bug、功能等原因,进行过二次开发(如apache,php,mysql ),操作系统内核也会根据不同业务类型进行定制的,如某些应用属于运算型、某些是高IO型、或大存储大内存型。根据这些特点进行内核优化定制,如sina就在 memcache上进行过二次开发,搞出了一个MemcacheDB,具体做得如何我们不谈,但开源了,是值得称赞的,国内公司对于开源基本上是索取,没有贡献;另外,服务器也不是大家所熟知的型号,根据业务特点,大部份都是找DELL/HP/ibm进行过定制;另外,在分布式储存方面都有自已解决方案,要不就是使用现成开源hadoop等解决方案,或自已开发。但90%都是借鉴google GFS的思想:分布式存储、计算、大表。

b、各公司业务方向不一样,会导致运维模式或方法都不一样,如51.com和baidu运维肯定

区别很大,因为他们业务模式决定了其架构、服务器量级、 IDC分布、网络结构、通用技术都会不一样,主打新闻门户的sina与主打sns的51.com运维模式差异就非常大,甚至职责都不大一样;但有一点,通用技术及大致架构上都大同小异,大家不要太神化,更多的公司只是玩垒积木的游戏罢了,没什么技术含量。

c、如上面所讲,目前大型网站运维还处于幼年时期理念和经验都比较零散,没有成熟的知识体系,可能具体什么是运维,大家都要先思索一番,或压根没想过,真正讨论也只是运维工作的冰山一角,局限于具体技术细节,或某某著名网站大的框架,真正运维体系化东西没有,这也许是目前网上运维相关资料 比较少的原故吧。或者也是国内运维人员比较难招,比较牛的运维工程师比较少见的原因之一吧。

二、运维工作师需要什么样的技能及素质

做为一名运维工程师需要什么样的技能及素质呢,首先说说技能吧,如大家上面所看到,运维是一个集多IT工种技能与一身的岗位,对系统->网络 ->存储->协议->需求->开发->测试->安全等各环节都需要了解一些,但对于某些环节需熟悉甚至精通,如系统 (基本操作系统的熟悉使用,*nix,windows ..)、协议、系统开发(日常很重要的工作是自动运维化相关开发、大规模集群工具开发、管理)、通用应用(如lvs、ha、web server 、db、中间件、存储等)、网络,IDC拓朴架构;

技能方面总结以下几点:

1、开发能力,这点非常重要,因为运维工具都需要自已开发,开发语言:c/c++(必备其中之一)、perl、python、php(其中之一)、shell(awk,sed,expect?.等),需要有过实际开发经验,否则工作会非常痛苦。

2、通用应用方面需要了解:操作系统(目前国内主要是linux、bsd)、webserver相关 (nginx,apahe,php,lighttpd,java。。。)、数据库(mysql,oralce)、其它杂七八拉的东东。。。系统优化,高可靠性。。。这些只是加分项,不需必备,可以边工作边慢慢学,这些东西都不难。当然在运维中,有些是有分工偏重点不一样。

3、系统、网络、安全,存储,CDN,DB等需要相当了解,知道其相关原理。

个人素质方面:

1、沟通能力、团队协作:运维工作跨部门、跨工种工作很多,需善于沟通、并且团队协作能力要强;这应该是现代企业的基本素质要求了,不多说。

2、工作中需胆大心细:胆大才能创新、不走寻常路,特别对于运维这种新的工种,更需创新才能促进发展;心细,运维工程师是网站admin,最高线上权限者,一不小心就会遗憾终生或打入十八层地狱。

3、主动性、执行力、精力旺盛、抗压能力强:由于IT行业的特性,变化快;往往计划赶不上变化,运维工作就更突出了,比如国内各大公司服务器往往是全国各地,哪里便宜性价比

高,就那往搬,进行大规模服务迁移(牵扯的服务器成百上千台),这是一个非常头痛的问题;往往时间 非常紧迫,如限1周内完成,这种情况下,运维工程师的主动性及执行力就有很高的要求了:计划、方案、服务无缝迁移、机器搬迁上架、环境准备、安全评估、性能评估、基建、各关联部门扯皮,7X24小紧急事故响应等。

4、其它就是一些基本素质了:头脑要灵光、逻辑思维能力强、为人谦虚稳重、亲和力、乐于助人、有大局观。

5、最后一点,做网站运维需要有探索创新精神,通过创新型思维解决现实中的问题,因为这是一个处于幼年的职业(国外也一样,但比国内起步早点),没有成熟体系或方法论可以借鉴,只能靠大家自已摸索努力。

三、怎样才算是一个合格的运维工程师

1、保证服务达到要求的线上标准,如99.9%;保证线上稳定,这是运维工程师的基本责职所在。

2、不断的提升应用的可靠性与健壮性、性能优化、安全提升;这方面非常考验主动性和创新思维。

3、网站各层面监控、统计的覆盖度,软件、硬件、运行状态,能监控的都需要监控统计,避免监控死角、并能实时了解应用的运转情况。

4、通过创新思维解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预,需要尽可能的解放双手。

5、运维知识的积累与沉淀、文档的完备性,运维是一个经验性非常强的岗位,好的经验与陷阱都需积累下来,避免重复性范错。

6、计划性和执行力;工作有计划,计划后想法设法达到目标,不找借口。

7、自动化运维;能对日常机械化工作进行提炼、设计并开发成工具、系统,能让系统自动完成的尽量依靠系统;让大家更多的时间用于思考、创新思维、做自已喜欢的事情。

以上只是技术上的一些层面,当然个人意识也是很重要的。

四、运维职业的迷惘、现状与发展前景

运维岗位不像其它岗位,如研发工程师、测试工程师等,有非常明确的职责定位及职业规划,比较有职业认同感与成就感;而运维工作可能给人的感觉是哪方面都了解一些,但又都比上专职工程师更精通、感觉平时被关注度比较低(除非线上出现故障),慢慢的大家就会迷惘,对职业发展产生困惑,为什么会有这种现象呢?除了职业本身特点外,主要还是因为对运维了解不深入、做得不深入导致;其实这个问题其它岗位也会出现,但我发现运维更典型,更容易出现这个问题;

针对这个问题我谈一下网站运维的现状及发展前景(也在思考中,可能不太深入全面,也请大家斧正补充)

运维现状:

1、处于刚起步的初级阶段,各大公司有此专职,但重视或重要程度不高,可替代性强;小公司更多是由其它岗位来兼顾做这一块工作,没有专职,也不可能做得深入。

2、技术层次比较低;主要处于技术探索、积累阶段,没有型成体系化的理念、技术。

3、体力劳动偏大;这个问题主要与第二点有关系,很多事情还是依靠人力进行,没有完成好的提练,对于大规模集群没有成熟的自动化管理方法,在此说明一下,大规模集群与运维工作是息息相关的如果只是百十来台机器,那就没有运维太大的生存空间了。

4、优秀运维人才的极度缺乏;目前各大公司基本上都靠自已培养,这个现状导致行业内运维人才的流动性非常低,非常多好的技术都局限在各大公司内部,如 google 50万台机器科学的管理,或者国内互联公司top 10 的一些运维经验,这些经验是非常有价值的东西并决定了一个公司的核心竞争力;这些问题进而导致业内先进运维技术的流通、贯通、与借签,并最终将限制了运维发展。

5、很多优秀的运维经验都掌握在大公司手中;这不在于公司的技术实力,而在于大公司的技术规模、海量PV、硬件规模足够大,如baidu可怕的流量、 51.com海量数据~~~~这些因素决定了他们遇到的问题都是其它中/小公司还没有遇到的,或即将遇到。但大公司可能已有很好的解决方案或系统。

发展前景:

1、从行业角度来看,随着中国互联网的高速发展(目前中国网民已跃升为全球第一)、网站规模越来越来大、架构越来越复杂;对专职网站运维工程师、网站架构师的要求会越来越急迫,特别是对有经验的优秀运维人才需求量大,而且是越老越值钱;目前国内基本上都是选择毕业生培养(限于大公司),培养成本高,而且没有经验人才加入会导致公司技术更新缓慢、影响公司的技术发展;当然,毕业生也有好处:白纸一张,可塑性强,比较认同并容易融入企业文化。

2、从个人角度,运维工程师技术含量及要求会越来越高,同时也是对公司应用、架构最了解最熟悉的人、越来越得到重视。

3、网站运维将成为一个融合多学科(网络、系统、开发、安全、应用架构、存储等)的综合性技术岗位,给大家提供一个很好的个人能力与技术广度的发展空间。

4、运维工作的相关经验将会变得非常重要,而且也将成为个人的核心竞争力,具备很好的

各层面问题的解决能力及方案提供、全局思考能力等。

5、特长发挥和兴趣的培养;由于运维岗位所接触的知识面非常广阔,更容易培养或发挥出个人某些方面的特长或爱好,如内核、网络、开发、数据库等方面,可以做得非常深入精通、成为这方面的专家。

6、如果真要以后不想做运维了,转到其它岗位也比较容易,不会有太大的局限性。当然了,你得真正用心去做。

7、技术发展方向:网站/系统架构师。

五、运维关键技术点解剖

1、 大规模集群管理问题

首先我们先要明确集群的概念,集群不是泛指各功能服务器的总合,而是指为了达到某一目的或功能的服务器、硬盘 资源的整合(机器数大于两台),对于应用来说它就是一个整体,目前常规集群可分为:高可用性集群(HA),负载均衡集群(如lvs),分布式储、计算存储集群(DFS,如google gfs ,yahoo hadoop),特定应用集群(某一特定功能服务器组合、如db、cache层等),目前互联网行业主要基于这四种类型;对于前两种类似,如果业务简单、应用上post操作比较少,可以简单的采用四层交换机 解决(如f5),达到服务高可用/负责均衡的作用,对于资源紧张的公司也有一些开源解决办法如lvs+ha,非常灵活;对于后两种,那就考验公司技术实力及应用特点了,第三种DFS主要应用于海量数据应用上,如邮件、搜索等应用,特别是搜索要求就更高了,除了简单海量存储,还包括数据挖掘、用户行为分析;如 google、yahoo就能保存分析近一年的用户记录数据,而baidu应该少于30天、soguo就更少了。。。这些对于搜索准备性、及用户体验是至关重要的。

接下来,我们再谈谈如何科学的管理集群,有以下关键几点:

I、监控

主要包括故障监控和性能、流量、负载等状态监控,这些监控关系到集群的健康运行,及潜在问题的及时发现与干预;

a、服务故障、状态监控:主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端web server,我们就可以有很多种类型的监控,包括应用端口 状态监控,便于及时发现服务器或应用本身是否crash、通过icmp包探测服务器健康状态,更上层可能还包括应用各频道业务的监控,常用方法是采用面业特征码进行判断,或对重点页面进行签名,以网站被黑篡改(报警、并自动恢复被篡改数据)等等,这些只是一部份,还有N多监控方式,依应用特点而定,还有一些问题需解决,如集群过大,如何高性能的进行监控也是一个现实问题。

b、其它就是集群状态类的监控或统计,为我们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、攻击等问题。

II、故障管理

a、硬件故障问题;对于成百上千或上万机器的N多集群,服务器死机、硬件故障概率是非常大的,几乎每时每刻都有服务硬件问题,死机、硬盘损坏、电源、内存、交换机。针对这种情况,我们在设计网站架构时需要充分考虑到这些问题,并将其视为常态;更多的依靠应用的冗余机制来规避这种风险,但给系统工程师足够宽裕的处理时间。(如google不是号称同时死800台机器,服务不会受到任何影响吗);这就是考验运维工程师及网站架构师功能的地方了,好的设计能达到google所描述自恢复能力,如gfs,糟糕的设计那就是一台服务器的死机可能会造成大面积服务的连锁故障反映,直接对用户拒绝响应。

b、应用故障问题;可能是某一bug被触发、或某一性能阀值被超越、攻击等情况不一而定,但重要的一点,是要有对这些问题的预防性措施,不能想当然,它不会出问题,如真出问题了,如何应对?这需要运维工程师平时做足功夫,包括应急响应速度、故障处理的科学性、备用方案的有效等。

III、自动化

自动化:简而言之,就是将我们日常手动进行的一些工作通过工具,系统自动来完成,解放我们的双手及枯燥的重复性劳动,例如:没有工具前,我们安装系统需要一台一台裸机安装,如2000台,可能需要10人/10天,搞烂N张光盘,人力成本更大。。。而现在通过自动化工具,只需几个简单命令 就能搞定、还有如机器人类程序,自动完成以往每天人工干预的工作,使其自动完成、汇报结果,并具备一定的专家系统能力,能做一些简单的是/非判断、优化选择等。。。这些好处非常明显不再多说。。。应该说,自动化运维是运维工程师职业化的一个追求,利已利公,虽然这是一个异常艰巨的任务:不断变更的业务、不规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素,都可能会对现有自动化系统产生影响,所以需要模块化、接口化、变因参数化等因此,自动化相关工作,是运维工程师的核心重点工作之一,也是价值的体现。

更多相关推荐:
对员工评语大全

该员工入职两年以来,工作认真踏实,任劳任怨,服从安排,能要求严格自己,组织纪律性强,团结同事,敢于纠正处理违纪违规现象,20xx年累计纠正处理10起;积极参与扑救机器燃火3次,在保安员队伍中一致受到好评并起到模…

对员工的经典评语

对员工的经典评语1工作热情高人品端正德行优良自身修养较高对待客户诚信对待工作严谨处处为公司考虑能够虚心接受同事给予的建议并改正学习进步较快受到大多数客户的好评2在陕西省标中工作出色3工作态度端正业绩比较突出4专...

单位对员工的评语精选

单位对员工的评语精选一篇好的优秀员工评语是对一名员工工作付出的肯定那么单位对员工的评语应该怎么写精选了一些关于单位对员工的评语希望对您有所帮助1办事方法有改进工作有进步该员工做事情踏踏实实做人本分能够虚心接受市...

对企业员工的鉴定评语

对企业员工的鉴定评语增辉同志已从事xx工作多年,操作能力过硬,现场经验极为丰富,完全掌握了xx整个作业过程的安全技术要求。对现场松石的判断能力强。较了解爆破相关的知识,能够很好理解采场孔眼设计的意图,常能根据现…

领导对下属的评语

领导对下属的评语能够遵守公司纪律不迟到不早退在工作时间内能坚守岗位对工作负责工作上主观能动性强能够较为全面的掌握本岗位业务能够较为迅速的执行领导的具体工作要求并能很好的配合好其它部门完成工作思想认识上主观辨别能...

员工评语

员工评语评语1该同事今年工作成绩进步大工作认真业务知识扎实业绩发展迅速工作态度端正遵守公司规章制度能积极完成公司的任务评语2此优秀员工工作成绩进步大悟性较强能很快适应新的岗位能随时根据工作需要调整工作方法和端正...

领导对员工的评价

领导对员工的评价领导对员工的评价常用语一该员工思想上为人正直稳定谦虚事业心进取心强能设身处地为他人着想热爱集体要做一个具有良好专业技术水平又有高尚职业道德的优秀员工爱岗敬业诚实守信遵纪守法奉献社会二该员工在学习...

优秀员工评语

优秀员工评语1工作认真负责积极主动能完全胜任本职工作爱岗敬业乐于助人与同事相处融洽善于合作2对本职工作兢兢业业锐意进取起到带头作用3工作认真负责积极主动服从整体安排爱岗敬业业务知识扎实业务水平优秀与北区各位经理...

员工评语1

员工评语1能够遵守公司纪律不迟到不早退在工作时间内能坚守岗位对工作负责工作上主观能动性强能够较为全面的掌握本岗位业务能够较为迅速的执行领导的具体工作要求并能很好的配合好其它部门完成工作思想认识上主观辨别能力与分...

爱岗敬业员工评语

爱岗敬业员工评语1良好的个人形象和素养专业技能或业务水平优秀为公司利益不计个人得失对本职工作兢兢业业锐意进取为公司员工树立良好形象并起到带头作用为公司创造出较好的企业效益或社会效益2良好的个人形象和素养专业技能...

员工绩效考核评语

员工绩效考核评语与同事关系好有很强的凝聚力工作认真负责作为一名老师傅除了作好本职工作外经常主动帮助其他岗位责任心强工作踏实从无怨言对工作负责吃苦耐劳在人手紧张的情况下经常一个人做炖品除了做好本岗位的工作还主动协...

员工年度考核评语

员工年度考核评语1工作认真负责积极主动能完全胜任本职工作爱岗敬业乐于助人与同事相处融洽善于合作2勤恳务实善于学习对本职工作兢兢业业注重个人成长工作成绩进步大业绩发展迅速或有效改进自己的工作方式从而在工作中收到良...

对员工的评语(47篇)