篇一 :linux服务器故障之运维经验总结

服务器故障之运维经验总结

作为一个运维人员,遇到服务器故障是在所难免的,要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆。当出现此类问题时,应该如何处理?本文给大家详尽的分析了一下,一起来看看。

我们团队为上一家公司承担运维、优化和扩展工作的时候,我们碰到了各种不同规模的性能很差的系统和基础设备(大型系统居多,比如CNN或者世界银行的系 统)。要是再赶上修复时间紧、奇葩的技术平台、缺少信息和文档,基本上这过程都会惨痛到让我们留下深刻的记忆。

遇到服务器故障,问题出现的原因很少可以一下就想到。我们基本上都会从以下步骤入手:

一、尽可能搞清楚问题的前因后果

不要一下子就扎到服务器前面,你需要先搞明白对这台服务器有多少已知的情况,还有故障的具体情况。不然你很可能就是在无的放矢。

必须搞清楚的问题有:

故障的表现是什么?无响应?报错? 故障是什么时候发现的? 故障是否可重现? 有没有出现的规律(比如每小时出现一次) 最后一次对整个平台进行更新的内容是什么(代码、服务器等)? 故障影响的特定用户群是什么样的(已登录的, 退出的, 某个地域的…)? 基础架构(物理的、逻辑的)的文档是否能找到? 是否有监控平台可用? (比如Munin、Zabbix、 Nagios、 New Relic… 什么都可以) 是否有日志可以查看?. (比如Loggly、Airbrake、 Graylog…)

最后两个是最方便的信息来源,不过别抱太大希望,基本上它们都不会有。只能再继续摸索了。

二、有谁在?

$ w$ last

用这两个命令看看都有谁在线,有哪些用户访问过。这不是什么关键步骤,不过最好别在其他用户正干活的时候来调试系统。有道是一山不容二虎嘛。(ne cook in the kitchen is enough.)

…… …… 余下全文

篇二 :一个萝卜一个坑:短网址开发运维经验总结分享

每个萝卜下都隐藏一个坑。

前段时间955短网址日重定向次数最高达400万,主要开销是重定向请求的用户数据储存与分析。分别经历了内存瓶颈、IO 瓶颈后,高峰期达到 CPU 上限,几乎榨干了机器,下文是经验总结分享。如何挑选域名

前置条件

由于短网址很难盈利,硬件特别寒碜,带着镣铐跳舞反而别有风味,当然,人力投入,技术方面也不能和其他大网站比,所以如果要拍砖请轻下手——哎哟。

我们采用的硬件: 盛大云微型,1G内存,单核共享型 CPU。 后期追加了一个同等配置的内网机器做 MongoDB replSet。

Startup 硬件成本:

既然项目本身基本没法带来收益,要生存就只能充分压榨硬件,大胆使用新技术。根据国内云的计费方式,一般收费的维度是

内存:使用异步模式代替同步多进程。

带宽:2M双线,301并不需要太多的带宽开销

硬盘:云硬盘,按容量收费

CPU:单核

由此我们做了对应的技术选型:

Nginx:无需多说了吧?

Tornado:Facebook 开源的 python异步微框架

MongoDB:性能好,热数据少内存开销也少

Redis:事实上 MongoDB 写入的 IO 开销太大

nodejs(with coffeescript):后期新增,node.js 是天生的异步

supervisord:监控进程

开发与运维

既然目前项目投入的开发和运维都只有我一个人,那就可以美其名曰:DevOps 啦。听上去是不是很高端大气国际化。

用户特点

二八法则基本适用:20% 的 URL 占用了 80% 的资源(尤其是我们默认为所有短网址开启了统计之

后)。

监控先行

很多小团队犯的第一个毛病就是不做监控,等到用户来告诉你网站无法打开的时候就太晚了。为了省事我们用了监控宝和阿里云监控(主要阿里云监控有免费短信)。

…… …… 余下全文

篇三 :网站运维经验总结

网站运维之道

关于可用性

这是前一段时间投稿给《程序员》的一篇文章。标题中的"道"有些大了,您可以理解为"门道"的"道"。一家之言,妄自言道,诚可笑也。

什么是网站运维(Web operations) ?运维,绝不是某些人眼中安装系统、做几根网线那么简单? 除去应用开发和业务运营之外的保障网站能运转的事儿都可能是运维工作的职责范围。运维的工作包括(但不限于) 软硬件部署、网络管理、应用程序维护、安全、容量规划、故障修复等等。

运维,有别于"运营"。在中文的语境中,运营更多和业务结合在一起的。而运维,则是偏向技术层面。

任何一个成功的站点都离不开一只优秀的运维团队,尽管他们更多时候隐身在网站背后不为人知。

网站可用性

所谓网站可用性(availability)也即网站正常运行时间的百分比,这是每个运营团队最主要的 KPI (Key Performance Indicators ,关键业绩指标)。对于 Web 站点来说,传统的那个 24x7 的说法已经不是很适用了,现在业界更倾向用 N 个9 来量化可用性, 最常说的就是类似 "4个9(也就是99.99%)" 的可用性。看一下表 1 能更为直观一些。

描述 通俗叫法 可用性级别 年度停机时间

基本可用性 2个9 99% 87.6小时

较高可用性 3个9 99.9% 8.8小时

具有故障自动恢复能力的可用性 4个9 99.99% 53分钟

极高可用性 5个9 99.999% 5分钟

根据墨菲定理的推论,世界上没有 100% 可靠的 Web站点(除非不运行)。业界网站的可用性都是多少?引人注目的 Web 新贵 Twitter (http://twitter.com), 2008 年前四个月的可用性只有 98.72%,有 37小时 16分钟不能提供服务,连2个9 都达不到,甚至还没达到"基本可用"状态。电子商务巨头 eBay 2007 年的可用性是 99.94%,考虑到 eBay 站点的规模与应用的复杂程度,这是个很不错可用性指标了。Web 应用类型决定了不同的站点对可用性的依赖性是不同的。 要知道 4 个 9 的可用性实际上是很难实现的目标。至于 5 个9 的 Web 站点,一半靠内功,另一半恐怕是要靠点运气。

…… …… 余下全文

篇四 :IT运维工作心得总结

运维工作心得总结

运维工作直接关系到应用系统运行的正常稳定,但运维工作纷繁复杂,正规化、系统化相对比较弱,如何改变这种现状?从众多的运维工作者的成功失败中进行经验总结,并提升为运维规则,是提高运维水平,保障应用系统正常稳定运行的有效途径。

笔者通过自己的多年运维经验,总结出以下必须遵守的基本运维规则,可以大大减少缺乏经验的运维人员因为自身失误导致系统出故障的可能性。

一、系统变更、升级应先在同样的环境测试通过,执行前应有经过验证的回退预案

运维是一门经验的学科、是一门试错的学科。没有做过的东西、总是会给你出意想不到的难题,因此变更前,一定要在相同或者相似运行环境下进行测试,通过后才能在正式环境下执行变更。同时应准备好变更失败的回退预案,比如,做好系统备份、数据库备份、配置备份,固化变更前的运行现场,让变更有回头的机会。

二、对破坏性的操作要先确认符合预定方案,然后谨慎执行 什么是破坏性的操作?

比如:

对MSSQLServer,执行update操作,因为不需要commit,所以特别容易忽视也特别危险,还有delete、drop等操作更不用说。

对 Oracle 而言:truncate table_name、delete table_name、drop table_name,这些语句执行起来轻松简单也惬意极了、但记住!即便数据可被回滚、代价也是非常大!

对 Linux 而言,rm -r 所有当前及其子目录的所有数据都将被删除。经历过这种故障的人、大多会给 rm 上个别名

A liasrm='rm -i'

同理、cp 和 mv 也可以有同样的选项:

aliascp='cp -i'

alias mv='mv -i'

对window而言,shift+del文件或者目录 对任何系统而言,无备份直接修改文件等

三、备份并验证备份的有效性

不管是硬件还是软件总有意外崩溃的时候,怎么办?备份!!!备份的学问很大、按照不同的维度可以分:冷备和热备、实时和非实时、物理和逻辑、全备增量备。

…… …… 余下全文

篇五 :IT运维年终总结

运维服务工作总结

至20##年底,银海科技有限公司在蓝湾科技有限公司的运维又届满一年的时间了。在这为期一年的运维工作当中,运维的业务飞速发展,设备数量不断增加,人员的技术水平和业务知识有了显著的提升。我们的队伍在技术水平上也有了本质的提高。

一、 细致缜密的完成计划中的日常运维工作: 严把质量;服务至上;严格要求;技术领先。 

1.各位领导就对我们的运维工作给予厚望,我们提出认真完善服务水平的方针。我们在服务过程中严格按照这一要求,以对保障用户的权益,对用户负责的精神,把“严把质量,服务至上”的原则贯穿于日常工作的各个环节之中。使本运维期过程中的客户满意度有了非常显著的提高,多次获得了用户的认可。 

2. 对于在工作中我们树立新要求、新方案,本着“严格要求”的原则,对于提出的要求科学性的分析研究,及时提出完整周密的解决方案。有力的保障了运维工作的及时有效性。 

二、 吸收先进经验,保质保量的完成运维的各项任务: 运维期内主机、服务器、网络和桌面均没有发生严重的生产安全事故,对于一些潜在的威胁也都在得到信息技术部门的批示下,审慎周密的完成了整改工作。运用先进的技术和经验提高劳动效率和运维工作质量: 

1.运用先进的运维工具提高劳动效率。一旦发生问题可以迅速定位和修复。 

2.在工作的过程中注意新技术和新方法的学习和收集,对于有利于运维工作的成功方案及时整理并提交信息数据部。 

三、 认真完成运维工作中的汇报、总结每个故障点率和分析原因:

自20##-5-27,截止20##-12-31根据工作记录汇报共完成1263个报修,平均每天8.2个报修(其中不包括潜在故障点),服务项目有:安装,维修,培训,会议保障,综合布线,巡检等。服务分类有PC硬件,办公软件,网络连接,网络设备,打印机,电话传真,健康巡检等。

…… …… 余下全文

篇六 :IT运维工作总结与描述

20xx年6月份工作总结

6月份 IT运维概述

本月工作中,运维服务正常,所有电脑设备处于良好状态。保证服务质量,提高各科室人员对本月IT运维的满意度。对工作负起责任,任劳任怨,遵纪守法,服从管理,体现自我价值,为***提供更好的服务。以下是6月所有故障进行总结分析和情况描述。

1、******IT运维服务共49次

本月IT运维服务工作中,统计数据如下:

办公系统故障:6次,出勤:2次,打印机/复印机:9次,电脑故障:9次, 中普数据:8次,其他故障:15次。

IT运维工作总结与描述

2******维修及耗材情况

IT运维工作总结与描述

IT运维工作总结与描述

(以上不含复印机耗材及易耗品)

5月份添加打印耗材6次总费用为:2660元 5月硬件维修2次总费用为:3130元 6月份添加打印耗材1次总费用为180元

3

4、IT运维服务描述和说明

一、盘点电脑资产,合理分配电脑资源

结合5月份所做的电脑资产盘点中,将年限已到期电脑进行帐上报废。由于6月份是重新续约,需对单位所有电脑设备进行清点,并分类设备哪些处于保修期内,或保修期外。共清点电脑主机:125台,显示器:141台,笔记本电脑:61台,打印机:55台。其中保修期内设备共有:142台,保修期外设备共有:252台。在4月份,本单位进新采购电脑30套(清华同方),打印机5台(OKI820B黑白)。为保证各科室日常办公和******需要,对******科室增加新打印机5台,目前使用状态良好。清点在本年报废年限已到的电脑共有38台,后期将在不影响用户使用的情况下进行更换。

二、******安防设备增加 在接到此任务前,幸好之前有过一些监控工程相关的技术知识。为增加监控需要实地考察当前安防系统设备情况以及线路走线管道。具体难度在于布线方面,其他技术方面基本解决,在这方面没什么太大技术含量只要稍微接触下基本都懂。天花板离地面较高,并且天花维护通道夹窄实施难度较大,由其工程部去完成。在技术方面,了解到摄像头的清晰度由线数决定,共购买了3个600线的摄像头,这是目前主流使用的。为了减轻布线工程人员负担,采用了集中供电器,就是所有摄像头都在同一个供电器上面供电12V。也就是在布线时不需要再另外从其他地方拉电线接插座。因为所有楼层的供电都是用集中供电的方面,供电器在楼层的某一处。决定录像质量的不是摄像头,而是录像机。录像机有几种录像模式。分别:cif、2cif、dcif、D1,也有更高。目前******安防设备有四台,录像质量全部为CIF,分辨率为352*288,保存天数约为48天,其中一台约为18天。

…… …… 余下全文

篇七 :IT运维经验小结

工作上事情太多,难免繁琐,难免被人抱怨,被人投诉。仔细想想,需要改进的地方的确很多。

毕业四年多了,从最基础的windows局域网维护,后来学习active directory,isa,exchange。后来去考CCNA,想从事网络方面的工作,发现CCIE实在是难学,需要太多的时间和精力,当然费用也不低,于是去考了MCITP。回想起来,的确走了不少弯路。来到新公司一年多了,事情比以前更多,系统开发、服务器维护,网络架构规划,这些东西都要一个人来做,的确很磨练人。

简单说一下IT运维人员常犯的几个毛病,总结如下:

1. 态度不好。IT运维人员通常每天都会遇到大量同样的问题,可能一次俩次大家都能够微笑的面对,次数多了,就开始不厌烦了,开始出现轻慢,甚至不想处理的情况。 应对办法:设身处地的想一想,把自己的同事当成自己的客户,客户就是上帝,得罪了客户,你还要不要在公司继续干下去?记住,微笑是传染病。

2. 抱怨用户太傻。本人自己以及很多IT朋友都有过抱怨,说公司某某同事那个笨啊,显示器没有开居然说电脑黑屏,更有甚者,所有问题的责任都推到IT人员身上。

应对办法:我们必须明白一点,企业信息化是一个长期的过程,就算让所有同事学会简单的IT知识,也是需要时间的。作为IT运维人员,我们必须采取有效的手段和方式,一方面加强对用户的服务,另一方面加强IT培训。比方说,我们可以制订IT管理制度,发

布常见问题处理手册,方便用户查阅。这里重点说明一点,IT培训必须对新员工和老员工的不同之处作不同的应对。新员工相对来说比较爱学习,容易接受公司新文化,我们可以在其入职的时候,通过邮件或者书面形式发送公司IT制度和相关资料,让其学习;老员工则需要以服务为主,使其学习为辅。

这里尤其要注意一点,不论在什么情况,千万不可跟同事产生冲突。

3. 不及时反映问题进度。某IT运维人员就遇到这样一件事情,在公司做得一直不错,突然有一天,公司一老总说邮箱满了,无法接收邮件,让其处理。这位朋友正好出差,可能事情比较多,打电话给邮件管理员后,就把这事给忘记了。第二天,这位老总就打电话过来,说处理问题不及时,也不给回复。无法接收邮件,导致重要客户邮件没有收到,严重影响公司业务。结果就投诉到IT部门老大上面,年底晋升的时候,可想结果如何了。

…… …… 余下全文

篇八 :运维服务工作总结

天津体育频道运维服务工作总结

至20xx年x月底,新奥特(北京)视频技术有限公司(China Digital Video (Beijing) Limited)在天津电视台的运维又届满一年的时间了。在这为期一年的运维工作当中,天津运维的业务飞速发展,设备数量不断增加,人员的技术水平和业务知识有了显著的提升。我们的队伍在技术水平和管理经验上也有了本质的提高。

一、 细致缜密的完成计划中的日常运维工作:

严把质量;服务至上;严格要求;技术领先。

1. 承接天津体育网的运维项目,公司各位领导就对我们的运维工作给予厚望,并提出了认真完善服务水平的方针。我们在服务过程中严格按照这一要求,以对保障新奥特(运维部)的发展,对用户负责的精神,把“严把质量,服务至上”的原则贯穿于日常工作的各个环节之中。使本运维期过程中的客户满意度有了非常显著的提高,多次获得了用户的认可。

2. 对于在工作中新奥特(运维部)提出的新要求、新方案,我们及时相应配合,本着“严格要求”的原则,对于提出的要求科学性的分析研究,及时提出完整周密的解决方案,并拟请用户试行或测试后实施。有力的保障了运维工作的及时有效性。

3. 对于提高服务业务技术水平上,按照信息技术部的统一规划,按时完成一系列的既定培训计划。按照“技术领先”的原则,通过技术上的培训提高了业务水平和解决故障的效率;通过制定有效的安全

机制和培训,健全了xxxx信息外包人员安全机制;通过保密制度的培训使运维人员能够树立自觉维护xxxx的信息安全防范意识;通过客户服务意识的培训提高了客户的满意度。

二、 吸收先进经验,保质保量的完成运维的各项任务:

运维期内主机、服务器、网络和桌面均没有发生严重的生产安全事故,对于一些潜在的威胁也都在得到信息技术部门的批示下,审慎周密的完成了整改工作。运用先进的技术和经验提高劳动效率和运维工作质量:

1.运用先进的运维工具提高劳动效率。通过监控软件随时保持信息的及时性、可控性,一旦发生问题可以迅速定位和修复。

…… …… 余下全文