2-2-5 可靠性分析报告
1.)设备的可靠性
设备可靠性通常由设备的平均无故障工作时间MTBF来描述,它定义为利用数学统计方法计算出的设备在发生两次故障之间的运行时间。对设备来讲,MTBF为两次停机(输出断电)故障之间十佳的统计平均值。设备的MTBF越大,则可靠性越高。为了叙述问题方便,又定义了设备的平均故障率λ:
λ= 1/MTBF (1/h) 公式1
即设备在单位时间段内出现故障的概率。当取时间段为1年时,λ表示设备的年平均故障率。受元器件制造工艺及整机制造工艺的限制,目前同类产品的MTBF最高只能达到500kh,即年平均故障率为24h×365/500kh=1.8%。一般产品的MTBF通常在50~500kh之间。我方提供的设备单机的MTBF大于300kh。
设备的可靠性还要考虑设备的平均修复时间MTTR,它是设备发生故障后通过维修而重新投入使用所需的平均时间。
提高系统可靠性的方法主要有两个:一是提高工艺方面的因素;二是采用冗余技术。
2. )多机并联冗余技术
对于如下图所示的由四台相同的单机设备并联冗余系统来讲,其整个系统的可靠性可表述为:
四台相同EPS双机并联冗余系统的可靠性
λSystem= 2λ4
UPS +λcom 公式2
3λUPS+?UPS
式中,λSystem为整个系统的平均故障率
λUPS为单机的平均故障率
λcom为公共环节的平均故障率
?UPS为的平均维修率
由公式2中可以看出,提高?UPS,减小λUPS和λcom可以减少λSystem,一般情
况下,MTBF>>MTTR,即?UPS>>λUPS,则公式2又可近似为:
λSystem= 2λ4
UPS +λcom
?UPS
= 2λUPS ·λUPS +λcom
?UPS
通常情况下,公共环节的设计原则是少而精,所及平均故障率极低。若忽略λcom,则有
λSystem≈ 2λUPS ·λUPS
?UPS
又因2λUPS<< ?UPS,即 2λUPS <<1,
?UPS
故有 λSystem<<λUPS
即整个并机冗余系统的平均故障率比单机大大地降低了。但是,受元器件及生产工艺限制,λUPS和λcom不能无止境地减小,所以增大?UPS成为一个更为有效的措施。
式中本公司提供设备的 λUPS为300 kh
?UPS为5%
得出4台全冗余并机系统的平均无故障工作时间约为12000kh。
第二篇:MTBF平均无故障时间
MTBF,即平均无故障时间,英文全称是“Mean Time Between Failure”。
是衡量一个产品(尤其是电器产品)的可靠性指标。单位为“小时”。它反映了产品的时间质量,是体现产品在规定时间内保持功能的一种能力。具体来说,是指相邻两次故障之间的平均工作时间,也称为平均故障间隔。它仅适用于可维修产品。同时也规定产品在总的使用阶段累计工作时间与故障次数的比值为MTBF。
指自动分析仪在校验期间的总运行时间(H)与发生故障次数(次)的比值,以“MTBF”表示,单位为:H/次。
随着伺服器的广泛应用,对伺服器的可靠性提出了更高的要求。所谓“可靠性”,就是产品在规定条件下和规定时间内完成规定功能的能力;反之,产品或其一部分不能或将不能完成规定的功能是出故障。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failure rate),常用λ表示。例如正在运行中的100只硬碟,一年之内出了2次故障,则每个硬碟的故障率为0.02次/年。当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间(Mean Time Between Failures),简称MTBF。即: MTBF=1/λ 笔者最近看到一款可用于伺服器的WD Caviar RE2 7200 RPM 硬碟,MTBF 高达 120万小时,保修 5年。120万小时约为137年,并不是说该种硬碟每只均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即该硬碟的平均年故障率约为0.7%,一年内,平均1000只硬碟有7只会出故障。 上图所示为著名的“浴盆”曲线,左边斜线部分为早期故障率,其故障率一般较高且随着时间推移很快下降。曲线中部为使用寿命期,其故障率一般很低且基本固定。最右部为耗损期,失效率急速升高。电子产品制造商一般通过测试、老炼、筛选等手段将早期故障尽量剔除,然后提供给客户使用。当使用寿命期将尽,产品也即将进入故障高发期,需要报废或更新换代了。 温度与器件的寿命 明白了MTBF和“浴盆”曲线的基本概念,我们对评估产品的使用寿命有了一定的掌握。在合适工作条件下器件使用寿命期内的故障率很低。广大电子爱好者都知道电子元器件的寿命,与工作温度是有密切关系的。以电脑主板上常用的也常出故障的电解电容器为例,其寿命会受到温度的影响。因此,应尽可能使电容器在较低的温度之下工作,如果电容器的实际工作温度超过了其规格范围,不仅其寿命会缩短,而且电容器会受到严重的损毁(例如电解液泄漏)。因此,在分析电脑主板上电容器的工作温度时,不仅要考虑机箱内整体环境温度及电容器自身的发热,还要考虑机箱内其他发热元件的热辐射(特别是CPU、稳压器、电源供应器等)。 根据测试,通常2.0G的CPU消耗功率达56.7W,生成温度达70℃;而当频率提高至3.0G时, CPU温度往往超过90℃。在这样的高温烘烤下,主板上的电容器寿命会发生什么变化? 为简化起见,不考虑纹波、频率、ESR等因素,电容器的估计寿命可用下述公式表示: 其中,L0表示最高工作温度下的寿命,Tmax表示最高工作温度,Ta表示实际环境温度。由此可见,如果环境温度每升高10℃,电容器寿命将下降一倍! 由上图右面的曲线可明显看出,随着电容器工作环境温度的上升,其有效寿命急剧缩短。其中有效寿命(Useful life)是指该种电容器达到给定故障率的时间。