运维巡检报告及操作手册(AIX)

时间:2024.4.20

巡检报告单

机器型号:

序列号:

检查时间:_______年____月____日

1. 机房环境:

? 温度 □符合要求 □不符合 ? 湿度 □符合要求 □不符合

2. 机器清洁(根据需要清洁机器各部件): □已清洁 □不需要

3. 检查系统硬件情况:

? 设备故障灯是否有亮 □有 □无 ? 是否有其他否异常情况(如硬盘、风扇异常的声音,电缆破损) □有 □无

4. 系统错误报告(Error Log):

? 有否硬件故障 □有 □无

故障内容:

若有硬件,运行故障诊断分析错误报告( eg: diag -ed hdisk1)

结论(如SRN, FRU等):

? 有否软件故障 □有 □无

故障内容:

结论:

5. 有否发给root用户的错误报告(mail): □有 □无 结论:

6. 检查hacmp.out,smit.log,bootlog等: □正常 □不正常

7. 文件系统的使用率不大于80%: □是 □否

8. 查看卷组信息(lsvg -l vg_name),有没有"stale"状态的逻辑卷:□是 □否

若有,用syncvg 命令修复"stale"逻辑卷。

备注:

9. 系统性能,有否性能瓶颈(topas, vmstat等): □有 □无

? 交换区使用率是否超过70%(lsps -s),实际值____

? CPU是否繁忙(sar 1 10),idle值_____

? I/O平衡(iostat 1)

10. 备份:

? 有否合符要求的系统备份: □有 □无

? 最近一次系统备份的时间_________

? 有否符合要求的用户数据备份: □有 ? 有否符合要求的用户数据备份: □有 ? 磁带机是否需要清洗: □需要 □不需

11. 通信:

? 网卡的状态、IP地址、路由表等:

常 □不正常

? 网卡通信(ping): □正常 不正常

? /etc/hosts文件或DNS设置: □正常 不正常

12. 系统DUMP设置是否正确:

常 □不正常

13. HACMP 测试:

□无 □无 □正□□正 □

? Cluster Verification: □正常 □不正常;

? 相关参数设置检查: □正常 □不正常

? (根据需要)接管测试: □正常 □不正常

14. 系统硬件诊断:

? 系统板、CPU、内存、I/O板: □正常 不正常

? 网卡、SCSI卡、SSA卡: □正常 常

? 系统其他扩展卡: 常 □不正常

? 硬盘、磁盘阵列: 常 □不正常

? 磁带机、磁带库: 常 □不正常

15. 查系统参数是否正确: □是 ? I/O pacing: High Water Mark/Low Water Mark:33/24

? Syncd:10

? Aio :available

□□不正□正□正□正□否

? /etc/environment文件中TZ不应有夏时制

? Hacmp 系统中Power Monitor子系统应关闭

16. 补丁程序(PTF)检查,现有补丁维护版本为_____:

根据系统运行状况决定是否安装新的PTF。

需要安装的补丁程序:

17. 运行#snap –ac,生成文件命名为snap+s/n.pax.Z。

18. 检查errdemon, srcmstr是否正常运行: □是 □否

巡检内容及操作指导

1. IBM RS6000小型机机房要求:

1. 机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。

2. 温度(摄氏 ℃)

10 ℃-40℃

湿度(%)

8% -80%

2. 设备故障灯分类:?

主机故障灯

面板上不能有数字显示,如果有的话,说明系统有故障。

FAStT700磁盘阵列故障灯

告警灯为黄色表示有故障

磁带机故障灯

告警灯为黄色说明有故障或磁带机太脏,须清洗。

3. 系统错误报告(Error Log)的检查:

硬件故障检测命令:# errpt -d H -T PERM

若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户

软件故障检测命令:# errpt -d S -T PERM

若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果报告给客户

4. 有否发给root用户的错误报告(mail):

#mail

1. 观察所有未读消息,注意有关diagela的消息。

2. 常用命令:

h [<num>] Display headings of group containing message <num> t [<msg_list>] Display messages in <msg_list> or current message. n Display next message.

q Quit

3. 对发现的问题详细分析,结果报告给客户

5. 文件系统的检查:

命令:

# df –kP

%Used为文件系统的使用率。所有文件系统的使用率不能大于80%

6.磁带机清洁的检查:

命令:

#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n

显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。

6. 通信系统的检测:

1. 网卡的状态

命令:

#ifconfig –a

输出判断:

en0:

flags=7e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD,CHECKSUM_SUPPORT,PSEG>

inet 192.168.1.3 netmask 0xffffff00 broadcast 192.168.1.255

主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。

2. 路由的检测

命令:

#lsattr –El inet0

hostname shaixsvr Host Name True

gateway Gateway True

route Route True

bootup_option no Serial Optical Network Interface True

rout6 FDDI Network Interface True

authm 65536 Authentication Methods True

3. 网络的检测

命令:

#ping [ip address]

输出判断:

用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。

RAID 的Hotspare 属性是否打开

#smitty ssaraid? Change/Show Attributes of an SSA RAID Array 检查Enable Use of Hot Spares属性是否为YES

8.系统DUMP设置的检查

命令:

#sysdumdev –l

输出判断:

结果应为

primary /dev/hd6

secondary /dev/sysdumpnull

copy directory /var/adm/ras

forced copy flag TRUE

always allow dump FALSE

dump compression OFF

若不正确请用下列命令修改:

#sysdumdev –P –p /dev/hd6 –s /dev/sysdumpnull

9.HACMP 配置检测: Cluster Verification: 命令:

# /usr/sbin/cluster/diag/clconfig -v '-tr' 输出判断:

结果无Fail项输出。

10.系统硬件诊断:

命令顺序为:

1.#diag

2.Enter

3.Diagnostic Routines

4.System Verification

5.All Resources

6.F7

输出判断:

结果应为No trouble was found.

11.补丁程序(PTF)的检查

1. 系统维护补丁版本为ML05,检查命令为:

#instfix –i |grep ML

12.系统参数的检查

1.HIGH water mark for pending write I/Os

# lsattr -El sys0 |grep maxpout

输出判断:

结果应为

maxpout 33 HIGH water mark for pending write I/Os per file True

2.LOW water mark for pending write I/Os

# lsattr -El sys0|grep minpout

输出判断:

结果应为

minpout 24 LOW water mark for pending write I/Os per file True 更改命令为:

#chdev -l sys0 -a maxpout='33' -a minpout='24'

3.Syncd参数

# grep syncd /sbin/rc.boot

输出判断:

结果应为

nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &

更改命令为:

#vi /sbin/rc.boot

4.aio参数

# lsdev -Cc aio

输出判断:

结果应为

aio0 Available Asynchronous I/O

# lsattr -El aio0

输出判断:

结果应为

minservers 1 MINIMUM number of servers True maxservers 10 MAXIMUM number of servers True

maxreqs 4096 Maximum number of REQUESTS True kprocprio 39 Server PRIORITY True autoconfig available STATE to be configured at system restart True fastpath enable State of fast path True 更改命令为:

#smitty aio

5.Limits文件的设置:

#ulimit –a

输出判断:

结果应为

time(seconds) unlimited

file(blocks) 2097151

data(kbytes) 262144 //尤其是这项参数

stack(kbytes) 32768

memory(kbytes) 32768

coredump(blocks) 2097151

nofiles(descriptors) 2000

更改命令为:

#vi /etc/security/limits

更改data为524288

巡检内容及操作指导

1. IBM RS6000小型机机房要求:

1. 机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。

2. 温度(摄氏 ℃)

10 ℃-40℃

湿度(%)

8% -80%

2. 设备故障灯分类:?

主机故障灯

面板上不能有数字显示,如果有的话,说明系统有故障。

FAStT700磁盘阵列故障灯

告警灯为黄色表示有故障

磁带机故障灯

告警灯为黄色说明有故障或磁带机太脏,须清洗。

3. 系统错误报告(Error Log)的检查:

硬件故障检测命令:# errpt -d H -T PERM

若有故障执行命令# errpt -a -d H -T PERM>/tmp/harderror.log保存,分析结果报告给客户

软件故障检测命令:# errpt -d S -T PERM

若有故障执行命令# errpt -a -d S -T PERM>/tmp/softerror.log保存,分析结果

报告给客户

4. 有否发给root用户的错误报告(mail):

#mail

1. 观察所有未读消息,注意有关diagela的消息。

2. 常用命令:

h [<num>] Display headings of group containing message <num> t [<msg_list>] Display messages in <msg_list> or current message. n Display next message.

q Quit

3. 对发现的问题详细分析,结果报告给客户

5. 文件系统的检查:

命令:

# df –kP

%Used为文件系统的使用率。所有文件系统的使用率不能大于80%

6.磁带机清洁的检查:

命令:

#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n

显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。

6. 通信系统的检测:

1. 网卡的状态

命令:

#ifconfig –a

输出判断:

en0:

flags=7e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD,CHECKSUM_SUPPORT,PSEG>

inet 192.168.1.3 netmask 0xffffff00 broadcast 192.168.1.255

主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。

2. 路由的检测

命令:

#lsattr –El inet0

hostname shaixsvr Host Name True

gateway Gateway True

route Route True

bootup_option no Serial Optical Network Interface True

rout6 FDDI Network Interface True

authm 65536 Authentication Methods True

3. 网络的检测

命令:

#ping [ip address]

输出判断:

用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。

RAID 的Hotspare 属性是否打开

#smitty ssaraid? Change/Show Attributes of an SSA RAID Array 检查Enable Use of Hot Spares属性是否为YES

8.系统DUMP设置的检查

命令:

#sysdumdev –l

输出判断:

结果应为

primary /dev/hd6

secondary /dev/sysdumpnull

copy directory /var/adm/ras

forced copy flag TRUE

always allow dump FALSE

dump compression OFF

若不正确请用下列命令修改:

#sysdumdev –P –p /dev/hd6 –s /dev/sysdumpnull

9.HACMP 配置检测: Cluster Verification: 命令:

# /usr/sbin/cluster/diag/clconfig -v '-tr' 输出判断:

结果无Fail项输出。

10.系统硬件诊断:

命令顺序为:

1.#diag

2.Enter

3.Diagnostic Routines

4.System Verification

5.All Resources

6.F7

输出判断:

结果应为No trouble was found.

11.补丁程序(PTF)的检查

1. 系统维护补丁版本为ML05,检查命令为: #instfix –i |grep ML

12.系统参数的检查

1.HIGH water mark for pending write I/Os

# lsattr -El sys0 |grep maxpout

输出判断:

结果应为

maxpout 33 HIGH water mark for pending write I/Os per file True

2.LOW water mark for pending write I/Os

# lsattr -El sys0|grep minpout

输出判断:

结果应为

minpout 24 LOW water mark for pending write I/Os per file True 更改命令为:

#chdev -l sys0 -a maxpout='33' -a minpout='24'

3.Syncd参数

# grep syncd /sbin/rc.boot

输出判断:

结果应为

nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &

更改命令为:

#vi /sbin/rc.boot

4.aio参数

# lsdev -Cc aio

输出判断:

结果应为

aio0 Available Asynchronous I/O

# lsattr -El aio0

输出判断:

结果应为

minservers 1 MINIMUM number of servers True maxservers 10 MAXIMUM number of servers True maxreqs 4096 Maximum number of REQUESTS True kprocprio 39 Server PRIORITY True autoconfig available STATE to be configured at system restart True fastpath enable State of fast path True 更改命令为:

#smitty aio

5.Limits文件的设置:

#ulimit –a

输出判断:

结果应为

time(seconds) unlimited

file(blocks) 2097151

data(kbytes) 262144 //尤其是这项参数 stack(kbytes) 32768

memory(kbytes) 32768

coredump(blocks) 2097151

nofiles(descriptors) 2000

更改命令为:

#vi /etc/security/limits

更改data为524288

更多相关推荐:
巡检报告

GCIGC6F3编号DGGLXC004巡检时间20xx041913注本表一式三份一份由项目管理中心存档一份由项目部留存一份抄送集团技术管理部图1图223图3图4图5图6图733

IT 系 统 巡 检 报 告

IT系统巡检报告年月日项目名称客户名称实施地点实施单位1前言11巡检目的为保障重庆瀚置管理顾问有限公司IT系统的平稳运行将按重庆瀚置管理顾问有限公司IT系统维护方案定期对各子系统进行巡检并且根据巡检的实际结果给...

巡检报告模板

巡检报告模板,内容附图。

巡检报告

永城保险公司系统常规性巡检报告单神州数码科技有限公司20xx年4月目录概述3主机及操作系统常规配置检查4oracle数据库常规参数检查6数据库关键性能参数检查及分析7RAC集群检查9关键性SQL语句定位及分析1...

项目巡检报告

项目巡检阶段评估报告编号一巡检组织情况二项目概况三项目现场检查情况四项目检查各部门意见及措施五项目综合检查评估意见及措施

各种网络安全设备巡检报告

附录1防火墙巡检表附录2IDS巡检表附录3防病毒系统巡检表附录4审计系统巡检表附录5服务器巡检表服务器检查列表Windows附录6数据库巡检表附录7网络设备检查列表

网络巡检报告

网络巡检报告

AIX巡检报告以及操作手册

巡检报告单机器型号序列号检查时间年月日1机房环境温度符合要求不符合湿度符合要求不符合2机器清洁根据需要清洁机器各部件已清洁不需要3检查系统硬件情况设备故障灯是否有亮有无是否有其他否异常情况如硬盘风扇异常的声音电...

oracle数据库巡检报告模板

系统oracle数据库巡检报告文档控制修改记录审阅分发目录文档控制2检查总结5概要5总体概况5优化建议5介绍6目标6检查方法6检查范围6数据库配置分析7硬件配置7软件配置7数据库参数8控制文件9Temporar...

巡检报告模板--Sun主机模板

SunFireV880sn232QXXXX

PC服务器巡检报告

服务器巡检报告客户签字工程师签字第一联公司第二联用户

小型机巡检报告模版

小型机巡检报告客户号客户名称电话联系人机型序列号状态合约服务收费服务其它序列号状态合约服务收费服务其它注116为A类维护季度维护1719为B类维护半年维护2023为C类维护年度维护工程师服务记录表

巡检报告(41篇)