【案例分享】IBM P770故障处理记录

故障描述
某日,客户报修IBM P770(9117-MMB)小机宕机。我们前往现场检查,该小型机由4个CEC柜和一个IO扩展柜组成,建有4个Lpar。查看HMC及ASMI告警信息,报错部位涉及FSP卡,CPU板,IO板,中板,内存等。





故障分析

经过分析告警信息,现场检查设备,加电启动测试等一系列操作,我们发现扩展柜二DBJM790的FSP卡加电指示灯不亮,设备无法启动,判断出该FSP卡已坏,对应位置U78C0.001.DBJM790-P1-C1。对于其他报错信息,分析排除了CPU和内存后,我们初步判断,设备宕机与U78C0.001.DBJM782-P2位置IO板故障有关,报错代码1100262D。
故障处理
我们决定由更换故障的FSP卡开始,FSP卡正常了,才能继续检查和处理其他故障。
处理过程如下:
1. 备份分区数据,选中主机---->Configuration---->Manage partition Data ---->Backup.

2. 查看HMC上分区备份数据
3. 在HMC控制台打开Restricted shell terminal
4. 使用命令查看分区数据:>ls -l /var/hsc/profiles/<serial number of system>
5. 登录ASMI,记录设备主机名,网络设置,微码信息,时间,启动选项。
6. 设备下电,更换CEC柜二的FSP卡。
7. 插好线缆,不连接HMC,设备加电测试。
8. 发现主柜FSP不亮,再次更换主柜FSP卡。
9. 不连接HMC网线,加电启动。
10. 笔记本直连HMC管理口,FSP卡恢复出厂配置。ASMI---->system service asid---->factory configuration---->reset service processor setting---->continue.等待恢复出厂设置完成,FSP卡会自动重启,大概10到20分钟。
11. 修改时间,主机名,HMC管理口IP地址。
12. 连接HMC管理机,等待刷新连接。
13. 按提示输入HMC和ASMI密码。
14. 连接成功后主机状态为recovery,选中主机选择任务栏第一项Recovery partition,选择Restore profile data from HMC backup data 从本HMC恢复分区数据。等待恢复完成,设备会自动power on,并自检。
15. 自检过程还是出现了红色叉叉,无法启动,查看报错信息,还是主柜IO板报错。


16. 再次停机下电,更换主柜U78C0.001.DBJM782-P2 位置IO板。

17. 重新启动加电启动设备,FSP能正常加电。
18. 待HMC识别正常后,重新做分区Recovery 操作,成功恢复,设备启动到standby。19. 找到相应分区概要文件启动分区

经验总结
1、IBM P770、780小机FSP卡的故障经常会导致其他多个部件一并告警,最好先去现场确认,在通电状态下,所有FSP卡电源指示灯是否正常(绿灯常亮),如有熄灭的,则是FSP卡坏了,建议先更换FSP卡,再排查其他部件。
2、P770、780小机正常情况加电时,FSP卡会立马点亮,但是这个型号的机器,加电时FSP卡容易出故障,会出现边修边坏的情况,点不亮也只能更换FSP卡。所以需要按条件多准备几块FSP卡,而且下电前先备份好分区信息。(HMC里选中主机-->Configuration-->Manage partition Data -->Backup)
3、更换完FSP卡后,先不要连HMC,需要先恢复出厂设置,防止连接HMC后把HMC里设备的分区信息冲掉,分区无法恢复。更换完FSP卡,确认都能点亮后,再power on自检,检查其他部件是否有问题,发现问题再进行处理。