【案例分享】华为RH5885Hv3 硬盘预告警故障处理

故障描述
用户操作系统Asianux Linux(3.10.0-957.axs7.x86_64),近期收到监控日志报警,系统运行正常。Messages多次报错日志如下:


故障分析
1.查看报错日志与硬盘disk相关,收集raid卡日志进行分析,raid卡日志中对应的PD 08硬盘有多次预失效的告警。
2.通过日志中报错的磁盘位置PD 08(e0x00/s15),查看对应的raid卡配置信息,确认DID(Device ID),EID(Enclosure Device ID)和slot信息,定位故障硬盘位置:c0/e0/s15,slot15硬盘为raid6中成员。




3.查看raid卡日志中c0/e0/s15硬盘详细信息,Media Error Count数值已经达到35,表示磁盘可能错误,或者是磁盘有坏道,这个值不为0时需要注意,数值越大,危险系数越高。Other Error Count的值一般为0,这里也达到了3,说明硬盘已经出现过多次问题,为了预防硬盘后续情况恶化,建议更换掉预失效的硬盘。
故障处理
1.机器配置raid型号为LSI SAS2208,系统中安装对应raid管理软件storcli.
2.从raid中把故障硬盘踢出:命令:#./storcli64 /c0/e0/s15 set offline.
3.命令执行成功后硬盘状态变为offline,可以更换硬盘,待硬盘数据同步完成后,日志再无报错出现。
经验总结
现在,服务器硬盘配置数量较多,预告警的报错也会相对较多。所以,在收集日志中我们一定要收集全面,特别是raid卡相关日志,它对硬盘故障的定位起着很大的作用。华为服务器操作系统日志收集官方给出对应的脚本,InfoCollect_Windows和InfoCollect_linux.tar,还是建议使用官方推荐版本去收集日志会比较全面。