欢迎光临散文网 会员登陆 & 注册

【案例分享】华为RH5885Hv3 硬盘预告警故障处理

2023-08-29 11:14 作者:安图特官方  | 我要投稿

故障描述

用户操作系统Asianux Linux(3.10.0-957.axs7.x86_64),近期收到监控日志报警,系统运行正常。Messages多次报错日志如下:



故障分析

1.查看报错日志与硬盘disk相关,收集raid卡日志进行分析,raid卡日志中对应的PD 08硬盘有多次预失效的告警。

2.通过日志中报错的磁盘位置PD 08(e0x00/s15),查看对应的raid卡配置信息,确认DID(Device ID),EID(Enclosure Device ID)和slot信息,定位故障硬盘位置:c0/e0/s15,slot15硬盘为raid6中成员。



3.查看raid卡日志中c0/e0/s15硬盘详细信息,Media Error Count数值已经达到35,表示磁盘可能错误,或者是磁盘有坏道,这个值不为0时需要注意,数值越大,危险系数越高。Other Error Count的值一般为0,这里也达到了3,说明硬盘已经出现过多次问题,为了预防硬盘后续情况恶化,建议更换掉预失效的硬盘。


故障处理

1.机器配置raid型号为LSI SAS2208,系统中安装对应raid管理软件storcli.

2.从raid中把故障硬盘踢出:命令:#./storcli64 /c0/e0/s15 set offline.

3.命令执行成功后硬盘状态变为offline,可以更换硬盘,待硬盘数据同步完成后,日志再无报错出现。‍


经验总结

现在,服务器硬盘配置数量较多,预告警的报错也会相对较多。所以,在收集日志中我们一定要收集全面,特别是raid卡相关日志,它对硬盘故障的定位起着很大的作用。华为服务器操作系统日志收集官方给出对应的脚本,InfoCollect_Windows和InfoCollect_linux.tar,还是建议使用官方推荐版本去收集日志会比较全面。

【案例分享】华为RH5885Hv3 硬盘预告警故障处理的评论 (共 条)

分享到微博请遵守国家法律