【案例分享】IBM P750硬盘读写故障导致I/O延迟

故障处理
某银行一台IBM p750发生I/O性能问题。进入系统查看当时 iostat 状态,发现basevg中本地磁盘hdisk1的使用率达到了 100%,表示I/O已经开始等待,系统性能出现了问题。

故障分析
查看系统 errpt 日志,在故障时段 errpt日志中并没有hdisk1相关告警,随后我们使用压力测试脚本对磁盘hdisk1执行读写测试,errpt日志报出本地硬盘hdisk1 TH临时硬件告警,描述为 DISK OPERATION ERROR,然后我们对日志进行decode后,确认此错误是本地硬盘hdisk1读写超时所致。

检查sissas0链路磁盘状态均为 Operational。

最终判定此次问题是由于本地磁盘 hdisk1 硬件故障所致,需要在线更换此硬盘。
故障处理
更换完硬盘,系统正常识别硬件,加入到basevg并和hdisk3做好镜像,更换流程正常操作完毕。但凌晨时,errpt 中再次出现hdisk1 临时硬件告警,描述为DISK OPERATION ERROR,再对detail data 进行decode,此次结果和上次不同,描述为加电或者自检失败。

将此case升级到公司后线支持之后,在首次故障发生时,hdisk1硬盘虽然有读写超时,但是没有被系统及时感知隔离;在第二次更换硬盘后则出现了加电或者自检失败的告警,确认要更换硬盘背板,并将hdisk1再次更换。
经验总结
在以往的硬盘更换事件中,当出现硬盘错误告警时,无论是PH永久性硬件错误,还是TH临时性硬件错误,磁盘均有DISK OPERATION ERROR,或出现此磁盘上逻辑卷读写错误,均被AIX系统感知,没有造成I/O性能问题,正常更换硬盘后就会恢复正常。此次本地硬盘故障造成I/O性能问题的事件还是首次发生,因snap检查的所有sissas0链路均正常,所以第一次我们仍认为只是本地硬盘hdisk1故障造成的,更换策略也只是更换了此硬盘。而第二次产生报错,硬盘报错decode为加电和自检失败,和第一次的问题点不同,我们才定位到硬盘背板。虽然这种情形发生概率极低,但以后如果遇到硬盘读写超时产生I/O性能问题,我们决定将此硬盘和硬盘背板一并更换,保证一次性维修。