事故情况:
由于redis内存报警,导致接口失败率上升(没有配置redis拒绝策略,接口阻塞)。询问发现是上游同事进行了发布,于是迅速回滚,同时增大redis内存。
事故原因:
上游服务的对账系统调用自己的接口
1. 没有考虑到对账数据范围(进行了全量对账,存在冷数据)
2. 在业务高峰时期对账
3. 自己redis没有设置合理的淘汰策略
(第一次记笔记,不足之处请指出)