欢迎光临散文网 会员登陆 & 注册

k8s集群pod驱逐问题排查记录

2023-09-25 20:11 作者:风格星辰  | 我要投稿

今天进行运维支撑时遇到一个问题。

集群上某个pod被驱逐了多次,导致存在多个pod处于Evicted状态。

使用kubectl get pod -n xxx -o wide|grep Evicted查看所有被驱逐的pod所在的宿主机

然后kubectl describe node 宿主机名称,查看宿主机状态。发现出现event,Memory Pressure内存不足导致节点开始驱逐pod。但是看了下宿主机内存使用情况,发现内存使用率才70%左右,不应该出现这种情况。但是pod确实被驱逐了。

登陆宿主机,然后free -mh查看,发现内存确实够用。

完全找不到头绪了。后面咨询了下同事,发现其实是一个bug

通过kubectl top node 宿主机名称,发现内存使用率超过100%

通过登陆到宿主机,临时清理缓存

echo 2 > /proc/sys/vm/drop_caches

后续通过通过kubectl top node 宿主机名称,查看内存使用率下降了

后面就通过crontab写了一个定时任务,每天清理缓存。问题解决了

k8s集群pod驱逐问题排查记录的评论 (共 条)

分享到微博请遵守国家法律