k8s集群pod驱逐问题排查记录

2023-09-25 20:11 作者:风格星辰 0人读过 | 我要投稿

今天进行运维支撑时遇到一个问题。

集群上某个pod被驱逐了多次，导致存在多个pod处于Evicted状态。

使用kubectl get pod -n xxx -o wide｜grep Evicted查看所有被驱逐的pod所在的宿主机

然后kubectl describe node 宿主机名称，查看宿主机状态。发现出现event，Memory Pressure内存不足导致节点开始驱逐pod。但是看了下宿主机内存使用情况，发现内存使用率才70%左右，不应该出现这种情况。但是pod确实被驱逐了。

登陆宿主机，然后free -mh查看，发现内存确实够用。

完全找不到头绪了。后面咨询了下同事，发现其实是一个bug

通过kubectl top node 宿主机名称，发现内存使用率超过100%

通过登陆到宿主机，临时清理缓存

echo 2 > /proc/sys/vm/drop_caches

后续通过通过kubectl top node 宿主机名称，查看内存使用率下降了

后面就通过crontab写了一个定时任务，每天清理缓存。问题解决了

标签：

k8s集群pod驱逐问题排查记录的评论 (共条)