k8s集群pod驱逐问题排查记录
今天进行运维支撑时遇到一个问题。
集群上某个pod被驱逐了多次,导致存在多个pod处于Evicted状态。
使用kubectl get pod -n xxx -o wide|grep Evicted查看所有被驱逐的pod所在的宿主机
然后kubectl describe node 宿主机名称,查看宿主机状态。发现出现event,Memory Pressure内存不足导致节点开始驱逐pod。但是看了下宿主机内存使用情况,发现内存使用率才70%左右,不应该出现这种情况。但是pod确实被驱逐了。
登陆宿主机,然后free -mh查看,发现内存确实够用。
完全找不到头绪了。后面咨询了下同事,发现其实是一个bug
通过kubectl top node 宿主机名称,发现内存使用率超过100%
通过登陆到宿主机,临时清理缓存
echo 2 > /proc/sys/vm/drop_caches
后续通过通过kubectl top node 宿主机名称,查看内存使用率下降了
后面就通过crontab写了一个定时任务,每天清理缓存。问题解决了