深入分析Linux虚拟化KVM-Qemu之ioeventfd与irqfd
说明:
KVM版本:5.9.1
QEMU版本:5.0.0
工具:Source Insight 3.5, Visio
1. 概述

图中的各个模块,只剩下通知机制没讲了,本文来一篇终结者;
Guest与KVM及Qemu之间的通知机制,如下图:

irqfd
:提供一种机制,可以通过文件描述fd来向Guest注入中断,路径为紫色线条所示;ioeventfd
:提供一种机制,可以通过文件描述符fd来接收Guest的信号,路径为红色线条所示;eventfd
和irqfd
这两种机制,都是基于eventfd
来实现的;
本文会先介绍eventfd
机制,然后再分别从Qemu/KVM来介绍ioeventfd
和irqfd
,开始吧。
2. eventfd
说来很巧,我曾经在工作中实现过一个类似eventfd
机制的内核模块,用于多线程之间的轻量级通知,算是重复造轮子了。
eventfd
的机制比较简单,大体框架如下图:

内核中创建了一个
struct eventfd_ctx
结构体,该结构体中维护一个count
计数,以及一个等待队列头;线程/进程在读
eventfd
时,如果count
值等于0时,将当前任务添加到等待队列中,并进行调度,让出CPU。读过程count
值会进行减操作;线程/进程在写
eventfd
时,如果count
值超过最大值时,会将当前任务添加到等待队列中(特殊情况),写过程count
值会进行加操作,并唤醒在等待队列上的任务;内核的其他模块也可以通过
eventfd_signal
接口,将count
值加操作,并唤醒在等待队列上的任务;
代码实现如下图:

eventfd机制对用户层提供的系统调用接口包括
eventfd()
,write()
,read()
,select/poll
等;通过
eventfd
来创建文件描述符,从代码中可以看出,该接口的实现为do_eventfd
,完成的工作包括:
1)在内核中分配struct eventfd_ctx结构体来维护上下文;
2)初始化等待队列头用于存放睡眠等待的任务;
3)分配未使用的文件描述符fd,创建file实例(该实例会绑定操作函数集),将文件描述符fd与file实例建立连接等;
最终系统调用read/write时,便会分别调用到eventfd_read/eventfd_write
函数:
eventfd_read
:如果count值为0,将自身添加到等待队列中,设置任务的状态后调用schedule让出CPU,等待被唤醒。读操作中会对count值进行减操作,最后再判断等待队列中是否有任务,有则进行唤醒;eventfd_write
:判断count值在增加ucnt后是否会越界,越界则将自身添加到等待队列中,设置任务的状态后调用schedule让出CPU,等待被唤醒。写操作会对count值进行加操作,最后再判断等待队列中是否有任务,有则进行唤醒;此外,还有
eventfd_signal
接口,比较简单,完成的工作就是对count值进行加操作,并唤醒等待任务;
基石讲完了,我们来看看基于之上的ioeventfd
和irqfd
。
【文章福利】小编推荐自己的Linux内核技术交流群:【749907784】整理了一些个人觉得比较好的学习书籍、视频资料共享在群文件里面,有需要的可以自行添加哦!!!(含视频教程、电子书、实战项目及代码)


3. ioeventfd
3.1 Qemu侧
以PCI设备为例:

Qemu中模拟PCI设备时,在初始化过程中会调用
memory_region_init_io
来进行IO内存空间初始化,这个过程中会绑定内存区域的回调函数集,当Guest OS访问这个IO区域时,可能触发这些回调函数的调用;Guest OS中的Virtio驱动配置完成后会将状态位置上
VIRTIO_CONFIG_S_DRIVER_OK
,此时Qemu中的操作函数调用virtio_pci_common_write
,并按图中的调用流逐级往下;event_notifier_init
:完成eventfd
的创建工作,它实际上就是调用系统调用eventfd()
的接口,得到对应的文件描述符;memory_region_add_eventfd
:为内存区域添加eventfd
,将eventfd
和对应的内存区域关联起来;
看一下memory_region_add_eventfd
的流程:

内存区域
MemoryRegion
中的ioeventfds
成员按照地址从小到大排序,memory_region_add_eventfd
函数会选择合适的位置将ioeventfds
插入,并提交更新;提交更新过程中最终触发回调函数
kvm_mem_ioeventfd_add
的执行,这个函数指针的初始化是在Qemu进行kvm_init
时,针对不同类型的内存区域注册了对应的memory_listener
用于监听变化;kvm_vm_ioctl
:向KVM注册ioeventfd
;
Qemu中完成了初始化后,任务就转移到了KVM中。
3.2 KVM侧
KVM中的ioeventfd
注册如下:

KVM中注册
ioeventfd
的核心函数为kvm_assign_ioeventfd_idx
,该函数中主要工作包括:
1)根据用户空间传递过来的fd获取到内核中对应的struct eventfd_ctx结构体上下文;2)使用ioeventfd_ops操作函数集来初始化IO设备操作;3)向KVM注册IO总线,比如KVM_MMIO_BUS,注册了一段IO地址区域,当操作这段区域的时候出发对应的操作函数回调;
当Guest OS中进行IO操作时,触发VM异常退出,KVM进行捕获处理,最终调用注册的
ioevnetfd_write
,在该函数中调用eventfd_signal
唤醒阻塞在eventfd
上的任务,Qemu和KVM完成了闭环;
总体效果如下图:

4. irqfd
Qemu和KVM中的流程如下图:

Qemu中通过
kvm_irqchip_assign_irqfd
向KVM申请注册irqfd
;在KVM中,内核通过维护
struct kvm_kernel_irqfd
结构体来管理整个irqfd
的流程;kvm_irqfd_assign
:
1)分配struct kvm_kernel_irqfd结构体,并进行各个字段的初始化;2)初始化工作队列任务,设置成irqfd_inject,用于向Guest OS注入虚拟中断;3)初始化等待队列的唤醒函数,设置成irqfd_wakeup,当任务被唤醒时执行,在该函数中会去调度工作任务irqfd_inject;4)初始化pll_table pt字段的处理函数,设置成irqfd_ptable_queue_proc,该函数实际是调用add_wait_queue将任务添加至eventfd的等待队列中,这个过程是在vfs_poll中完成的;
当Qemu通过irqfd机制发送信号时,将唤醒睡眠在
eventfd
上的任务,唤醒后执行irqfd_wakeup
函数,在该函数中调度任务,调用irqfd_inject
来注入中断;
总体效果如下图:

原文作者:LoyenWang
