详细讲解Linux内核角度分析tcpdump原理(2)

2022-10-20 20:50 作者:补给站Linux内核 0人读过 | 我要投稿

详细讲解Linux内核角度分析tcpdump原理(1)介绍了在内核角度tcpdump的抓包原理(1)，主要流程如下：

应用层通过libpcap库：调用系统调用创建socket,sock_fd = socket(PF_PACKET, SOCK_RAW, htons(ETH_P_ALL));tcpdump在socket创建过程中创建packet_type(struct packet_type),并挂载到全局的ptype_all链表上。(同时在packet_type设置回调函数packet_rcv。
网络收包/发包时，会在各自的处理函数(收包时：__netif_receive_skb_core，发包时：dev_queue_xmit_nit)中遍历ptype_all链表，并同时执行其回调函数，这里tcpdump的注册的回调函数就是packet_rcv。
packet_rcv函数中会将用户设置的过滤条件，通过BPF进行过滤，并将过滤的数据包添加到接收队列中。
应用层调用recvfrom 。PF_PACKET 协议簇模块调用packet_recvmsg 将接收队列中的数据copy应用层，到此将数据包捕获到。

本文围绕的重点是：BPF的过滤原理，如下源码所示：run_filter(skb, sk, snaplen)，本次文章将对BPF的过滤原理进行一些分析。

tcpdump依附标准的的BPF机器，tcpdump的过滤规则会被转化成一段bpf指令并加载到内核中的bpf虚拟机器上执行，显然，由用户来写过滤代码太过复杂，因此 libpcap 允许用户书写高层的、容易理解的过滤字符串，然后将其编译为BPF代码，tcpdump自动完成，不为用户所见。

一、BPF汇编指令集

BPF指令集

是一个伪机器码，与能够在物理机上直接执行的机器码不同，BPF指令集是可以在BPF虚拟机上执行的指令集。bpf在内核中实际就是一个虚拟机，有自己定义的虚拟机寄存器组。在最早的cBPF汇编框架中的三种寄存器：

在cBPF每条汇编指令如下这种格式：

我们最常见的用法莫过于从数据包中取某个字的数据来做判断。按照bpf的规定，我们可以使用偏移来指定数据包的任何位置，而很多协议很常用并且固定，例如端口和ip地址等，bpf就为我们提供了一些预定义的变量，只要使用这个变量就可以直接取值到对应的数据包位置。例如：

cBPF在一些平台还在使用，这个代码就和用户空间使用的那种汇编是一样的，但是在X86架构，现在在内核态已经都切换到使用eBPF作为中间语言了。由于用户可以提交cBPF的代码，所以首先是将用户提交来的结构体数组进行编译成eBPF代码（提交的是eBPF就不用了）。然后再将eBPF代码转变为可直接执行的二进制。eBPF汇编框架下的bpf语句如下：

tcpdump -d

tcpdump支持使用-d参数来显示过滤规则转换后的bpf汇编指令。在抓包时我们并不关心如何具体的编写struct sock_filter内的东西，因为tcpdump已经内置了这样的功能。如想要对所接受的数据包过滤，只想抓取TCP协议、端口为8080数据包，那么在tcpdump当中的命令就是tcpdump ip and tcp port 8080 。如果你想让tcpdump帮你编译这样的过滤器，则用tcpdump -d 'ip and tcp port 8080',如下案例(参考《Linux内核观测技术BPF》)如下图所示，显示“tcpdump抓取tcp端口8080数据包”的bpf汇编指令：

为了进一步分析这条案例的流程，先把数据包的帧格式和ip数据报的格式放下面便于分析：

以太网帧格式：

【文章福利】小编推荐自己的Linux内核技术交流群:【891587639】整理了一些个人觉得比较好的学习书籍、视频资料共享在群文件里面，有需要的可以自行添加哦！！！（含视频教程、电子书、实战项目及代码)

001-003条bpf汇编指令进行解释:

(000) ldh [12]：

ldh指令表示累加器在偏移量12处进行加载一个半字(16位)，从以太网帧的格式中可以看到偏移量为12字节处为以太网类型字段。

(001) jeq #0x800 jt 2 jf 12：

jeq指令bioassay如果相等则跳转，也就是检查上一条指令返回的以太网类型的值是否为ox800(ipv4的标识)，如果为true(jt),就跳转到指令2，否则跳转到指令12。

(002) ldb [23]：

ldb指令在偏移量23字节处进行加载(计算一下：以太网帧的头部是14个字节，那么第23个字节，也就是IP头部的第9个字节)，根据IP数据报的格式可以看到第9个字节是“协议”字段。

(003) jeq #0x6 jt 4 jf 12 ：

jeq指令根据第9个字节的值进行再一次的判断和跳转，如果第9个字节“协议字段”为0x6(TCP)，如果是TCP则跳转到下一条指令004，否则跳转到012，数据包进行丢弃。

上面的规则对应代码结构体在Linux内核中的表示其实就是struct sock_filter，在libpcap库中对应的结构体为struct bpf_insn

tcpdump -dd

上述使用tcpdump -d看到了过滤规则转换后的bpf汇编指令，上面几个指令：ld开头的表示加载某地址数据，jeq是比较，jt就是jump when true，jf就是jump when false，后面表示行号;tcpdump支持使用-dd参数将匹配信息包的代码以c语言程序段的格式给出：

像c当中的数组的定义，这个就是过滤tcp8080数据包的struct sock_filter的数组代码。

二、tcpdump设置BPF过滤器

在libpcap 设置过滤规则用到了两个接口，pcap_compile（）和 pcap_setfilter （）

pcap_compile 函数的主要工作就是创建一个bpf的结构体，后面pcap_setfilter 会把生产的规则设置到内核，让规则生效。

struct pcap

在进行分析pcap_compile（）和 pcap_setfilter （）前，先介绍一个结构体：struct pcap，介绍后面的过程便于查阅该结构体的成员变量，该结构体在libpcap源码的pcap-int.h中定义，该结构体抓包过程的一个句柄。

pcap_compile

pcap_setfilter

函数原型：

调用pcap_setfilter_linux:

进一步调用pcap_setfilter_linux_common：

上面涉及到的Linux内核中的struct sock_fprog和libpcap库中的struct bpf_program如下所示：

struct sock_fprog { /* Required for SO_ATTACH_FILTER. */ unsigned short len; /* Number of filter blocks */ struct sock_filter __user *filter; }; struct bpf_program { u_int bf_len; struct bpf_insn *bf_insns;//该结构体上面介绍过，相当于Linux内核中的struct sock_filte };

install_bpf_program(handle, filter)的拷贝过程：

pcap_setfilter_linux_common最终会在set_kernel_filter中调用setsockopt系统调用(执行到这才真正进入内核，开始在Linux内核上安装和设置BPF过滤器)，通过SO_ATTACH_FILTER 下发给内核底层，从而让规则生效,设置过滤器。

在liunx上，只需要简单的创建的filter代码，通过SO_ATTTACH_FILTER选项发送到内核，并且filter代码能通过内核的检查，这样你就可以立即过滤socket上面的数据了。

三、setsockopt()

Linux 在安装和卸载过滤器时都使用了函数 setsockopt()，其中标志SOL_SOCKET 代表了对 socket 进行设置，而 SO_ATTACH_FILTER 和 SO_DETACH_FILTER 则分别对应了安装和卸载。

在套接字socket 附加filter规则：

setsockopt(sockfd, SOL_SOCKET, SO_ATTACH_FILTER, &val, sizeof(val));

·把filter从socket上移除：

setsockopt(sockfd, SOL_SOCKET, SO_DETACH_FILTER, &val, sizeof(val));

Linux内核在sock_setsockopt函数中进行设置：

上面出现的 sk_attach_filter() 定义在 net/core/filter.c，它把结构sock_fprog 转换为结构 sk_filter, 最后把此结构设置为 socket 的过滤器：sk->filter = fp。

回到文章开始(抓包的引入)：

run_filter：

综上，结合上一篇,文章和本文就将Linux内核角度将tcpdump的工作原理分析完毕。

标签：