Linux内核网络-拥塞控制系列(一)
谈起网络拥塞控制,大家可能很熟悉八股文中的"加法增大“、”乘法减小“、”慢开始“、“拥塞避免”、“快重传”、“快恢复”等概念。没错,这是一种经典网络拥塞控制算法的基础理论,但在实际的实现时不同的拥塞控制算法,有很大差别。本文从Linux内核源码中学习网络拥塞控制算法的具体实现框架。从当前网络拥塞控制算法的发展历程上看,网络拥塞控制算法的类型主要有以下四种:
基于丢包的拥塞控制算法,这类算法将丢包视为发生了网络拥塞。采取缓慢的探测方式,逐渐增大拥塞窗口,当出现丢包时,将拥塞窗口减少,代表的算法有Tahoe、Reno、NewReno、BIC、Cubic等。
基于延时的拥塞控制算法,这类算法将延时增大视为发生了网络拥塞,延时增大时减少拥塞窗口,延时减少时增大拥塞窗口,代表的算法有Vegas、Westwood等。
基于链路容量的拥塞控制算法,代表算法是BBR,其采用了另类的方式,不再使用丢包、延时等信号去衡量拥塞是否发生,而是直接对网络建模来避免以及应对真实的网络拥塞。
基于学习的拥塞控制算法,这类算法也没有特定的拥塞信号,一般是基于训练数据、评价函数,通过机器学习生成网络拥塞控制策略模型,代表算法有Remy、PCC、Aurora、DRL-CC、Orca等。
由于每类拥塞控制算法的核心理念有很大差别,关于每种算法的实现与原理在后续的文章中进行呈现。本次文章先对Linux内核中网络拥塞控制实现细节、大致框架,进行分析和大概学习。在进行正式的分析前先简单梳理一下常识与概念:
什么是网络拥塞:网络拥塞是指在网络中传输的数据量超过网络链路或节点的处理能力,导致网络延迟增加、丢包率升高和带宽利用率下降的现象。
窗口(Window):如下图的TCP协议头中占据16位,用于接收端告诉发送端还有多少缓冲区可以接收数据。

滑动窗口、发送窗口:下图所示黑色方框代表发送窗口。滑动窗口只是一种形象的称呼,即发送窗口一直移动从而达到发送新的数据的目的,如下图当接收到接收端发来的ACK数据包后发送窗口向右移动。图中灰色的方框代表已经发送且确认的数据,红色代表已发送且刚刚确认的数据,正是因为刚刚确认了5byte的数据,才驱动发送窗口可以向右移动5个单位,使得序号52~56的数据(绿色方框,代表允许发送的待发送数据)可以发送,当37~51区间的数据(蓝色方框,代表发送但未确认的数据包)能够被确认时,发送窗口才能向右滑动。发送窗口前方的数据(黄色方框,不允许发送的待发送数据)只能等待发送窗窗口区间内才能发送。TCP的滑动窗口是动态的,我们可以想象成小学常见的一个数学题,一个水池,体积V,每小时进水量V1,出水量V2。当水池满了就不允许再注入了,如果有个液压系统控制水池大小,那么就可以控制水的注入速率和量。这样的水池就类似TCP的窗口。应用根据自身的处理能力变化,通过本端TCP接收窗口大小控制来对对对端的发送窗口流量限制。

拥塞窗口:上面介绍了发送窗口的概念,在TCP协议中有一个反映网络传输能力的变量,叫做拥塞窗口(congestion window),记作cwnd。发送端实际的发送窗口大小实际是为 接收端通告窗口 rwnd 与 拥塞窗口 cwnd 较小的那个值。
从上面的概念中可以得知,拥塞窗口可以间接反映网络的状况,进而去限制发送窗口的大小。拥塞窗口作为网络拥塞控制中核心变量之一,对网络拥塞控制起到关键作用。在Linux内核中,关于网络的核心结构体在:Linux内核网络基础-TCP相关的几个关键结构体-小记中进行了介绍,如下图是四个核心结构体,四个结构的关系具有面向对象的特征,通过层层继承,实现了类的复用;内核中网络相关的很多函数,参数往往都是struct sock,函数内部依照不同的业务逻辑,将struct sock转换为不同的业务结构。

struct tcp_sock
从struct inet_connection_sock
结构体的基础上继承而来,在struct inet_connection_sock
上增加了一些tcp协议相关的字段,如滑动窗口协议,拥塞算法等一些TCP专有的属性。由于这种继承关系,可以互相转换,如下举例两种转换方式,第一种是struct sock转换为struct tcp_sock,第二种是struct sock转换成struct inet_connection_sock。具体的关于结构体详细介绍可以查看Linux内核网络基础-TCP相关的几个关键结构体-小记。下面将struct tcp_sock展开可以看到与网络拥塞控制相关的字段。
【文章福利】小编推荐自己的Linux内核技术交流群:【749907784】整理了一些个人觉得比较好的学习书籍、视频资料共享在群文件里面,有需要的可以自行添加哦!!!(含视频教程、电子书、实战项目及代码)


struct tcp_sock中定义的关于网络拥塞控制相关的字段如下所示:
下面看一个特别重要的框架,也可以称为是拥塞控制引擎,如下结构体所示,tcp_congestion_ops描述了一套拥塞控制算法所需要支持的操作。这个框架定义了一些钩子函数,Linux内核中不同的拥塞控制算法根据算法思想实现以下钩子函数,然后进行注册即可完成拥塞控制算法的设计。
用户可以通过自定义以上钩子函数实现定制拥塞控制算法,并进行注册。以下截取cubic拥塞控制算法对接口的实现、注册的代码片段。可以注意到cubic只实现了拥塞控制引擎tcp_congestion_ops的部分钩子函数,因为有一些钩子函数是必须实现,有一些是根据算法选择实现的。
在Linux用户态可以通过参数查看当前使用的拥塞控制算法、当前可支持的拥塞控制算法。如下表所示是两个参数以及含义。

法。可以看到当前可支持的拥塞控制算法中包含bbr算法,bbr算法在内核版本4.9开始支持的。

如果留意的话,在本文开始时提到了很多传统的拥塞控制算法,那么在上面的命令中没有看到,其实有众多拥塞控制算法在Linux中没有进行安装,如下命令查看Linux系统中所有已实现的拥塞控制算法模块:

如果想安装特定的拥塞控制算法可以通过modprobe命令对指定的拥塞控制算法进行安装,如下所示安装了Vegas拥塞控制算法,此时再查看当前系统中可以使用的拥塞控制算法,多了一个Vegas算法。

除了可以动态查看当前Linux系统可用的拥塞控制算法、当前使用的拥塞控制算法外还可以动态切换拥塞控制算法。如下所示将默认的cubic拥塞控制算法切换为bbr拥塞控制算法。

切换后验证如下,当前运行的拥塞控制算法由之前的cubic拥塞控制算法切换到了bbr拥塞控制算法。


原文作者:技术简说
