当前位置 博文首页 > CSDN资讯:万字长文 | 全(小区局域)网最强 TCP/IP 拥塞控制总结

    CSDN资讯:万字长文 | 全(小区局域)网最强 TCP/IP 拥塞控制总结

    作者:[db:作者] 时间:2021-07-31 18:12

    来源 |?后端技术指南针

    头图 |?CSDN付费下载自视觉中国

    先唠唠嗑

    在正式开始文章技术点之前,想先聊一下我对面试中的TCP/IP问题的一些拙见,希望对盆友们有所帮助。

    在招聘岗位描述中,几乎必然有一条熟悉、掌握、精通TCP/IP协议、Http协议、网络编程技术。

    对于我们求职者来说,肯定知道的越多越好,但是就像过日子一样钱要花在刀刃上,准备面试也是一样的,我们该怎么准备这部分呢?

    我个人认为合理的优先级排序是:网络编程技术 > Http协议 > TCP/IP协议热点问题 > TCP/IP协议普通问题。

    从面试官的角度来说,面试中还是要注重实战,问一些边边角角的细节或者自己平时遇到的奇怪问题,并不能探测出侯选人的边界,反而让侯选人觉得这个面试官抓不住重点。

    有时候遇到一些侯选人说自己哪块掌握的比较好,那可以交流一下,比如之前遇到侯选人说自己读过Redis源码,顿时让我很有兴趣,简单了解了对方阅读的版本之后,就开始切磋,很快就可以探测出侯选人的所说的Redis源码边界。

    回到网络这块,C/C++的话轮子比较少,有时候需要自己搞一个Socket写个小型的服务端或者客户端,像Python/Go这些语言做的已经非常好了,可能不到5行一个简单的echo服务就跑起来了。因为之前自己是写C++服务端的,回忆起第一次用Python的Tornado框架写服务,着实被惊艳了,开发速度着实很快,性能也很不错。

    说这个的目的在于,如果对于时间紧任务重的求职者就不要胡子眉毛一把抓,抓几个重点问题好好理解一下就可以了,如果真遇到问边角问题的面试,那也不必懊恼,可能大概率以后共事脑回路也不一样,还是相忘于江湖比较好。

    在掌握一些重点问题的面试套路和回答之后,还是建议去深入了解一些这些技术细节,更多的是去培养和锻炼我们思考问题的方法和意识,之前在知乎就有这样的问题,就像研究往年的高考题一样,我们去思考TCP/IP在发展过程中的问题以及解决方案,并且当前存在的瓶颈作出自己的判断和思考,都是很有益的。

    我想这也是打开TCP/IP的正确方式吧:实战派和训练思维派。

    今天和大家一起学习下TCP/IP中的热点问题:拥塞控制。本文本着实战和思维训练兼顾的原则将从以下几个方面展开:

    • 拥塞控制的算法策略分类

    • 拥塞控制出现的意义和目的

    • 实现拥塞控制的几种算法和侧重点

    • 拥塞控制的主要过程和关键点

    • BBR算法的一些原理和思路


    我和TCP/IP协议

    我在5年前研究生刚毕业的时候,在一家做深度包检测DPI的公司待了差不多两年,可能读者要问啥是深度包检测?

    简单提一下哈,深度包检测 DPI (Deep Packet Inspection)就是识别TCP/IP网络协议中各种各样的报文,来进行流量管控和分析,在网络安全领域应用很多,属于通信&互联网领域的交叉业务。

    整个DPI系统是非常复杂的,目前业界有硬件DPI和软件DPI两种主流类型,硬件的吞吐量大造价也高,软件的比较灵活成本也相对低廉。

    当时每天的工作就是抓包分析、用C++写业务插件来处理各种丢包/乱序/重传问题等等,有时候业务需要还要单独开发wireshark的插件来解析自定义的报文。

    现在看看这份工作开启了我和TCP/IP协议网络的友谊之门。

    在刚毕业前3年换工作的时候,几乎总会被问到TCP/IP协议的一些东西,碰到一些专业人士问的就比较深入,好在近两年的经验让这些问题基本都在射程之内。

    所以经历都是财富,好好学一下,说不准哪天就派上用场了呢。


    走心推荐

    TCP/IP协议是一个协议族,如果真的非常感兴趣或者工作需要建议直接卷一卷二卷三,但是对于大多数读者来说,应付面试或者平时排查问题掌握一些重点内容也就够了。

    TCP/IP详解的三本书译文难免失真,有决心和兴趣的同学可以搞几本英文原版的,这是豆瓣读书上的一些评分:


    聊聊拥塞控制算法

    我们知道TCP/IP协议栈是一个简化的分层模型,是互联网世界连接一切的基石,一起来看一张七层模型vs四层模型的简图:

    看到一篇文章说到TCP拥塞控制算法并不是简单的计算机网络的概念,也属于控制论范畴,感觉这个观点很道理。

    TCP拥塞控制算法的目的可以简单概括为:公平竞争、充分利用网络带宽、降低网络延时、优化用户体验,然而就目前而言要实现这些目标就难免有权衡和取舍。

    但是现在的网络通信基础设施水平一直在飞速提高,相信在未来的某个时间点这些目标都可以达到,小孩子才选择,我们大人全都要!


    算法演进

    在理解拥塞控制算法之前我们需要明确一个核心的思想:闻道有先后 术业有专攻,笔者觉得这是一个非常重要的共识问题,把A踩在泥土里,把B吹捧到天上去,都不是很好的做法。

    实际的网络环境十分复杂并且变化很快,并没有哪个拥塞控制算法可以全部搞定,每一种算法都有自己的特定和适用领域,每种算法都是对几个关键点的权衡,在无法兼得的条件下有的算法选择带宽利用率,有的算法选择通信延时等等。

    在明确这个共识问题之后,我们对待各个拥塞控制算法的态度要平和一些,不要偏激地认为谁就是最好,几十年前的网络状况和现在是截然不同的,我们永远都是站在巨人的肩膀之上的,这也是科学和文明进步的推动力。


    算法分类

    传统拥塞控制算法并不是一蹴而就的,复杂的网络环境和用户的高要求推动着拥塞控制算法的优化和迭代,我们看下基于丢包策略的传统拥塞控制算法的几个迭代版本,如图所示:

    与此同时还有一类算法是基于RTT延时策略来进行控制的,但是这类算法在发包速率上可能不够激进,竞争性能不如其他算法,因此在共享网络带宽时有失公平性,但是算法速率曲线却是很平滑。

    4.1 流量控制和拥塞控制

    大约在1988年之前TCP/IP是没有拥塞控制的,但是随着网络接入规模的发展之前仅有的端到端窗口控制已经无法满足要求,在1986年引发大规模网络瘫痪,此时就要提到一个重量级人物:Van Jacobson范·雅各布森。

    这位力挽狂澜的人物入选了计算机名人堂Internet Hall of Fame,Van Jacobson大神提出并设计实施了TCP/IP拥塞控制,解决了当时最大的问题,来简单看下Van Jacobson的维基百科简介(笔者做了部分删减):

    范·雅各布森Van Jacobson是目前作为互联网技术基础的TCP/IP协议栈的主要起草者,他以其在网络性能的提升和优化的开创性成就而闻名。

    2006年8月,他加入了帕洛阿尔托研究中心担任研究员,并在位于相邻的施乐建筑群的Packet Design公司担任首席科学家。在此之前,他曾是思科系统公司首席科学家,并在位于劳伦斯伯克利国家实验室的网络研究小组任领导者。

    范·雅各布森因为在提高IP网络性能提升和优化所作的工作而为人们所知,1988到1989年间,他重新设计了TCP/IP的流控制算法(Jacobson算法),他因设计了RFC 1144中的TCP/IP头压缩协议即范·雅各布森TCP/IP头压缩协议而广为人知。此外他也曾与他人合作设计了一些被广泛使用的网络诊断工具,如traceroute,pathchar以及tcpdump 。

    范·雅各布森于2012年4月入选第一批计算机名人堂,计算机名人堂简介:https://www.internethalloffame.org/inductees/van-jacobson

    如图为Van Jacobson计算机名人堂的简介:

    笔者找了Van Jacobson和Michael J. Karels在1988年11月发布的关于拥塞避免和控制的论文,总计25页,感兴趣的读者可以查阅:

    https://ee.lbl.gov/papers/congavoid.pdf

    我们常用的traceroute和tcpdump也是van-jacobson大神的杰作,作为互联网时代的受益者不由得对这些互联网发展早期做出巨大贡献的开拓者、创新者、变革者心生赞叹和敬意。

    海尔兄弟一样的算法:流量控制和拥塞控制,这也是我们今天的主角。

    流量控制和拥塞控制从汉语字面上并不能很好的区分,本质上这一对算法既有区别也有联系。

    维基百科对于流量控制Flow Control的说明:

    In data communications, flow control is the process of managing the rate of data transmission between two nodes to prevent a fast sender from overwhelming a slow receiver.

    It provides a mechanism for the receiver to control the transmission speed, so that the receiving node is not overwhelmed with data from transmitting node.

    在数据通信中,流量控制是管理两个节点之间数据传输速率的过程,以防止快速发送方压倒慢速接收方。它为接收机提供了一种控制传输速度的机制,这样接收节点就不会被来自发送节点的数据淹没。

    可以看到流量控制是通信双方之间约定数据量的一种机制,具体来说是借助于TCP协议的确认ACK机制和窗口协议来完成的。

    窗口分为固定窗口和可变窗口,可变窗口也就是滑动窗口,简单来说就是通信双方根据接收方的接收情况动态告诉发送端可以发送的数据量,从而实现发送方和接收方的数据收发能力匹配。

    这个过程非常容易捕捉,使用wireshark在电脑上抓或者tcpdump在服务器上抓都可以看到,大白在自己电脑上用wireshark抓了一条:

    我们以两个主机交互来简单理解流量控制过程:

    接收方回复报文头部解释:

    图中RcvBuffer是接收区总大小,buffered data是当前已经占用的数据,而free buffer space是当前剩余的空间,rwnd的就是free buffer space区域的字节数。

    HostB把当前的rwnd值放入报文头部的接收窗口receive window字段中,以此通知HostA自己还有多少可用空间, 而HostA则将未确认的数据量控制在rwnd值的范围内,从而避免HostB的接收缓存溢出。

    可见流量控制是端到端微观层面的数据策略,双方在数据通信的过程中并不关心链路带宽情况,只关心通信双方的接收发送缓冲区的空间大小,可以说是个速率流量匹配策略。

    流量控制就像现实生活中物流领域中A和B两个仓库,A往B运送货物时只关心仓库B的剩余空间来调整自己的发货量,而不关心高速是否拥堵。

    4.2 为什么需要拥塞控制

    前面我们提到了微观层面点到点的流量控制,但是我们不由地思考一个问题:只有流量控制够吗?答案是否定的。

    我们还需要一个宏观层面的控去避免网络链路的拥堵,否则再好的端到端流量控制算法也面临丢包、乱序、重传问题,只能造成恶性循环。

    我们从一个更高的角度去看大量TCP连接复用网络链路的通信过程:

    所以拥塞控制和每一条端到端的连接关系非常大,这就是流量控制和拥塞控制的深层次联系,所谓每一条连接都顺畅那么整个复杂的网络链路也很大程度是通畅的。

    在展开拥塞控制之前我们先考虑几个问题:

    • 如何感知拥塞

    TCP连接的发送方在向对端发送数据的过程中,需要根据当前的网络状况来调整发送速率,所以感知能力很关键。

    在TCP连接的发送方一般是基于丢包来判断当前网络是否发生拥塞,丢包可以由重传超时RTO和重复确认来做判断。

    • 如何利用带宽

    诚然拥塞影响很大,但是一直低速发包对带宽利用率很低也是很不明智的做法,因此要充分利用带宽就不能过低过高发送数据,而是保持在一个动态稳定的速率来提高带宽利用率,这个还是比较难的,就像茫茫黑夜去躲避障碍物。

    • 拥塞时如何调整

    拥塞发生时我们需要有一套应对措施来防止拥塞恶化并且恢复连接流量,这也是拥塞控制算法的精要所在。


    4.3 拥塞控制的细节

    前面我们提了拥塞控制的必要性以及重要问题,接下来一起看下前辈们是如何设计实现精彩的拥塞控制策略的吧!

    4.3.1 拥塞窗口cwnd

    从流量控制可以知道接收方在header中给出了rwnd接收窗口大小,发送方不能自顾自地按照接收方的rwnd限制来发送数据,因为网络链路是复用的,需要考虑当前链路情况来确定数据量,这也是我们要提的另外一个变量cwnd,笔者找了一个关于rwnd和cwnd的英文解释:

    Congestion Window (cwnd) is a TCP state variable that limits the amount of data the TCP can send into the network before receiving an ACK.

    The Receiver Window (rwnd) is a variable that advertises the amount of data that the destination side can receive.

    Together, the two variables are used to regulate data flow in TCP connections, minimize congestion, and improve network performance.

    笔者在rfc5681文档中也看到cwnd的定义:

    这个解释指出了cwnd是在发送方维护的,cwnd和rwnd并不冲突,发送方需要结合rwnd和cwnd两个变量来发送数据,如图所示:

    cwnd的大小和MSS最大数据段有直接关系,MSS是TCP报文段中的数据字段的最大长度,即MSS=TCP报文段长度-TCP首部长度。


    4.3.2 拥塞控制基本策略

    拥塞控制是一个动态的过程,它既要提高带宽利用率发送尽量多的数据又要避免网络拥堵丢包RTT增大等问题,基于这种高要求并不是单一策略可以搞定的,因此TCP的拥塞控制策略实际上是分阶段分策略的综合过程:

    如图为典型的包含4个策略的拥塞控制:

    如图为发生超时重传RTO时的过程:

    4.4?拥塞控制过程详解

    我们以典型慢启动、拥塞避免、快速重传、快速恢复四个过程进行阐述。

    • 慢启动

    慢启动就是对于刚启动的网络连接,发送速度不是一步到位而是试探性增长,具体来说:连接最初建立时发送方初始化拥塞窗口cwnd为m,之后发送方在一个RTT内每收到一个ACK数据包时cwnd线性自增1,发送方每经过一个RTT时间,cwnd=cwnd*2指数增长,经过一段时间增长直到cwnd达到慢启动阈值ssthresh。

    之后cwnd不再呈指数增长从而进入拥塞避免阶段(注cwnd增长的单位是MSS),当然如果在慢启动阶段还未到达阈值ssthresh而出现丢包时进入快速重传等阶段,需要注意的是如果网络状况良好RTT时间很短,那么慢启动阶段将很快到达一个比较高的发送速率,所以将慢启动理解为试探启动更形象。

    • 拥塞避免

    当慢启动阶段cwnd的值到达ssthresh时就不再疯狂增长,进入更加理性的线性阶段直至发送丢包,本次的阈值ssthresh是上一次发生丢包时cwnd的1/2,因此这是一个承上启下的过程。

    本次发送丢包时仍然会调整ssthresh的值,具体拥塞避免增长过程:发送方每收到一个ACK数据包时将cwnd=cwnd+1/cwnd,每经过一个RTT将cwnd自增1。

    • 超时重传和快速重传

    TCP作为一个可靠的协议面临的很大的问题就是丢包,丢包就要重传因此发送方需要根据接收方回复的ACK来确认是否丢包了,并且发送方在发送数据之后启动定时器,如图所示:

    RTO是随着复杂网络环境而动态变化的,在拥塞控制中发生超时重传将会极大拉低cwnd,如果网络状况并没有那么多糟糕,偶尔出现网络抖动造成丢包或者阻塞也非常常见,因此触发的慢启动将降低通信性能,故出现了快速重传机制。

    所谓快速重传时相比超时重传而言的,重发等待时间会降低并且后续尽量避免慢启动,来保证性能损失在最小的程度,如图所示:

    快速重传和超时重传的区别在于cwnd在发生拥塞时的取值,超时重传会将cwnd修改为最初的值,也就是慢启动的值,快速重传将cwnd减半,二者都将ssthresh设置为cwnd的一半。

    从二者的区别可以看到,快速重传更加主动,有利于保证链路的传输性能,但是有研究表明3个ACK的机制同样存在问题,本文就不做深入阐述了,感兴趣的读者可以自主查阅。

    快速重传是基于对网络状况没有那么糟糕的假设,因此在实际网络确实还算好的时候,快速重传还是很有用的,在很差的网络环境很多算法都很难保证效率的。

    • 快速恢复

    在快速重传之后就会进入快速恢复阶段,此时的cwnd为上次发生拥塞时的cwnd的1/2,之后cwnd再线性增加重复之前的过程


    4.5?TCP算法版本和拥塞控制

    实际上TCP算法有很多版本,每个版本存在一些差异,在这里简单看一下维基百科的介绍:

    • 算法命名规则

    TCP+算法名的命名方式最早出现在Kevin Fall和Sally Floyd1996年发布的论文中。

    • TCP Tahoe 和TCP Reno

    这两个算法代号取自太浩湖Lake Tahoe和里诺市,两者算法大致一致,对于丢包事件判断都是以重传超时retransmission timeout和重复确认为条件,但是对于重复确认的处理两者有所不同,对于超时重传RTO情况两个算法都是将拥塞窗口降为1个MSS,然后进入慢启动阶段。

    TCP Tahoe算法:如果收到三次重复确认即第四次收到相同确认号的分段确认,并且分段对应包无负载分段和无改变接收窗口的话,Tahoe算法则进入快速重传,将慢启动阈值改为当前拥塞窗口的一半,将拥塞窗口降为1个MSS,并重新进入慢启动阶段。

    TCP Reno算法:如果收到三次重复确认,Reno算法则进入快速重传只将拥塞窗口减半来跳过慢启动阶段,将慢启动阈值设为当前新的拥塞窗口值,进入一个称为快速恢复的新设计阶段。TCP New Reno

    TCP New Reno是对TCP Reno中快速恢复阶段的重传进行改善的一种改进算法,New Reno在低错误率时运行效率和选择确认SACK相当,在高错误率仍优于Reno。

    • TCP BIC 和TCP CUBIC

    TCP BIC旨在优化高速高延迟网络的拥塞控制,其拥塞窗口算法使用二分搜索算法尝试找到能长时间保持拥塞窗口最大值,Linux内核在2.6.8至2.6.18使用该算法作为默认TCP拥塞算法。

    CUBIC则是比BIC更温和和系统化的分支版本,其使用三次函数代替二分算法作为其拥塞窗口算法,并且使用函数拐点作为拥塞窗口的设置值,Linux内核在2.6.19后使用该算法作为默认TCP拥塞算法。

    • TCP PRR

    TCP PRR是旨在恢复期间提高发送数据的准确性,该算法确保恢复后的拥塞窗口大小尽可能接近慢启动阈值。在Google进行的测试中,能将平均延迟降低3~10%恢复超时减少5%,PRR算法后作为Linux内核3.2版本默认拥塞算法。TCP BBR

    TCP BBR是由Google设计于2016年发布的拥塞算法,该算法认为随着网络接口控制器逐渐进入千兆速度时,分组丢失不应该被认为是识别拥塞的主要决定因素,所以基于模型的拥塞控制算法能有更高的吞吐量和更低的延迟,可以用BBR来替代其他流行的拥塞算法。

    Google在YouTube上应用该算法,将全球平均的YouTube网络吞吐量提高了4%,BBR之后移植入Linux内核4.9版本。

    其中比较有名的Vegas算法是大约在1995年由亚利桑那大学的研究人员拉里·彼得森和劳伦斯·布拉科夫提出,这个新的TCP拥塞算法以内华达州最大的城市拉斯维加斯命名,后成为TCP Vegas算法。

    关于基于RTT的TCP Vegas算法的详细介绍可以查阅文档:

    http://www.cs.cmu.edu/~srini/15-744/F02/readings/BP95.pdf

    文档对Vegas算法和New Reno做了一些对比,我们从直观图形上可以看到Vegas算法更加平滑,相反New Reno则表现除了较大的波动呈锯齿状,如图所示:

    实际上还有更细粒度的分类,由于不是今天的重点,就不再深入展开了,当前使用的拥塞控制算法还是基于丢包Loss-Based作为主流。

    复杂的网络环境和拥塞控制

    我们知道在网络链路中连接的数量是动态变化且数量巨大的,每一条连接都面临着一个黑盒子式的网络环境,这并不像我们平时出行时看看地图就知道哪里堵了,为了维护一个好的网络环境,每一条连接都需要遵守一些约定。

    如果连接端都无所顾忌地发生数据包,那么网络链路很快就到了瓶颈了,数据通信完全无法保障,所以要到达一个稳定高效的网络环境还是需要费很大心思的,这其中有两个重要的概念:公平性和收敛性。

    说来惭愧笔者在网络上找了很多资料去理解TCP拥塞控制的公平性和收敛性,但是仍然没有获得一个很好的权威解释,所以只能结合一些资料和自身的理解去阐述所谓的公平性和收敛性。

    5.1?AIMD特性

    笔者认为公平性是相对于网络链路中的所有连接而言的,这些共享链路的连接启动和结束的时间不同,在实际的交互过程中每条连接占有带宽的机会是均等的,并且由于带宽限制连接双方通信的数据量是动态调整并且近似收敛于某个值,也就是呈现一个锯齿状或者更加平滑的波动曲线,对于基于丢包的拥塞控制算法而言AIMD线性增乘性减策略起了关键控制作用。

    接下来我们来重点看下AIMD特性,先来贴一张经典的图,直观看AIMD的过程:

    看看维基百科对于AIMD的定义:

    The additive-increase/multiplicative-decrease(AIMD) algorithm is a feedback control algorithm best known for its use in TCP congestion control.

    AIMD combines linear growth of the congestion window with an exponential reduction when congestion is detected.

    Multiple flows using AIMD congestion control will eventually converge to use equal amounts of a shared link.

    The related schemes of multiplicative-increase/multiplicative-decrease (MIMD) and additive-increase/additive-decrease (AIAD) do not reach stability.

    简单翻译一下:线性增加乘性减少算法是一个反馈控制算法,因其在TCP拥塞控制中的使用而广为人知,AIMD将线性增加拥塞窗口和拥塞时乘性减少窗口相结合,基于AIMD的多个连接理想状态下会达到最终收敛,共享相同数量的网络带宽,与其相关的乘性增乘性减MIMD策略和增性加增性减少AIAD都无法保证稳定性。

    AIMD相比MIMD和AIAD在连接进入拥塞避免阶段使用试探线性加策略而不是乘性加策略更加安全,在探测丢包时则大幅度乘性减少到1/2这样对于缓解拥塞会有比较好的效果更加快速,相反如果探测到丢包时采用线性减少AD可能拥塞持续的时间会更长,总体来说AIMD算是一个比较简单实用的工程版本的反馈控制,也具备可工程收敛性,因而被广泛实用。

    5.2?弱网络环境下的AIMD

    时间拉回20多年前,在互联网早期几乎所有的设备都是通过有线网络进行连接通信的,这也是拥塞控制在设计之后一直都起到不错作用的重要因素,有线连接的网络稳定性比较好,因此把丢包作为网络拥堵的一个特征也很正常。

    再拉回到现在,从2010年之后移动互联网蓬勃发展,移动终端的持有量已经可以称为海量,无线网络的引入让网络环境变得更加复杂,因此不稳定丢包变得更加频繁,但是这时的丢包就不一定是网络拥堵造成的了,因为整个数据包经过多重路由、交换机、基站等基础通信设备每个环节都可能发生异常。

    在弱网环境下,尤其是移动互联网中之前的基于AIMD的拥塞控制策略可能会由于丢包的出现而大幅降低网络吞吐量,从而对网络带宽的利用率也大大下降,这时我们采用更加激进的控制策略,或许可以获得更好的效果和用户体验。

    恶意丢包的情况下,基于AIMD的拥塞控制确实就相当于被限速了,因为AIMD确实有些保守谨慎了,这个其实也很好理解的哈。

    我们都知道在移动网络环境下是由终端以无线形式和附近的基站交互数据,之后数据传输至核心网,最后落到具体的服务器所在的有线网络,其中最后一公里的区域属于高延时场景,有线网络属于低延时高带宽场景。

    在国外有相关实验证明弱网环境下RTT的变化对于使用传统拥塞控制算法下网络吞吐量的影响,数据和曲线如图所示:

    实验含义:RTT的增大影响了比如CUBIC这类拥塞控制算法的慢启动等阶段,我们知道慢启动阶段每经过1个RTT周期拥塞窗口cwnd将加倍,但是更大的RTT就意味着发送方以很低的速率发送数据,更多的时间是空闲的,发包的加速度极大将低了,所以整个吞吐量就下降很明显。

    看下实验者的原文表述:

    The delay before acknowledgment packets are received (= latency) will have an impact on how fast the TCP congestion window increases (hence the throughput).

    When latency is high, it means that the sender spends more time idle (not sending any new packets), which reduces how fast throughput grows.

    强悍的BBR算法

    下一篇:没有了