当前位置 博文首页 > zp17764507932的博客:Nginx为什么比Apache Httpd高效:原理篇

    zp17764507932的博客:Nginx为什么比Apache Httpd高效:原理篇

    作者:[db:作者] 时间:2021-08-22 15:14

    、进程、线程?

    进程是具有一定独立功能的,在计算机中已经运行的程序的实体。在早期系统中(如linux 2.4以前),进程是基本运作单位,在支持线程的系统中(如windows,linux2.6)中,线程才是基本的运作单位,而进程只是线程的容器。程序 本身只是指令、数据及其组织形式的描述,进程才是程序(那些指令和数据)的真正运行实例。若干进程有可能与同一个程序相关系,且每个进程皆可以同步(循 序)或异步(平行)的方式独立运行。现代计算机系统可在同一段时间内以进程的形式将多个程序加载到存储器中,并借由时间共享(或称时分复用),以在一个处 理器上表现出同时(平行性)运行的感觉。同样的,使用多线程技术(多线程即每一个线程都代表一个进程内的一个独立执行上下文)的操作系统或计算机架构,同 样程序的平行线程,可在多 CPU 主机或网络上真正同时运行(在不同的CPU上)。

    二、常见Web服务方式

    2.1 三种工作模型比较:

    Web服务器要为用户提供服务,必须以某种方式,工作在某个套接字上。一般Web服务器在处理用户请求是,一般有如下三种方式可选择:多进程方式、多线程方式、异步方式。

    • 多进程方式:为每个请求启动一个进程来处理。由于在操作系统中,生成进程、销毁进程、进程间切换都很消耗CPU和内存,当负载高是,性能会明显降低。

    优点: 稳定性!由于采用独立进程处理独立请求,而进程之间是独立的,单个进程问题不会影响其他进程,因此稳定性最好。

    缺点: 资源占用!当请求过大时,需要大量的进程处理请求,进程生成、切换开销很大,而且进程间资源是独立的,造成内存重复利用。

    • 多线程方式:一个进程中用多个线程处理用户请求。由于线程开销明显小于进程,而且部分资源还可以共享,因此效率较高。

    优点:开销较小!线程间部分数据是共享的,且线程生成与线程间的切换所需资源开销比进程间切换小得多。

    缺点:稳定性!线程切换过快可能造成线程抖动,且线程过多会造成服务器不稳定。

    • 异步方式:使用非阻塞方式处理请求,是三种方式中开销最小的。但异步方式虽然效率高,但要求也高,因为多任务之间的调度如果出现问题,就可能出现整体故障,因此使用异步工作的,一般是一些功能相对简单,但却符合服务器任务调度、且代码中没有影响调度的错误代码存在的程序。

    优点:性能最好!一个进程或线程处理多个请求,不需要额外开销,性能最好,资源占用最低。

    缺点:稳定性!某个进程或线程出错,可能导致大量请求无法处理,甚至导致整个服务宕机。

    2.2 一个Web请求的处理过程:

    技术分享

    1. 客户发起情况到服务器网卡;
    2. 服务器网卡接受到请求后转交给内核处理;
    3. 内核根据请求对应的套接字,将请求交给工作在用户空间的Web服务器进程
    4. Web服务器进程根据用户请求,向内核进行系统调用,申请获取相应资源(如index.html)
    5. 内核发现web服务器进程请求的是一个存放在硬盘上的资源,因此通过驱动程序连接磁盘
    6. 内核调度磁盘,获取需要的资源
    7. 内核将资源存放在自己的缓冲区中,并通知Web服务器进程
    8. Web服务器进程通过系统调用取得资源,并将其复制到进程自己的缓冲区中
    9. Web服务器进程形成响应,通过系统调用再次发给内核以响应用户请求
    10. 内核将响应发送至网卡
    11. 网卡发送响应给用户

    通过这样的一个复杂过程,一次请求就完成了。

    简单来说就是:用户请求-->送达到用户空间-->系统调用-->内核空间-->内核到磁盘上读取网页资源->返回到用户空间->响应给用户。上述简单的说明了一下,客户端向Web服务请求过程,在这个过程中,有两个I/O过程,一个就是客户端请求的网络I/O,另一个就是Web服务器请求页面的磁盘I/O。 下面我们就来说说Linux的I/O模型。

    三、各种I/O模型详解

    通过上面的对连接的处理分析,我们知道工作在用户空间的web服务器进程是无法直接操作IO的,需要通过系统调用进行,其关系如下:

    技术分享

    即进程向内核进行系统调用申请IO,内核将资源从IO调度到内核的buffer中(wait阶段),内核还需将数据从内核buffer中复制(copy阶段)到web服务器进程所在的用户空间,才算完成一次IO调度。这几个阶段都是需要时间的。根据wait和copy阶段的处理等待的机制不同,可将I/O动作分为如下五种模式:

    • 阻塞I/O
    • 非阻塞I/O
    • I/O复用(select和poll)
    • 信号(事件)驱动I/O(SIGIO)
    • 异步I/O(aio)

      3.1 I/O模型简介

      这里有必要先解释一下阻塞、非阻塞,同步、异步、I/O的概念。

    3.1.1 阻塞和非阻塞:

    阻塞和非阻塞指的是执行一个操作是等操作结束再返回,还是马上返回。

    比如餐馆的服务员为用户点菜,当有用户点完菜后,服务员将菜单给后台厨师,此时有两种方式:

    • 第一种:就在出菜窗口等待,直到厨师炒完菜后将菜送到窗口,然后服务员再将菜送到用户手中;
    • 第二种:等一会再到窗口来问厨师,某个菜好了没?如果没有先处理其他事情,等会再去问一次;

    第一种就是阻塞方式,第二种则是非阻塞的。

    3.1.2 同步和异步:

    同步和异步又是另外一个概念,它是事件本身的一个属性。还拿前面点菜为例,服务员直接跟厨师打交道,菜出来没出来,服务员直接指导,但只有当厨师将 菜送到服务员手上,这个过程才算正常完成,这就是同步的事件。同样是点菜,有些餐馆有专门的传菜人员,当厨师炒好菜后,传菜员将菜送到传菜窗口,并通知服 务员,这就变成异步的了。其实异步还可以分为两种:带通知的和不带通知的。前面说的那种属于带通知的。有些传菜员干活可能主动性不是很够,不会主动通知 你,你就需要时不时的去关注一下状态。这种就是不带通知的异步。

    对于同步的事件,你只能以阻塞的方式去做。而对于异步的事件,阻塞和非阻塞都是可以的。非阻塞又有两种方式:主动查询和被动接收消息。被动不意味着 一定不好,在这里它恰恰是效率更高的,因为在主动查询里绝大部分的查询是在做无用功。对于带通知的异步事件,两者皆可。而对于不带通知的,则只能用主动查 询。

    3.1.3 全异步I/O

    回到I/O,不管是I还是O,对外设(磁盘)的访问都可以分成请求和执行两个阶段。请求就是看外设的状态信息(比如是否准备好了),执行才是真正的 I/O操作。在Linux 2.6之前,只有“请求”是异步事件,2.6之后才引入AIO(asynchronous I/O )把“执行”异步化。别看Linux/Unix是用来做服务器的,这点上比Windows落后了好多,IOCP(Windows上的AIO,效率极高)在Win2000上就有了。所以学linux的别老觉得Windows这里不好那里不好(Windows的多线程机制也由于linux)。

    3.1.4 I/O的五种模型

    根据以上分析,I/O可分为五种模型:

    技术分享

    • 阻塞I/O:所有过程全阻塞
    • 非阻塞I/O:如果没有数据buffer,则立即返回EWOULDBLOCK
    • I/O复用(select和poll):在wait和copy阶段分别阻塞
    • 信号驱动I/O(SIGIO):在wait阶段不阻塞,但copy阶段阻塞(信号驱动I/O,即通知)
    • 异步I/O(aio):完全五阻塞方式,当I/O完成是提供信号

    Linux上的前四种I/O模型的“执行”阶段都是同步的,只有最后一种才做到了真正的全异步。第一种阻塞式是最原始的方法,也是最累的办法。当然 累与不累要看针对谁。应用程序是和内核打交道的。对应用程序来说,这种方式是最累的,但对内核来说这种方式恰恰是最省事的。还拿点菜这事为例,你就是应用 程序,厨师就是内核,如果你去了一直等着,厨师就省事了(不用同时处理其他服务员的菜)。当然现在计算机的设计,包括操作系统,越来越为终端用户考虑了, 为了让用户满意,内核慢慢的承担起越来越多的工作,IO模型的演化也是如此。

    非阻塞I/O ,I/O复用,信号驱动式I/O其实都是非阻塞的,当然是针对“请求”这个阶段。非阻塞式是主动查询外设状态。I/O复用里的select,poll也是 主动查询,不同的是select和poll可以同时查询多个fd(文件句柄)的状态,另外select有fd个数的限制。epoll是基于回调函数的。信 号驱动式I/O则是基于信号消息的。这两个应该可以归到“被动接收消息”那一类中。最后就是伟大的AIO的出现,内核把什么事都干了,对上层应用实现了全 异步,性能最好,当然复杂度也最高。

    3.2 各I/O模型详细介绍【本部分摘自独孤成博客】:

    3.2.1 阻塞I/O

    说明:应用程序调用一个IO函数,导致应用程序阻塞,等待数据准备好。 如果数据没有准备好,一直等待数据准备好了,从内核拷贝到用户空间,IO函数返回成功指示。这个不用多解释吧,阻塞套接字。下图是它调用过程的图示: (注,一般网络I/O都是阻塞I/O,客户端发出请求,Web服务器进程响应,在进程没有返回页面之前,这个请求会处于一直等待状态)

    技术分享

    3.2.2 非阻塞I/O

    我们把一个套接口设置为非阻塞就是告诉内核,当所请求的I/O操作无法完成时,不要将进程睡眠,而是返回一个错误。这样我们的I/O操作函数将不断 的测试数据是否已经准备好,如果没有准备好,继续测试,直到数据准备好为止。在这个不断测试的过程中,会大量的占用CPU的时间,所有一般Web服务器都 不使用这种I/O模型。具体过程如下图:

    技术分享

    3.2.3 I/O复用(select和poll)

    I/O复用模型会用到select或poll函数或epoll函数(Linux2.6以后的内核开始支持),这两个函数也会使进程阻塞,但是和阻塞 I/O所不同的的,这两个函数可以同时阻塞多个I/O操作。而且可以同时对多个读操作,多个写操作的I/O函数进行检测,直到有数据可读或可写时,才真正 调用I/O操作函数。具体过程如下图:

    技术分享

    3.2.4 信号驱动I/O(SIGIO)

    首先,我们允许套接口进行信号驱动I/O,并安装一个信号处理函数,进程继续运行并不阻塞。当数据准备好时,进程会收到一个SIGIO信号,可以在信号处理函数中调用I/O操作函数处理数据。具体过程如下图:

    技术分享

    3.2.5 异步I/O(aio)

    当一个异步过程调用发出后,调用者不能立刻得到结果。实际处理这个调用的部件在完成后,通过状态、通知和回调来通知调用者的输入输出操作。具体过程如下图:

    技术分享

    3.2.6 I/O 模型总结(如下图)

    技术分享

    从上图中我们可以看出,可以看出,越往后,阻塞越少,理论上效率也是最优。其五种I/O模型中,前三种属于同步I/O,后两者属于异步I/O。

    同步I/O:

    阻塞I/O
    非阻塞I/O
    I/O复用(select和poll)

    异步I/O:

    信号驱动I/O(SIGIO) (半异步)
    异步I/O(aio) (真正的异步)

    异步 I/O 和 信号驱动I/O的区别:

    信号驱动 I/O 模式下,内核可以复制的时候通知给我们的应用程序发送SIGIO 消息。
    异步 I/O 模式下,内核在所有的操作都已经被内核操作结束之后才会通知我们的应用程序。

    3.3 Linux I/O模型的具体实现[转自孤城博客]

    3.3.1 主要实现方式有以下几种:

    • select
    • poll
    • epoll
    • kqueue
    • /dev/poll
    • iocp

    注,其中iocp是Windows实现的,select、poll、epoll是Linux实现的,kqueue是FreeBSD实现的,/dev /poll是SUN的Solaris实现的。select、poll对应第3种(I/O复用)模型,iocp对应第5种(异步I/O)模型,那么 epoll、kqueue、/dev/poll呢?其实也同select属于同一种模型,只是更高级一些,可以看作有了第4种(信号驱动I/O)模型的某 些特性,如callback机制。

    3.3.2 为什么epoll、kqueue、/dev/poll比select高级?

    答案是,他们无轮询。因为他们用callback取代了。想想看,当套接字比较多的时候,每次select()都要通过遍历FD_SETSIZE个 Socket来完成调度,不管哪个Socket是活跃的,都遍历一遍。这会浪费很多CPU时间。如果能给套接字注册某个回调函数,当他们活跃时,自动完成 相关操作,那就避免了轮询,这正是epoll、kqueue、/dev/poll做的。这样子说可能不好理解,那么我说一个现实中的例子,假设你在大学读 书,住的宿舍楼有很多间房间,你的朋友要来找你。select版宿管大妈就会带着你的朋友挨个房间去找,直到找到你为止。而epoll版宿管大妈会先记下 每位同学的房间号,你的朋友来时,只需告诉你的朋友你住在哪个房间即可,不用亲自带着你的朋友满大楼找人。如果来了10000个人,都要找自己住这栋楼的 同学时,select版和epoll版宿管大妈,谁的效率更高,不言自明。同理,在高并发服务器中,轮询I/O是最耗时间的操作之一,select、 epoll、/dev/poll的性能谁的性能更高,同样十分明了。

    3.3.3 Windows or *nix (IOCP or kqueue、epoll、/dev/poll)?

    诚然,Windows的IOCP非常出色,目前很少有支持asynchronous I/O的系统,但是由于其系统本身的局限性,大型服务器还是在UNIX下。而且正如上面所述,kqueue、epoll、/dev/poll 与 IOCP相比,就是多了一层从内核copy数据到应用层的阻塞,从而不能算作asynchronous I/O类。但是,这层小小的阻塞无足轻重,kqueue、epoll、/dev/poll 已经做得很优秀了。

    3.3.4 总结一些重点

    只有IOCP(windows实现)是asynchronous I/O,其他机制或多或少都会有一点阻塞。

    select(Linux实现)低效是因为每次它都需要轮询。但低效也是相对的,视情况而定,也可通过良好的设计改善

    epoll(Linux实现)、kqueue(FreeBSD实现)、/dev/poll(Solaris实现)是Reacor模式,IOCP是Proactor模式。

    Apache 2.2.9之前只支持select模型,2.2.9之后支持epoll模型

    Nginx 支持epoll模型

    Java nio包是select模型

    四、Apache Httpd的工作模式

    4.1 apache三种工作模式

    我们都知道Apache有三种工作模块,分别为prefork、worker、event。

    • prefork:多进程,每个请求用一个进程响应,这个过程会用到select机制来通知。
    • worker:多线程,一个进程可以生成多个线程,每个线程响应一个请求,但通知机制还是select不过可以接受更多的请求。
    • event:基于异步I/O模型,一个进程或线程,每个进程或线程响应多个用户请求,它是基于事件驱动(也就是epoll机制)实现的。

    4.2 prefork的工作原理

    如果不用“--with-mpm”显式指定某种MPM,prefork就是Unix平台上缺省的MPM.它所采用的预派生子进程方式也是 Apache1.3中采用的模式。prefork本身并没有使用到线程,2.0版使用它是为了与1.3版保持兼容性;另一方面,prefork用单独的子 进程来处理不同的请求,进程之间是彼此独立的,这也使其成为最稳定的MPM之一。

    4.3 worker的工作原理

    相对于prefork,worker是2.0版中全新的支持多线程和多进程混合模型的MPM。由于使用线程来处理,所以可以处理相对海量的请求,而 系统资源的开销要小于基于进程的服务器。但是,worker也使用了多进程,每个进程又生成多个线程,以获得基于进程服务器的稳定性,这种MPM的工作方 式将是Apache2.0的发展趋势。

    4.4 event 基于事件机制的特性

    一个进程响应多个用户请求,利用callback机制,让套接字复用,请求过来后进程并不处理请求,而是直接交由其他机制来处理,通过epoll机 制来通知请求是否完成;在这个过程中,进程本身一直处于空闲状态,可以一直接收用户请求。可以实现一个进程程响应多个用户请求。支持持海量并发连接数,消 耗更少的资源。

    五、如何提高Web服务器的并发连接处理能力

    有几个基本条件:

    • 基于线程,即一个进程生成多个线程,每个线程响应用户的每个请求。
    • 基于事件的模型,一个进程处理多个请求,并且通过epoll机制来通知用户请求完成。
    • 基于磁盘的AIO(异步I/O)
    下一篇:没有了