为什么 P8 程序员的代码你写不出来?零拷贝了解一下
扫描二维码
随时随地手机看文章
为什么IO接口要基于数据拷贝?
为了让广大码农们更好的沉迷于自己的一亩三分地,防止ta们分心去关心计算机中的硬件资源分配问题,操作系统诞生了。操作系统本质上就是一个管家,目的就是更加公平合理的给各个进程分配硬件资源,在操作系统出现之前,程序员需要直面各类硬件,就像这样:


网络服务器
浏览器打开一个网页需要很多数据,包括看到的图片、html文件、css文件、js文件等等,当浏览器请求这类文件时服务器端的工作其实是非常简单的:服务器只需要从磁盘中抓出该文件然后丢给网络发送出去。
read(fileDesc, buf, len);
write(socket, buf, len);
这两段代码非常简单,第一行代码从文件中读取数据存放在buf中,然后将buf中的数据通过网络发送出去。注意观察buf,服务器全程没有对buf中的数据进行任何修改,buf里的数据在用户态逛了一圈后挥一挥衣袖没有带走半点云彩就回到了内核态。这两行看似简单的代码实际上在底层发生了什么呢?答案是这样的:

- read函数会涉及一次用户态到内核态的切换,操作系统会向磁盘发起一次IO请求,当数据准备好后通过DMA技术把数据拷贝到内核的buffer中,注意本次数据拷贝无需CPU参与。
- 此后操作系统开始把这块数据从内核拷贝到用户态的buffer中,此时read()函数返回,并从内核态切换回用户态,到这时read(fileDesc, buf, len);这行代码就返回了,buf中装好了新鲜出炉的数据。
- 接下来send函数再次导致用户态与内核态的切换,此时数据需要从用户态buf拷贝到网络协议子系统的buf中,具体点该buf属于在代码中使用的这个socket。
- 此后send函数返回,再次由内核态返回到用户态;此时在程序员看来数据已经成功发出去了,但实际上数据可能依然停留在内核中,此后第四次数据copy开始,利用DMA技术把数据从socket buf拷贝给网卡,然后真正的发送出去。
发现问题
有的同学肯定已经注意到了,既然在用户态没有对数据进行任何修改,那为什么要这么麻烦的让数据在用户态来个一日游呢?直接在内核态从磁盘给到网卡不就可以了吗?恭喜你,答对了!这种优化思路就是所谓的零拷贝技术,Zero Copy。总体上来看,优化数据拷贝会有以下三个方向:- 用户态不需要真正的去访问数据,就像上面这个示例,用户态根本不需要知道buf里面装的是什么。在这种情况下无需把数据从内核态拷贝到用户态然后再把数据从用户态拷贝回内核态。数据无需用户态感知,数据拷贝完全发生在内核态。
- 内核态不要真正的去访问数据,用户态程序可以绕过内核直接和硬件交互,这样就避免了内核的参与,从而减少数据拷贝的可能。内核无需感知数据。
- 如果内核态和用户态不得不进行数据交互,则优化用户态与内核态数据的交互方式。
mmap
是的,就是mmap,在《mmap可以让程序员实现哪些骚操作》一文中我们对其进行了详细讲解,你能想到mmap还可以实现零拷贝吗?对于本文提到的网络服务器我们可以这样修改代码:buf = mmap(file, len);
write(socket, buf, len);
你可能会想仅仅将read替换为mmap会有什么优化吗?如果你真的理解了mmap就会知道,mmap仅仅将文件内容映射到了进程地址空间中,并没有真正的拷贝到进程地址空间,这节省了一次从内核态到用户态的数据拷贝。同样的,当调用write时数据直接从内核buf拷贝给了socket buf,而不是像read/write方法中把用户态数据拷贝给socket buf。

sendfile
你没有看错,在Linux系统下为了解决数据拷贝问题专门设计了这一系统调用:#include
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);
Windows下也有一个作用类似的API:TransmitFile。这一系统调用的目的是在两个文件描述之间拷贝数据,但值得注意的是,数据拷贝的过程完全是在内核态完成,因此在网络服务器的这个例子中我们将把那两行代码简化为一行,也就是调用这里的sendfile。使用sendfile将节省两次数据拷贝,因为数据无需传输到用户态:
sendfile 与DMA Gather Copy
传统的DMA机制必须从一段连续的空间中传输数据,就像这样:



Splice
这里还要再次强调一下不管是sendfile还是这里的splice系统调用,使用的大前提都是无需在用户态看到要传递的数据。让我们再来看一下传统的read/write方法。在这一方法下必须将数据从内核态拷贝的用户态,然后在从用户态拷贝回内核态,既然用户态无需对该数据有任何操作,那么为什么不让数据传输直接在内核态中进行呢?现在目标有了,实现方法呢?答案是借助Linux世界中用于进程间通信的管道,pipe。还是以网络服务器为例,DMA把数据从磁盘拷贝到文件buf,然后将数据写入管道,当在再次调用splice后将数据从管道读入socket buf中,然后通过DMA发送出去,值得注意的是向管道写数据以及从管道读数据并没有真正的拷贝数据,而仅仅传递的是该数据相关的必要信息。