零拷贝：让数据"走捷径"的三十年技术演进

1995年，一名程序员在测试文件服务器时发现了一个令人困惑的现象：服务器CPU利用率高达80%，但实际的数据传输速度却远低于硬件理论带宽。追踪后发现，超过60%的CPU时间花在了同一个操作上——memcpy()。

这不是代码写得烂，而是操作系统设计的必然结果。当数据从磁盘流向网络，传统I/O路径要求它四次经过CPU的手。零拷贝技术就是为了打破这个困局而生。

传统I/O的隐形成本

理解零拷贝的价值，必须先看清传统I/O路径的全貌。

假设一个简单的场景：从磁盘读取文件并通过网络发送。使用传统的read()和write()组合，数据需要经历以下旅程：

DMA拷贝：磁盘控制器将数据从磁盘读取到内核的page cache
CPU拷贝：read()系统调用将数据从page cache复制到用户态缓冲区
CPU拷贝：write()系统调用将数据从用户态缓冲区复制到内核的socket缓冲区
DMA拷贝：网络接口卡将数据从socket缓冲区发送到网络

这还没完。每次系统调用都伴随着上下文切换：从用户态进入内核态，处理完毕后再返回。read()触发两次，write()又触发两次。对于一次文件传输，总共发生四次拷贝、两次上下文切换。

上下文切换的成本在现代系统上大约是0.1-1微秒，看起来微不足道。但当你的服务器每秒处理数十万次请求时，这个开销会迅速累积。更严重的是内存拷贝本身——memcpy()是一个内存带宽密集型操作。

现代服务器的内存带宽通常在50-200 GB/s。理论上，一个10 Gbps的网络接口只需要约1.2 GB/s的带宽。但如果你用传统I/O，数据在内存中被来回搬运，实际占用的内存带宽可能翻倍甚至更多。当多个连接并发传输大文件时，内存总线就会成为瓶颈。

DMA：把CPU从搬运工岗位上解放下来

零拷贝的第一层优化不是减少拷贝次数，而是改变拷贝的执行者。

DMA（Direct Memory Access）的概念早在1950年代就出现了。它的核心思想很简单：让I/O设备直接访问内存，不需要CPU逐字节搬运。现代的磁盘控制器、网卡都内置了DMA引擎。

当操作系统发起一个磁盘读请求时，它会设置DMA控制器的源地址、目标地址和传输长度，然后CPU就可以去做别的事情。DMA完成后通过中断通知CPU。这个过程被称为"周期窃取"——DMA控制器在CPU不使用总线的间隙进行数据传输。

DMA的引入解决了两次拷贝的问题（磁盘到内存、内存到网络），但中间那两次CPU拷贝仍然存在。问题在于：用户态程序必须能"看到"数据才能处理它，而内核出于安全考虑，不允许用户态程序直接访问内核内存。

这就是零拷贝技术要解决的核心矛盾。

mmap：用虚拟内存"欺骗"程序

1980年代，随着虚拟内存技术的普及，操作系统获得了一个强大的工具：页表映射。

mmap()系统调用的巧妙之处在于，它不拷贝数据，而是建立一条"通道"。当程序调用mmap()将文件映射到内存时，内核在进程的页表中创建一系列条目，将这些虚拟地址指向文件的page cache。

void *data = mmap(NULL, file_size, PROT_READ, MAP_PRIVATE, fd, 0);
// data现在直接指向内核page cache中的文件数据
write(socket_fd, data, file_size);

从程序的角度看，它获得了一个指向文件内容的指针。从内核的角度看，数据仍然在page cache中，只是被"映射"到了用户态地址空间。这样，第一次CPU拷贝就被消除了。

但mmap()并非万灵药。它仍然需要两次上下文切换（mmap和write），而且引入了新的复杂性：

页错误的处理开销。mmap()只是建立了映射，数据并不一定已经在内存中。当程序首次访问某个页面时，会触发页错误，内核再从磁盘加载数据。对于随机访问模式，这可能导致大量页错误，反而降低性能。

信号处理的风险。如果文件在mmap()之后被其他进程截断，访问已失效的映射区域会触发SIGBUS信号，导致程序崩溃。

内存压力。mmap()会占用虚拟地址空间。对于32位进程，这很快成为瓶颈。64位系统理论上地址空间充足，但过度的映射仍然会增加内核管理页表的开销。

sendfile：把选择权交给内核

Linux 2.2（1999年）引入了sendfile()系统调用，这是零拷贝技术的第二个里程碑。

sendfile()的设计理念是：既然数据只需要从文件流向socket，为什么不让内核直接完成整个操作？

sendfile(socket_fd, file_fd, &offset, file_size);

一个系统调用，数据从文件描述符传输到socket描述符。用户态程序只需要指定源和目标，不需要看到数据本身。

对比传统路径，sendfile()消除了用户态缓冲区，将两次系统调用合并为一次。拷贝次数从四次减少到三次，上下文切换从两次减少到一次。

Linux 2.4（2001年）进一步优化了sendfile()，引入了scatter/gather DMA的支持。这里的技巧是：socket缓冲区不再存储数据本身，而是存储指向page cache中数据的描述符（地址和长度）。网卡读取这些描述符，然后直接从page cache获取数据。

在这种模式下，真正实现了零次CPU拷贝。数据路径变成了：

DMA从磁盘读取到page cache
网卡通过DMA直接从page cache读取并发送

sendfile()的局限性也很明显：源必须是文件（支持mmap的文件描述符），目标最初只能是socket（Linux 2.6.33之后才支持普通文件）。而且，如果需要在发送前对数据进行任何处理（如加密、压缩），sendfile()就无能为力了。

splice：通用化的数据管道

Linux 2.6.17（2006年）引入的splice()系统调用试图解决sendfile()的灵活性问题。

splice()的核心思想是把pipe（管道）作为内核态数据传输的中介。pipe在Linux内核中不仅是进程间通信的工具，更是一个高效的数据容器。splice()可以在任意两个文件描述符之间移动数据，只要其中至少一个是pipe。

splice(file_fd, NULL, pipe_fds[1], NULL, size, SPLICE_F_MOVE);
splice(pipe_fds[0], NULL, socket_fd, NULL, size, SPLICE_F_MOVE);

这两步操作将文件数据"泵"过pipe，再从pipe泵到socket。数据全程留在内核态，避免了用户态和内核态之间的拷贝。

splice()比sendfile()更通用，但代价是需要额外的pipe作为中介。实际上，Linux内核中sendfile()在较新版本中已经是对splice()的包装——当目标是socket时，内核内部将其转换为splice操作。

MSG_ZEROCOPY：零拷贝的网络发送

Linux 4.14（2017年）引入的MSG_ZEROCOPY标志将零拷贝扩展到了socket发送操作。

传统的send()会将用户态缓冲区的数据复制到内核的socket缓冲区。如果使用MSG_ZEROCOPY标志：

setsockopt(socket_fd, SOL_SOCKET, SO_ZEROCOPY, &one, sizeof(one));
send(socket_fd, buffer, size, MSG_ZEROCOPY);

内核不会立即复制数据，而是"钉住"用户态内存页面，让网卡直接从这些页面读取数据。这里的"钉住"（pin）是关键——它防止这些页面被换出或移动，保证DMA操作的安全性。

MSG_ZEROCOPY带来了新的复杂性：程序不能立即重用缓冲区。因为网卡可能还在读取数据，程序必须等待内核的完成通知。内核通过socket的错误队列返回通知，程序需要使用recvmsg()配合MSG_ERRQUEUE标志来接收。

// 等待零拷贝完成通知
poll(&pfd, 1, -1);
recvmsg(socket_fd, &msg, MSG_ERRQUEUE);
// 现在可以安全地重用buffer了

这种机制的引入使得MSG_ZEROCOPY主要用于大数据块传输。内核文档指出，只有当传输大小超过约10KB时，零拷贝带来的收益才能抵消页钉住和通知机制的开销。

io_uring：异步I/O的新范式

Linux 5.1（2019年）引入的io_uring代表了零拷贝技术的最新演进。

io_uring的核心创新是共享内存环形缓冲区。程序和内核通过两个环形队列（submission queue和completion queue）进行通信，这两个队列被映射到用户态和内核态共享的内存区域。

传统的系统调用需要从用户态切换到内核态，而io_uring允许程序在用户态批量提交多个I/O请求，内核处理完毕后在completion queue中写入结果。程序只需要轮询completion queue，不需要阻塞或切换上下文。

对于零拷贝接收，io_uring在Linux 6.0之后引入了ZC Rx（Zero Copy Receive）功能。网卡直接将数据写入用户态预分配的内存区域，完全绕过内核的socket缓冲区。这需要网卡支持header/data split功能——将TCP头部和负载分开，头部交给内核处理，负载直接送入用户态内存。

实际应用中的权衡

Kafka的消息传输

Kafka是零拷贝技术的经典应用案例。当消费者从Broker拉取消息时，消息数据已经在Broker的page cache中。Kafka使用Java的FileChannel.transferTo()方法，底层调用sendfile()，将数据直接从page cache传输到网络接口。

这个设计是Kafka高吞吐量的关键因素之一。在没有零拷贝的情况下，Broker需要将消息从page cache复制到JVM堆内存，再从堆内存复制到socket缓冲区。对于每秒数百万条消息的场景，这些复制会消耗大量CPU和内存带宽。

Nginx的静态文件服务

Nginx默认启用sendfile指令。对于静态文件请求，Nginx只需解析HTTP请求头，然后调用sendfile()将文件内容发送到客户端。这解释了为什么Nginx能在有限的CPU资源下处理极高的并发连接。

但Nginx文档也警告了sendfile的局限性：对于非常大的文件，sendfile可能导致连接长时间阻塞。在这种情况下，使用异步I/O（aio指令）可能更合适。

数据库系统的选择

大多数现代数据库（如PostgreSQL、MySQL）选择不使用mmap，而是使用O_DIRECT进行直接I/O。原因在于数据库需要精细控制数据在内存中的布局和生命周期，而操作系统的page cache可能做出与数据库需求冲突的决策。CMU数据库组在2022年的论文《Are You Sure You Want to Use MMAP in Your Database System?》中详细分析了这种权衡。

零拷贝的边界

零拷贝不是无代价的优化。页钉住操作会限制内存的灵活性，完成通知机制增加了编程复杂性，共享内存映射带来了同步问题。

更根本的是，零拷贝假设数据只是被"搬运"而不被"处理"。一旦需要对数据进行任何修改——加密、压缩、协议转换——CPU就必须接触数据，零拷贝的优势就会减弱甚至消失。

这也是为什么零拷贝在静态文件服务、消息队列等场景中大放异彩，但在数据库查询、视频转码等计算密集型任务中应用有限。选择零拷贝之前，需要确认你的瓶颈确实在I/O路径上，而不是在数据处理上。

参考资料

Linux Kernel Documentation. “MSG_ZEROCOPY”. https://docs.kernel.org/networking/msg_zerocopy.html
Linux Kernel Documentation. “io_uring zero copy Rx”. https://docs.kernel.org/networking/iou-zcrx.html
Linux man pages. “sendfile(2)”. https://man7.org/linux/man-pages/man2/sendfile.2.html
Linux Kernel Documentation. “splice and pipes”. https://docs.kernel.org/filesystems/splice.html
Dr. Dobb’s Journal. “Zero Copy I: User-Mode Perspective”. 2003. https://www.linuxjournal.com/article/6345
LWN.net. “The rapid growth of io_uring”. 2020. https://lwn.net/Articles/810414/
LWN.net. “Zero-copy network transmission with io_uring”. 2022. https://lwn.net/Articles/880970/
Oracle Blogs. “An In-Depth Look at Pipe and Splice implementation in Linux kernel”. 2023. https://blogs.oracle.com/linux/pipe-and-splice
LWN.net. “Rethinking splice()”. 2023. https://lwn.net/Articles/923237/
LWN.net. “Zero-copy TCP receive”. https://lwn.net/Articles/752188/
ScyllaDB Blog. “Different I/O Access Methods for Linux”. 2017. https://www.scylladb.com/2017/10/05/io-access-methods-scylla/
CMU Database Group. “Are You Sure You Want to Use MMAP in Your Database System?”. CIDR 2022. https://db.cs.cmu.edu/papers/2022/cidr2022-p13-crotty.pdf
IBM Developer. “Java ZeroCopy I/O optimization for high throughput networking”. https://developer.ibm.com/articles/j-zerocopy/
F5 NGINX. “Tuning NGINX for Performance”. https://www.f5.com/company/blog/nginx/tuning-nginx
Wikipedia. “Direct memory access”. https://en.wikipedia.org/wiki/Direct_memory_access
Wikipedia. “Copy-on-write”. https://en.wikipedia.org/wiki/Copy-on-write
Wikipedia. “Translation lookaside buffer”. https://en.wikipedia.org/wiki/Translation_lookaside_buffer
GeeksforGeeks. “Direct Memory Access (DMA) Controller”. https://www.geeksforgeeks.org/computer-organization-architecture/direct-memory-access-dma-controller-in-computer-architecture/
Stack Overflow. “Why is FileChannel transferTo() faster?”. https://stackoverflow.com/questions/16451642/
Medium. “Linux Zero-Copy Using sendfile()”. https://medium.com/swlh/linux-zero-copy-using-sendfile-75d2eb56b39b

传统I/O的隐形成本#

DMA：把CPU从搬运工岗位上解放下来#

mmap：用虚拟内存"欺骗"程序#

sendfile：把选择权交给内核#

splice：通用化的数据管道#

MSG_ZEROCOPY：零拷贝的网络发送#

io_uring：异步I/O的新范式#

实际应用中的权衡#

零拷贝的边界#

更多精彩内容

共享内存比管道快100倍，但你的系统可能用错了：Linux进程间通信的性能真相与选择困境

DPDK如何在十五年间重塑高速网络处理从内核旁路到用户态数据平面的技术博弈

中断处理为何必须拆成两半：从顶半部到底半部的二十年架构博弈

文件监控技术为何成为跨平台开发的终极难题——从Linux内核演进到工程实践的三十年技术博弈

文件描述符：一个整数如何连接进程与内核的四十年演进